ApacheCN 大数据译文集(二) 20211206 更新

  • Hadoop3 大数据分析
    • 零、前言
    • 一、Hadoop 简介
    • 二、大数据分析概述
    • 三、MapReduce 大数据处理
    • 四、基于 Python 和 Hadoop 的科学计算和大数据分析
    • 五、基于 R 和 Hadoop 的统计大数据计算
    • 六、Apache Spark 批处理分析
    • 七、Apache Spark 实时分析
    • 八、Apache Flink 批处理分析
    • 九、Apache Flink 流处理
    • 十、可视化大数据
    • 十一、云计算简介
    • 十二、使用亚马逊网络服务
  • Hadoop 和 R 大数据分析
    • 零、前言
    • 一、准备使用 R 和 Hadoop
    • 二、编写 Hadoop MapReduce 程序
    • 三、集成 R 和 Hadoop
    • 四、使用 Hadoop 流
    • 五、使用 R 和 Hadoop 学习数据分析
    • 六、使用机器学习理解大数据分析
    • 七、从各种数据库导入和导出数据
    • 八、附录 a:参考文献
  • Hadoop 深度学习
    • 零、前言
    • 一、深度学习导论
    • 二、大规模数据的分布式深度学习
    • 三、卷积神经网络
    • 四、循环神经网络
    • 五、受限玻尔兹曼机
    • 六、自编码器
    • 七、使用 Hadoop 的其他深度学习操作
    • 八、附录 1:参考文献
  • Hadoop 集群部署手册
    • 零、前言
    • 一、设置 Hadoop 集群——从硬件到发行版
    • 二、安装和配置 Hadoop
    • 三、配置 Hadoop 生态系统
    • 四、保护 Hadoop 安装
    • 五、监控 Hadoop 集群
    • 六、将 Hadoop 部署到云
  • Hadoop 基础知识
    • 零、前言
    • 一、大数据和 Hadoop 简介
    • 二、Hadoop 生态系统
    • 三、Hadoop 的支柱——HDFS、MapReduce 和 Yarn
    • 四、数据访问组件——Hive 和 PIG
    • 五、存储组件——HBase
    • 六、Hadoop 中的数据摄取——SQOOP 和 Flume
    • 七、流和实时分析–Storm 和 Spark
  • Hadoop 现代大数据处理
    • 零、前言
    • 一、企业数据架构原则
    • 二、Hadoop 生命周期管理
    • 三、Hadoop 设计考虑
    • 四、数据移动技术
    • 五、Hadoop 中的数据建模
    • 六、设计实时流数据管道
    • 七、大规模数据处理框架
    • 八、构建企业搜索平台
    • 九、设计数据可视化解决方案
    • 十、使用云开发应用
    • 十一、面向生产的 Hadoop 集群部署
  • 【ApacheCN 大数据译文集(二) 20211206 更新】Hadoop 和 Flume 分布式日志收集
    • 零、前言
    • 一、概述和架构
    • 二、Flume 快速入门
    • 三、通道
    • 四、Flume 和 Flume 处理器
    • 五、信号源和通道选择器
    • 六、拦截器、ETL 和路由
    • 七、监控 Flume
    • 八、实时分布式数据采集的实际情况
  • Hadoop 初学者指南
    • 零、前言
    • 一、说明这一切是怎么回事
    • 二、启动和运行 Hadoop
    • 三、了解 MapReduce
    • 四、开发 MapReduce 程序
    • 五、高级 MapReduce 技术
    • 六、当事情崩溃时
    • 七、保持运转
    • 八、Hive 数据关系视图
    • 九、使用关系数据库
    • 十、使用 Flume 收集数据
    • 十一、下一步要去哪里
    • 十二、附录 A:答案
  • Hadoop MapReduce v2 秘籍
    • 零、前言
    • 一、Hadoop v2 入门
    • 二、云部署——在云环境中使用 Hadoop Yarn
    • 三、Hadoop 基础知识——配置、单元测试和其他 API
    • 四、开发复杂的 Hadoop MapReduce 应用
    • 五、分析
    • 六、Hadoop 生态系统——ApacheHive
    • 七、Hadoop 生态系统 II——Pig、HBase、Mahout 和 Sqoop
    • 八、搜索和索引
    • 九、分类、推荐和查找关系
    • 十、海量文本数据处理
  • Hadoop 操作与集群管理秘籍
    • 零、前言
    • 一、大数据和 Hadoop
    • 二、准备安装 Hadoop
    • 三、配置 Hadoop 集群
    • 四、管理 Hadoop 集群
    • 五、增强 Hadoop 集群
    • 六、监控 Hadoop 集群
    • 七、调整 Hadoop 集群来获得最佳性能
    • 八、使用 Amazon EC2 和 S3 构建 Hadoop 集群
  • HBase 管理秘籍
    • 零、前言
    • 一、配置 HBase 集群
    • 二、数据迁移
    • 三、使用管理工具
    • 四、备份和恢复 HBase 数据
    • 五、监控与诊断
    • 六、设备维护和安全
    • 七、故障排除
    • 八、基本性能调整
    • 九、高级配置和调整
  • Hive 基础知识
    • 零、前言
    • 一、大数据和 Hive 概述
    • 二、设置 Hive 环境
    • 三、数据定义和描述
    • 四、数据关联和范围
    • 五、数据操作
    • 六、数据汇总和采样
    • 七、性能注意事项
    • 八、可扩展性注意事项
    • 九、安全考虑
    • 十、使用其他工具
  • Hadoop2 学习手册
    • 零、前言
    • 一、引言
    • 二、存储
    • 三、数据处理——MapReduce 及以后
    • 四、使用 Samza 的实时计算
    • 五、使用 Spark 的迭代计算
    • 六、使用 Apache Pig 的数据分析
    • 七、Hadoop 和 SQL
    • 八、数据生命周期管理
    • 九、让开发变得更容易
    • 十、运行 Hadoop 集群
    • 十一、下一步要去哪里
  • 微软 SQLServer 2012 和 Hadoop
    • 零、前言
    • 一、大数据和 Hadoop 简介
    • 二、使用 Sqoop——SQL Server Hadoop 连接器
    • 三、使用配置单元 ODBC 驱动
    • 四、使用 SQL Server Analysis Services 创建数据模型
    • 五、使用微软的自助式商业智能工具
  • Hadoop MapReduce 优化指南
    • 零、前言
    • 一、了解 Hadoop MapReduce
    • 二、Hadoop 参数概述
    • 三、检测系统瓶颈
    • 四、识别资源弱点
    • 五、增强映射和归约任务
    • 六、优化映射归约任务
    • 七、最佳实践和建议
  • PIG 设计模式
    • 零、前言
    • 一、为 PIG 的设计模式设定背景
    • 二、数据接收和输出模式
    • 三、数据分析模式
    • 四、数据验证和清理模式
    • 五、数据转换模式
    • 六、理解数据简化模式
    • 七、高级模式和未来工作
下载 Docker
docker pull apachecn0/apachecn-bigdata-zh docker run -tid -p :80 apachecn0/apachecn-bigdata-zh # 访问 http://localhost:{port}

PYPI
pip install apachecn-bigdata-zh apachecn-bigdata-zh # 访问 http://localhost:{port}

NPM
npm install -g apachecn-bigdata-zh apachecn-bigdata-zh # 访问 http://localhost:{port}

贡献指南 本项目需要校对,欢迎大家提交 Pull Request。
请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科)
组织介绍 访问我们的主页。
赞助我们 通过平台自带的打赏功能,或点击这里。

    推荐阅读