ApacheCN 大数据译文集（二） 20211206 更新大数据

Hadoop3 大数据分析
- 零、前言
- 一、Hadoop 简介
- 二、大数据分析概述
- 三、MapReduce 大数据处理
- 四、基于 Python 和 Hadoop 的科学计算和大数据分析
- 五、基于 R 和 Hadoop 的统计大数据计算
- 六、Apache Spark 批处理分析
- 七、Apache Spark 实时分析
- 八、Apache Flink 批处理分析
- 九、Apache Flink 流处理
- 十、可视化大数据
- 十一、云计算简介
- 十二、使用亚马逊网络服务
Hadoop 和 R 大数据分析
- 零、前言
- 一、准备使用 R 和 Hadoop
- 二、编写 Hadoop MapReduce 程序
- 三、集成 R 和 Hadoop
- 四、使用 Hadoop 流
- 五、使用 R 和 Hadoop 学习数据分析
- 六、使用机器学习理解大数据分析
- 七、从各种数据库导入和导出数据
- 八、附录 a：参考文献
Hadoop 深度学习
- 零、前言
- 一、深度学习导论
- 二、大规模数据的分布式深度学习
- 三、卷积神经网络
- 四、循环神经网络
- 五、受限玻尔兹曼机
- 六、自编码器
- 七、使用 Hadoop 的其他深度学习操作
- 八、附录 1：参考文献
Hadoop 集群部署手册
- 零、前言
- 一、设置 Hadoop 集群——从硬件到发行版
- 二、安装和配置 Hadoop
- 三、配置 Hadoop 生态系统
- 四、保护 Hadoop 安装
- 五、监控 Hadoop 集群
- 六、将 Hadoop 部署到云
Hadoop 基础知识
- 零、前言
- 一、大数据和 Hadoop 简介
- 二、Hadoop 生态系统
- 三、Hadoop 的支柱——HDFS、MapReduce 和 Yarn
- 四、数据访问组件——Hive 和 PIG
- 五、存储组件——HBase
- 六、Hadoop 中的数据摄取——SQOOP 和 Flume
- 七、流和实时分析–Storm 和 Spark
Hadoop 现代大数据处理
- 零、前言
- 一、企业数据架构原则
- 二、Hadoop 生命周期管理
- 三、Hadoop 设计考虑
- 四、数据移动技术
- 五、Hadoop 中的数据建模
- 六、设计实时流数据管道
- 七、大规模数据处理框架
- 八、构建企业搜索平台
- 九、设计数据可视化解决方案
- 十、使用云开发应用
- 十一、面向生产的 Hadoop 集群部署
【ApacheCN 大数据译文集（二） 20211206 更新】Hadoop 和 Flume 分布式日志收集
- 零、前言
- 一、概述和架构
- 二、Flume 快速入门
- 三、通道
- 四、Flume 和 Flume 处理器
- 五、信号源和通道选择器
- 六、拦截器、ETL 和路由
- 七、监控 Flume
- 八、实时分布式数据采集的实际情况
Hadoop 初学者指南
- 零、前言
- 一、说明这一切是怎么回事
- 二、启动和运行 Hadoop
- 三、了解 MapReduce
- 四、开发 MapReduce 程序
- 五、高级 MapReduce 技术
- 六、当事情崩溃时
- 七、保持运转
- 八、Hive 数据关系视图
- 九、使用关系数据库
- 十、使用 Flume 收集数据
- 十一、下一步要去哪里
- 十二、附录 A：答案
Hadoop MapReduce v2 秘籍
- 零、前言
- 一、Hadoop v2 入门
- 二、云部署——在云环境中使用 Hadoop Yarn
- 三、Hadoop 基础知识——配置、单元测试和其他 API
- 四、开发复杂的 Hadoop MapReduce 应用
- 五、分析
- 六、Hadoop 生态系统——ApacheHive
- 七、Hadoop 生态系统 II——Pig、HBase、Mahout 和 Sqoop
- 八、搜索和索引
- 九、分类、推荐和查找关系
- 十、海量文本数据处理
Hadoop 操作与集群管理秘籍
- 零、前言
- 一、大数据和 Hadoop
- 二、准备安装 Hadoop
- 三、配置 Hadoop 集群
- 四、管理 Hadoop 集群
- 五、增强 Hadoop 集群
- 六、监控 Hadoop 集群
- 七、调整 Hadoop 集群来获得最佳性能
- 八、使用 Amazon EC2 和 S3 构建 Hadoop 集群
HBase 管理秘籍
- 零、前言
- 一、配置 HBase 集群
- 二、数据迁移
- 三、使用管理工具
- 四、备份和恢复 HBase 数据
- 五、监控与诊断
- 六、设备维护和安全
- 七、故障排除
- 八、基本性能调整
- 九、高级配置和调整
Hive 基础知识
- 零、前言
- 一、大数据和 Hive 概述
- 二、设置 Hive 环境
- 三、数据定义和描述
- 四、数据关联和范围
- 五、数据操作
- 六、数据汇总和采样
- 七、性能注意事项
- 八、可扩展性注意事项
- 九、安全考虑
- 十、使用其他工具
Hadoop2 学习手册
- 零、前言
- 一、引言
- 二、存储
- 三、数据处理——MapReduce 及以后
- 四、使用 Samza 的实时计算
- 五、使用 Spark 的迭代计算
- 六、使用 Apache Pig 的数据分析
- 七、Hadoop 和 SQL
- 八、数据生命周期管理
- 九、让开发变得更容易
- 十、运行 Hadoop 集群
- 十一、下一步要去哪里
微软 SQLServer 2012 和 Hadoop
- 零、前言
- 一、大数据和 Hadoop 简介
- 二、使用 Sqoop——SQL Server Hadoop 连接器
- 三、使用配置单元 ODBC 驱动
- 四、使用 SQL Server Analysis Services 创建数据模型
- 五、使用微软的自助式商业智能工具
Hadoop MapReduce 优化指南
- 零、前言
- 一、了解 Hadoop MapReduce
- 二、Hadoop 参数概述
- 三、检测系统瓶颈
- 四、识别资源弱点
- 五、增强映射和归约任务
- 六、优化映射归约任务
- 七、最佳实践和建议
PIG 设计模式
- 零、前言
- 一、为 PIG 的设计模式设定背景
- 二、数据接收和输出模式
- 三、数据分析模式
- 四、数据验证和清理模式
- 五、数据转换模式
- 六、理解数据简化模式
- 七、高级模式和未来工作