ApacheCN 大数据译文集 20211206 更新

  • PySpark 大数据分析实用指南
    • 零、前言
    • 一、安装 Pyspark 并设置您的开发环境
    • 二、使用 RDD 将您的大数据带入 Spark 环境
    • 三、Spark 笔记本的大数据清理和整理
    • 四、将数据汇总成有用的报告
    • 五、强大的 MLlib 探索性数据分析
    • 六、使用 SparkSQL 构建大数据结构
    • 七、转换和动作
    • 八、不变设计
    • 九、避免打乱和降低操作成本
    • 十、以正确的格式保存数据
    • 十一、使用 Spark 键/值应用编程接口
    • 十二、测试 ApacheSpark 作业
    • 十三、利用 Spark 图形接口
  • Spark 大规模机器学习
    • 零、前言
    • 一、Spark 数据分析简介
    • 二、机器学习最佳实践
    • 三、通过理解数据来理解问题
    • 四、通过特征工程提取知识
    • 五、监督和非监督学习示例
    • 六、构建可扩展的机器学习管道
    • 七、调整机器学习模型
    • 八、调整您的机器学习模型
    • 九、使用流和图数据的高级机器学习
    • 十、配置和使用外部库
  • Spark SQL 学习手册
    • 零、前言
    • 一、Spark SQL 入门
    • 二、使用 Spark SQL 处理结构化和半结构化数据
    • 三、将 Spark SQL 用于数据探索
    • 四、将 Spark SQL 用于数据管理
    • 五、在流式应用中使用 Spark SQL
    • 六、Spark SQL 在机器学习应用中的应用
    • 七、在图应用中使用 Spark SQL
    • 八、使用 Spark SQL 和 Spark
    • 九、使用 Spark SQL 开发应用
    • 十、在深度学习应用中使用 Spark SQL
    • 十一、针对性能调整 Spark SQL 组件
    • 十二、大规模应用架构中的 Spark SQL
  • 精通 Spark 2.x 机器学习
    • 零、前言
    • 一、大规模机器学习和 Spark 导论
    • 二、探测暗物质——希格斯玻色子粒子
    • 三、多类分类的集成方法
    • 四、使用自然语言处理和 Spark 流预测电影评论
    • 五、用于预测和聚类的 word2vec
    • 六、从点击流数据中提取模式
    • 七、将 GraphX 用于图分析
    • 八、贷款俱乐部的贷款预测
  • 精通 Spark 数据科学
    • 零、前言
    • 一、大数据科学生态系统
    • 二、数据采集
    • 三、输入格式和模式
    • 四、探索性数据分析
    • 五、Spark 地理分析
    • 六、基于链接抓取外部数据
    • 七、构建社区
    • 八、构建推荐系统
    • 九、新闻词典和实时标签系统
    • 十、故事重复和突变
    • 十一、基于情感分析的异常检测
    • 十二、趋势演算
    • 十三、数据安全
    • 十四、可扩展算法
  • PySpark 秘籍
    • 零、前言
    • 一、安装和配置 Spark
    • 二、使用关系数据库抽象数据
    • 三、使用数据帧抽象数据
    • 四、为建模准备数据
    • 五、基于 MLlib 的机器学习
    • 六、使用最大似然模块的机器学习
    • 七、使用 PySpark 的结构化流
    • 八、图框架——使用 PySpark 的图论
  • Scala 和 Spark 大数据分析
    • 零、前言
    • 一、Scala 简介
    • 二、面向对象的 Scala
    • 三、函数式编程概念
    • 四、集合 API
    • 五、应对大数据——Spark 来了
    • 六、开始使用 Spark-REPL 和 RDD
    • 七、RDD 特殊动作
    • 八、小型结构简介——Spark SQL
    • 九、传送我吧,史考提——Spark 流
    • 十、一切都是连通的——GraphX
    • 十一、学习机器学习——Spark MLlib 和 Spark ML
    • 十二、高级机器学习最佳实践
    • 十三、我叫贝叶斯,朴素的贝叶斯
    • 十四、是时候整理一下了——使用 Spark MLlib 对你的数据聚类
    • 十五、使用 SparkML 的文本分析
    • 十六、Spark 调优
    • 十七、该走向集群了——在集群上部署 Spark
    • 十八、Spark 的测试和调试
    • 十九、PySpark 和 SparkR
    • 二十、使用 Alluxio 加速 Spark
    • 二十一、ApacheZepplin 交互式数据分析
  • Spark2 初学者手册
    • 零、前言
    • 一、Spark 基础
    • 二、Spark 编程模型
    • 三、Spark SQL
    • 四、使用 R 的 Spark 编程
    • 五、 Python 和 Spark 数据分析
    • 六、Spark 流处理
    • 七、Spark 机器学习
    • 八、Spark 图处理
    • 九、设计 Spark 应用
  • Spark2 数据处理和实时分析
    • 零、前言
    • 一、ApacheSpark V2 的首次尝试和新进展
    • 二、ApacheSpark 流
    • 三、结构化流
    • 四、Apache Spark MLlib
    • 五、ApacheSparkML
    • 六、Apache 系统
    • 七、Apache Spark GraphX
    • 八、Spark 调优
    • 九、Spark 的测试和调试
    • 十、基于 Scala 的 Spark 实用机器学习
    • 十一、Spark 的机器学习三大数据火枪手——完美结合
    • 十二、实现健壮机器学习系统的通用方法
    • 十三、可以随 Spark 扩展的推荐引擎
    • 十四、基于 Apache Spark 2.0 的无监督聚类
    • 十五、使用 Spark 2.0 ML 库实现文本分析
    • 十六、Spark 流和机器学习库
  • Spark 2.x 机器学习秘籍
    • 零、前言
    • 一、基于 Scala 的 Spark 实用机器学习
    • 二、Spark 机器学习的线性代数
    • 三、Spark 的机器学习三大数据火枪手——完美结合
    • 四、实现健壮机器学习系统的通用方法
    • 五、Spark 2.0 中回归和分类的实用机器学习——第一部分
    • 六、Spark 2.0 中回归和分类的实用机器学习——第二部分
    • 七、可随 Spark 扩展的推荐引擎
    • 八、基于 Apache Spark 2.0 的无监督聚类
    • 九、优化——使用梯度下降下山
    • 十、使用决策树和集成模型构建机器学习系统
    • 十一、大数据的高维诅咒
    • 十二、使用 Spark 2.0 ML 库实现文本分析
    • 十三、Spark 流和机器学习库
  • Spark 深度学习秘籍
    • 零、前言
    • 一、为深度学习开发启动 Spark
    • 二、在 Spark 中创建神经网络
    • 三、卷积神经网络的痛点
    • 四、循环神经网络的痛点
    • 五、使用 SparkML 预测消防队呼叫
    • 六、在生成网络中使用 LSTM
    • 七、自然语言处理
    • 八、基于 XGBoost 的房地产价值预测
    • 九、使用 LSTM 预测苹果股票市场成本
    • 十、基于深度卷积网络的人脸识别
    • 十一、使用 Word2Vec 创建和可视化词向量
    • 十二、使用 Keras 创建电影推荐引擎
    • 十三、基于 SparkTensorFlow 的图像分类
  • 使用 Storm 构建 Python 实时应用
    • 零、前言
    • 一、熟悉 Storm
    • 二、Storm 剖析
    • 三、Petrel 简介
    • 四、拓扑示例——Twitter
    • 五、使用 Redis 和 MongoDB 实现持久化
    • 六、Storm 实战
    • 七、附录 A:使用 Supervisord 管理 Storm
  • Python 数据科学与机器学习实用手册
    • 零、前言
    • 一、开始
    • 二、统计和概率复习,以及 Python 实践
    • 三、Matplotlib 与高级概率概念
    • 四、预测模型
    • 五、使用 Python 的机器学习
    • 六、推荐系统
    • 七、更多数据挖掘和机器学习技术
    • 八、处理真实世界的数据
    • 九、Apache Spark——关于大数据的机器学习
    • 十、测试与实验设计
  • 精通 Spark
    • 零、前言
    • 一、ApacheSpark
    • 二、Apache Spark MLlib
    • 三、Apache Spark 流
    • 四、Spark SQL
    • 五、Apache Spark GraphX
    • 六、基于图的存储
    • 七、使用 H2O 扩展 Spark
    • 八、Spark 数据库
    • 九、数据库可视化
  • 精通 Storm
    • 零、前言
    • 一、实时处理和 Storm 介绍
    • 二、Storm 部署、拓扑开发和拓扑选项
    • 三、Storm 并行性和数据分区
    • 四、Trident 简介
    • 五、Trident 拓扑及其用途
    • 六、Storm 调度器
    • 七、Storm 集群监测
    • 八、Storm 与 Kafka 集成
    • 九、Storm 和 Hadoop 集成
    • 十、Storm 与 Redis、Elasticsearch 和 HBase 集成
    • 十一、使用 Storm 处理 Apache 日志
    • 十二、Twitter 推文收集和机器学习
  • Spark 机器学习
    • 零、前言
    • 一、启动并运行 Spark
    • 二、机器学习的数学
    • 三、机器学习系统的设计
    • 四、使用 Spark 获取、处理和准备数据
    • 五、使用 Spark 构建推荐引擎
    • 六、使用 Spark 构建分类模型
    • 七、使用 Spark 建立回归模型
    • 八、使用 Spark 构建聚类模型
    • 九、基于 Spark 的降维方法
    • 十、Spark 高级文本处理
    • 十一、基于 Spark 流的实时机器学习
    • 十二、面向 Spark ML 的流水线 API
  • 大数据分析实战
    • 零、前言
    • 一、大还是不大
    • 二、面向大众的大数据挖掘
    • 三、分析工具包
    • 四、使用 Hadoop 的大数据
    • 五、使用 NoSQL 的大数据挖掘
    • 六、大数据分析的 Spark
    • 七、机器学习概念导论
    • 八、深入机器学习
    • 九、企业数据科学
    • 十、关于大数据的结束语
    • 十一、外部数据科学资源
  • Spark 秘籍
    • 零、前言
    • 一、Apache Spark 入门
    • 二、使用 Spark 开发应用
    • 三、外部数据源
    • 四、Spark SQL
    • 五、Spark 流
    • 六、使用 MLlib 的机器学习入门
    • 七、基于 MLlib 的回归监督学习
    • 八、基于 MLlib 的分类监督学习
    • 九、使用 MLlib 的无监督学习
    • 十、推荐系统
    • 十一、使用 GraphX 的图处理
    • 十二、性能优化和性能调优
  • 面向 Python 开发者的 Spark
    • 零、前言
    • 一、建立 Spark 虚拟环境
    • 二、使用 Spark 构建批量和流式应用
    • 三、使用 Spark 处理数据
    • 四、使用 Spark 从数据中学习
    • 五、使用 Spark 流式传输实时数据
    • 六、可视化洞察和趋势
  • Storm 蓝图
    • 零、前言
    • 一、分布式单词计数
    • 二、配置 Storm 集群
    • 三、Trident 拓扑和传感器数据
    • 四、实时趋势分析
    • 五、实时图分析
    • 六、人工智能
    • 七、为金融分析整合 Druid
    • 八、自然语言处理
    • 九、在 Hadoop 上为广告分析部署 Storm
    • 十、云中的 Storm
  • Flink 学习手册
    • 零、前言
    • 一、ApacheFlink 简介
    • 二、使用数据流 API 的数据处理
    • 三、使用批处理 API 的数据处理
    • 四、使用表格 API 的数据处理
    • 五、复杂事件处理
    • 六、使用 FlinkML 的机器学习
    • 七、Flink 图应用编程接口——Gelly
    • 八、基于 Flink 和 Hadoop 的分布式数据处理
    • 九、在云上部署 Flink
    • 十、最佳实践
  • Kafka 学习手册中文第二版
    • 零、前言
    • 一、Kafka 简介
    • 二、建立 Kafka 集群
    • 三、Kafka 设计
    • 四、编写生产者
    • 五、与消费者通信
    • 六、Kafka 集成
    • 七、Kafka 的工具
  • Storm 和 Cassandra 实时分析
    • 零、前言
    • 一、让我们了解 Storm
    • 二、开始使用您的第一个拓扑
    • 三、通过示例了解 Storm 内部
    • 四、集群模式中的 Storm
    • 五、Storm 高可用性和故障转移
    • 六、给 Storm 添加 NoSQL 持久化
    • 七、Cassandra 分区、高可用性和一致性
    • 八、Cassandra 管理和维护
    • 九、Storm 管理和维护
    • 十、Storm 中的高级概念
    • 十一、分布式缓存和 Storm 中心平台
    • 十二、附录 a:测验答案
  • Spark 数据科学
    • 零、前言
    • 一、大数据和数据科学简介
    • 二、Spark 编程模型
    • 三、数据帧简介
    • 四、统一数据访问
    • 五、Spark 数据分析
    • 六、机器学习
    • 七、使用 SparkR 扩展 Spark
    • 八、分析非结构化数据
    • 九、可视化大数据
    • 十、把它们放在一起
    • 十一、构建数据科学应用
下载 Docker
docker pull apachecn0/apachecn-bigdata-zh docker run -tid -p :80 apachecn0/apachecn-bigdata-zh # 访问 http://localhost:{port}

PYPI
pip install apachecn-bigdata-zh apachecn-bigdata-zh # 访问 http://localhost:{port}

NPM
npm install -g apachecn-bigdata-zh apachecn-bigdata-zh # 访问 http://localhost:{port}

贡献指南 本项目需要校对,欢迎大家提交 Pull Request。
请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科)
组织介绍 访问我们的主页。
赞助我们 【ApacheCN 大数据译文集 20211206 更新】通过平台自带的打赏功能,或点击这里。

    推荐阅读