- PySpark 大数据分析实用指南
- 零、前言
- 一、安装 Pyspark 并设置您的开发环境
- 二、使用 RDD 将您的大数据带入 Spark 环境
- 三、Spark 笔记本的大数据清理和整理
- 四、将数据汇总成有用的报告
- 五、强大的 MLlib 探索性数据分析
- 六、使用 SparkSQL 构建大数据结构
- 七、转换和动作
- 八、不变设计
- 九、避免打乱和降低操作成本
- 十、以正确的格式保存数据
- 十一、使用 Spark 键/值应用编程接口
- 十二、测试 ApacheSpark 作业
- 十三、利用 Spark 图形接口
- Spark 大规模机器学习
- 零、前言
- 一、Spark 数据分析简介
- 二、机器学习最佳实践
- 三、通过理解数据来理解问题
- 四、通过特征工程提取知识
- 五、监督和非监督学习示例
- 六、构建可扩展的机器学习管道
- 七、调整机器学习模型
- 八、调整您的机器学习模型
- 九、使用流和图数据的高级机器学习
- 十、配置和使用外部库
- Spark SQL 学习手册
- 零、前言
- 一、Spark SQL 入门
- 二、使用 Spark SQL 处理结构化和半结构化数据
- 三、将 Spark SQL 用于数据探索
- 四、将 Spark SQL 用于数据管理
- 五、在流式应用中使用 Spark SQL
- 六、Spark SQL 在机器学习应用中的应用
- 七、在图应用中使用 Spark SQL
- 八、使用 Spark SQL 和 Spark
- 九、使用 Spark SQL 开发应用
- 十、在深度学习应用中使用 Spark SQL
- 十一、针对性能调整 Spark SQL 组件
- 十二、大规模应用架构中的 Spark SQL
- 精通 Spark 2.x 机器学习
- 零、前言
- 一、大规模机器学习和 Spark 导论
- 二、探测暗物质——希格斯玻色子粒子
- 三、多类分类的集成方法
- 四、使用自然语言处理和 Spark 流预测电影评论
- 五、用于预测和聚类的 word2vec
- 六、从点击流数据中提取模式
- 七、将 GraphX 用于图分析
- 八、贷款俱乐部的贷款预测
- 精通 Spark 数据科学
- 零、前言
- 一、大数据科学生态系统
- 二、数据采集
- 三、输入格式和模式
- 四、探索性数据分析
- 五、Spark 地理分析
- 六、基于链接抓取外部数据
- 七、构建社区
- 八、构建推荐系统
- 九、新闻词典和实时标签系统
- 十、故事重复和突变
- 十一、基于情感分析的异常检测
- 十二、趋势演算
- 十三、数据安全
- 十四、可扩展算法
- PySpark 秘籍
- 零、前言
- 一、安装和配置 Spark
- 二、使用关系数据库抽象数据
- 三、使用数据帧抽象数据
- 四、为建模准备数据
- 五、基于 MLlib 的机器学习
- 六、使用最大似然模块的机器学习
- 七、使用 PySpark 的结构化流
- 八、图框架——使用 PySpark 的图论
- Scala 和 Spark 大数据分析
- 零、前言
- 一、Scala 简介
- 二、面向对象的 Scala
- 三、函数式编程概念
- 四、集合 API
- 五、应对大数据——Spark 来了
- 六、开始使用 Spark-REPL 和 RDD
- 七、RDD 特殊动作
- 八、小型结构简介——Spark SQL
- 九、传送我吧,史考提——Spark 流
- 十、一切都是连通的——GraphX
- 十一、学习机器学习——Spark MLlib 和 Spark ML
- 十二、高级机器学习最佳实践
- 十三、我叫贝叶斯,朴素的贝叶斯
- 十四、是时候整理一下了——使用 Spark MLlib 对你的数据聚类
- 十五、使用 SparkML 的文本分析
- 十六、Spark 调优
- 十七、该走向集群了——在集群上部署 Spark
- 十八、Spark 的测试和调试
- 十九、PySpark 和 SparkR
- 二十、使用 Alluxio 加速 Spark
- 二十一、ApacheZepplin 交互式数据分析
- Spark2 初学者手册
- 零、前言
- 一、Spark 基础
- 二、Spark 编程模型
- 三、Spark SQL
- 四、使用 R 的 Spark 编程
- 五、 Python 和 Spark 数据分析
- 六、Spark 流处理
- 七、Spark 机器学习
- 八、Spark 图处理
- 九、设计 Spark 应用
- Spark2 数据处理和实时分析
- 零、前言
- 一、ApacheSpark V2 的首次尝试和新进展
- 二、ApacheSpark 流
- 三、结构化流
- 四、Apache Spark MLlib
- 五、ApacheSparkML
- 六、Apache 系统
- 七、Apache Spark GraphX
- 八、Spark 调优
- 九、Spark 的测试和调试
- 十、基于 Scala 的 Spark 实用机器学习
- 十一、Spark 的机器学习三大数据火枪手——完美结合
- 十二、实现健壮机器学习系统的通用方法
- 十三、可以随 Spark 扩展的推荐引擎
- 十四、基于 Apache Spark 2.0 的无监督聚类
- 十五、使用 Spark 2.0 ML 库实现文本分析
- 十六、Spark 流和机器学习库
- Spark 2.x 机器学习秘籍
- 零、前言
- 一、基于 Scala 的 Spark 实用机器学习
- 二、Spark 机器学习的线性代数
- 三、Spark 的机器学习三大数据火枪手——完美结合
- 四、实现健壮机器学习系统的通用方法
- 五、Spark 2.0 中回归和分类的实用机器学习——第一部分
- 六、Spark 2.0 中回归和分类的实用机器学习——第二部分
- 七、可随 Spark 扩展的推荐引擎
- 八、基于 Apache Spark 2.0 的无监督聚类
- 九、优化——使用梯度下降下山
- 十、使用决策树和集成模型构建机器学习系统
- 十一、大数据的高维诅咒
- 十二、使用 Spark 2.0 ML 库实现文本分析
- 十三、Spark 流和机器学习库
- Spark 深度学习秘籍
- 零、前言
- 一、为深度学习开发启动 Spark
- 二、在 Spark 中创建神经网络
- 三、卷积神经网络的痛点
- 四、循环神经网络的痛点
- 五、使用 SparkML 预测消防队呼叫
- 六、在生成网络中使用 LSTM
- 七、自然语言处理
- 八、基于 XGBoost 的房地产价值预测
- 九、使用 LSTM 预测苹果股票市场成本
- 十、基于深度卷积网络的人脸识别
- 十一、使用 Word2Vec 创建和可视化词向量
- 十二、使用 Keras 创建电影推荐引擎
- 十三、基于 SparkTensorFlow 的图像分类
- 使用 Storm 构建 Python 实时应用
- 零、前言
- 一、熟悉 Storm
- 二、Storm 剖析
- 三、Petrel 简介
- 四、拓扑示例——Twitter
- 五、使用 Redis 和 MongoDB 实现持久化
- 六、Storm 实战
- 七、附录 A:使用 Supervisord 管理 Storm
- Python 数据科学与机器学习实用手册
- 零、前言
- 一、开始
- 二、统计和概率复习,以及 Python 实践
- 三、Matplotlib 与高级概率概念
- 四、预测模型
- 五、使用 Python 的机器学习
- 六、推荐系统
- 七、更多数据挖掘和机器学习技术
- 八、处理真实世界的数据
- 九、Apache Spark——关于大数据的机器学习
- 十、测试与实验设计
- 精通 Spark
- 零、前言
- 一、ApacheSpark
- 二、Apache Spark MLlib
- 三、Apache Spark 流
- 四、Spark SQL
- 五、Apache Spark GraphX
- 六、基于图的存储
- 七、使用 H2O 扩展 Spark
- 八、Spark 数据库
- 九、数据库可视化
- 精通 Storm
- 零、前言
- 一、实时处理和 Storm 介绍
- 二、Storm 部署、拓扑开发和拓扑选项
- 三、Storm 并行性和数据分区
- 四、Trident 简介
- 五、Trident 拓扑及其用途
- 六、Storm 调度器
- 七、Storm 集群监测
- 八、Storm 与 Kafka 集成
- 九、Storm 和 Hadoop 集成
- 十、Storm 与 Redis、Elasticsearch 和 HBase 集成
- 十一、使用 Storm 处理 Apache 日志
- 十二、Twitter 推文收集和机器学习
- Spark 机器学习
- 零、前言
- 一、启动并运行 Spark
- 二、机器学习的数学
- 三、机器学习系统的设计
- 四、使用 Spark 获取、处理和准备数据
- 五、使用 Spark 构建推荐引擎
- 六、使用 Spark 构建分类模型
- 七、使用 Spark 建立回归模型
- 八、使用 Spark 构建聚类模型
- 九、基于 Spark 的降维方法
- 十、Spark 高级文本处理
- 十一、基于 Spark 流的实时机器学习
- 十二、面向 Spark ML 的流水线 API
- 大数据分析实战
- 零、前言
- 一、大还是不大
- 二、面向大众的大数据挖掘
- 三、分析工具包
- 四、使用 Hadoop 的大数据
- 五、使用 NoSQL 的大数据挖掘
- 六、大数据分析的 Spark
- 七、机器学习概念导论
- 八、深入机器学习
- 九、企业数据科学
- 十、关于大数据的结束语
- 十一、外部数据科学资源
- Spark 秘籍
- 零、前言
- 一、Apache Spark 入门
- 二、使用 Spark 开发应用
- 三、外部数据源
- 四、Spark SQL
- 五、Spark 流
- 六、使用 MLlib 的机器学习入门
- 七、基于 MLlib 的回归监督学习
- 八、基于 MLlib 的分类监督学习
- 九、使用 MLlib 的无监督学习
- 十、推荐系统
- 十一、使用 GraphX 的图处理
- 十二、性能优化和性能调优
- 面向 Python 开发者的 Spark
- 零、前言
- 一、建立 Spark 虚拟环境
- 二、使用 Spark 构建批量和流式应用
- 三、使用 Spark 处理数据
- 四、使用 Spark 从数据中学习
- 五、使用 Spark 流式传输实时数据
- 六、可视化洞察和趋势
- Storm 蓝图
- 零、前言
- 一、分布式单词计数
- 二、配置 Storm 集群
- 三、Trident 拓扑和传感器数据
- 四、实时趋势分析
- 五、实时图分析
- 六、人工智能
- 七、为金融分析整合 Druid
- 八、自然语言处理
- 九、在 Hadoop 上为广告分析部署 Storm
- 十、云中的 Storm
- Flink 学习手册
- 零、前言
- 一、ApacheFlink 简介
- 二、使用数据流 API 的数据处理
- 三、使用批处理 API 的数据处理
- 四、使用表格 API 的数据处理
- 五、复杂事件处理
- 六、使用 FlinkML 的机器学习
- 七、Flink 图应用编程接口——Gelly
- 八、基于 Flink 和 Hadoop 的分布式数据处理
- 九、在云上部署 Flink
- 十、最佳实践
- Kafka 学习手册中文第二版
- 零、前言
- 一、Kafka 简介
- 二、建立 Kafka 集群
- 三、Kafka 设计
- 四、编写生产者
- 五、与消费者通信
- 六、Kafka 集成
- 七、Kafka 的工具
- Storm 和 Cassandra 实时分析
- 零、前言
- 一、让我们了解 Storm
- 二、开始使用您的第一个拓扑
- 三、通过示例了解 Storm 内部
- 四、集群模式中的 Storm
- 五、Storm 高可用性和故障转移
- 六、给 Storm 添加 NoSQL 持久化
- 七、Cassandra 分区、高可用性和一致性
- 八、Cassandra 管理和维护
- 九、Storm 管理和维护
- 十、Storm 中的高级概念
- 十一、分布式缓存和 Storm 中心平台
- 十二、附录 a:测验答案
- Spark 数据科学
- 零、前言
- 一、大数据和数据科学简介
- 二、Spark 编程模型
- 三、数据帧简介
- 四、统一数据访问
- 五、Spark 数据分析
- 六、机器学习
- 七、使用 SparkR 扩展 Spark
- 八、分析非结构化数据
- 九、可视化大数据
- 十、把它们放在一起
- 十一、构建数据科学应用
docker pull apachecn0/apachecn-bigdata-zh
docker run -tid -p :80 apachecn0/apachecn-bigdata-zh
# 访问 http://localhost:{port}
PYPI
pip install apachecn-bigdata-zh
apachecn-bigdata-zh # 访问 http://localhost:{port}
NPM
npm install -g apachecn-bigdata-zh
apachecn-bigdata-zh # 访问 http://localhost:{port}
贡献指南 本项目需要校对,欢迎大家提交 Pull Request。
请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科)组织介绍 访问我们的主页。
赞助我们 【ApacheCN 大数据译文集 20211206 更新】通过平台自带的打赏功能,或点击这里。
推荐阅读
- 人工智能|干货!人体姿态估计与运动预测
- Python专栏|数据分析的常规流程
- 读书笔记|《白话大数据和机器学习》学习笔记1
- 网络|一文彻底搞懂前端监控
- html5|各行业工资单出炉 IT类连续多年霸占“榜首”位置
- 人工智能|【机器学习】深度盘点(详细介绍 Python 中的 7 种交叉验证方法!)
- 网络|简单聊聊压缩网络
- 数据库|效率最高的Excel数据导入---(c#调用SSIS Package将数据库数据导入到Excel文件中【附源代码下载】)...
- r语言|手把手(R语言文本挖掘和词云可视化实践)
- 腾讯|SaaS的收入模型有哪些(终于有人讲明白了)