大数据主要学习什么内容？有什么要求和条件？( 二 ) _经验知识

高阶技能6条
机器学习算法以及mahout库加MLlibR语言Lambda 架构Kappa架构KylinAlluxio
面列出来的顺序只是个人建议。可以根据个人实际情况来调整顺序
第一阶段（基础阶段）
Linux学习（跟鸟哥学就ok了）—–20小时
Linux操作系统介绍与安装。
Linux常用命令。
Linux常用软件安装。
Linux网络。
防火墙。
Shell编程等。
官网：https://www.centos.org/download/
Java 高级学习（《深入理解Java虚拟机》、《Java高并发实战》）—30小时
掌握多线程。
掌握并发包下的队列。
了解JMS 。
掌握JVM技术。
掌握反射和动态代理。
官网： https://www.java.com/zh_CN/中文社区：http://www.java-cn.com/index.html
Zookeeper学习
Zookeeper分布式协调服务介绍。
Zookeeper集群的安装部署。
Zookeeper数据结构、命令。
Zookeeper的原理以及选举机制。
官网： http://zookeeper.apache.org/中文社区：http://www.aboutyun.com/forum-149-1.html
第二阶段（入门。攻坚阶段）
Hadoop （《Hadoop 权威指南》）—80小时
HDFS
HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作机制。
HDFS的Java应用开发。
MapReduce
运行WordCount示例程序。
了解MapReduce内部的运行机制。
MapReduce程序运行流程解析。
MapTask并发数的决定机制。
MapReduce中的combiner组件应用。
MapReduce中的序列化框架及应用。
MapReduce中的排序。
MapReduce中的自定义分区实现。
MapReduce的shuffle机制。
MapReduce利用数据压缩进行优化。
MapReduce程序与YARN之间的关系。
MapReduce参数优化。
MapReduce的Java应用开发
官网：http://hadoop.apache.org/
中文文档：http://hadoop.apache.org/docs/r1.0.4/cn/
Hive（《Hive开发指南》）–20小时
Hive 基本概念
Hive 应用场景。
Hive 与hadoop的关系。
Hive 与传统数据库对比。
Hive 的数据存储机制。
Hive 基本操作
Hive 中的DDL操作。
在Hive 中如何实现高效的JOIN查询。
Hive 的内置函数应用。
Hive shell的高级使用方式。
Hive 常用参数配置。
Hive 自定义函数和Transform的使用技巧。
Hive UDF/UDAF开发实例。
Hive 执行过程分析及优化策略
官网：https://hive.apache.org/
中文入门文档：http://www.aboutyun.com/thread-11873-1-1.html
HBase（《HBase权威指南》）—20小时
hbase简介。
habse安装。
hbase数据模型。
hbase命令。
hbase开发。
hbase原理。
【大数据主要学习什么内容？有什么要求和条件？】官网：http://hbase.apache.org/
中文文档：http://abloz.com/hbase/book.html
Scala（《快学Scala》）–20小时
Scala概述。
Scala编译器安装。
Scala基础。
数组、映射、元组、集合。
类、对象、继承、特质。
模式匹配和样例类。
了解Scala Actor并发编程。
理解Akka 。
理解Scala高阶函数。
理解Scala隐式转换。
官网：http://www.scala-lang.org/
初级中文教程：http://www.runoob.com/scala/scala-tutorial.html
Spark （《Spark 权威指南》）—60小时

文章插图
Spark core
Spark概述。
Spark集群安装。
执行第一个Spark案例程序（求PI）。
RDD
RDD概述。
创建RDD 。
RDD编程API（Transformation 和 Action Operations）。
RDD的依赖关系
RDD的缓存
DAG（有向无环图）
Spark SQL and DataFrame/DataSet
Spark SQL概述。
DataFrames 。
DataFrame常用操作。
编写Spark SQL查询程序。
Spark Streaming
park Streaming概述。
理解DStream 。
DStream相关操作（Transformations 和 Output Operations）。
Structured Streaming
其他（MLlib and GraphX ）
这个部分一般工作中如果不是数据挖掘。机器学习一般用不到。可以等到需要用到的时候再深入学习。
官网： http://spark.apache.org中文社区：http://www.aboutyun.com/forum-146-1.htm
Python (推荐廖雪峰的博客—30小时）
目前暂且列出来这么多吧。大数据目前还有很多比较好的技术框架。这个就需要等大家以后工作之后再去扩展了。大家在学习的时候。要专门挑一两个着重研究一下。最好针对。底层原理。优化。源码等部分有所涉猎。这么的话可以在面试过程中脱颖而出。不要想着把每一个框架都搞精通。目前是不现实的。其实就算是在工作中也不会每一个框架都会用的很深。如果能过对上面的框架都大致会使用。并且对某一两个框架研究的比较深的话。其实想去找一份满意的大数据工作也就水到渠成了。

大数据主要学习什么内容？有什么要求和条件？( 二 )

推荐阅读

tp千兆路由器家用哪款好用 tp哪一款千兆路由器好点

中山2020年招聘辅警 2023年中山板芙公安招聘14名辅警

孩子|为啥女人都在晚上扎堆生孩子？为了保护妈妈，宝宝可真是操碎了心

在线直播哪个平台最好？

关于普洱茶冲泡的几点建议普洱茶的冲泡方法

喝枸杞子泡水有什么好处枸杞泡水喝的正确方法

荣耀9x|华为手机好用,但千万别乱选,目前这三款才是“懂行人”的最爱

怎么给三轮车加两组电瓶

烤面包怎么做才松软，烤面包怎么做才松软不硬

南瓜贝贝减肥还是增肥

中国旅游摄影网摄影师中国旅游摄影网论坛

淡扫明湖开玉镜下一句是什么

1968年属猴的是什么运程

裸身性感美女,美国十大性感模特

进口葡萄酒跟国产的有什么区别

redis相关书籍 redis实战的书籍

教师节祝福语感人2021

尼康大竹炮适合拍什么尼康大竹炮对焦摔坏

网易蜗牛读书如何删除书籍上的划线网易蜗牛读书去除书籍划线的方法

有人说接下来出的S8冠军皮肤中,ADC选择VN,你怎么看？你觉得哪个更好？