大数据的框架主要学习和使用什么呢?


你说的应该是大数据平台中的主流框架 。我列举一下:
(一)Hadoop生态圈
HDFS:分布式文件系统 。解决大数据的存储
Yarn(MapReduce):分布式计算框架 。解决大数据的计算
Hive:Hadoop中的数据分析引擎 。支持SQL
HBase:基于HDFS的NoSQL数据库
ZooKeeper:分布式协调服务 。可以用于实现HA(高可用架构)
其他
【大数据的框架主要学习和使用什么呢?】(二)Spark生态圈
Spark Core:Spark的核心 。用于离线计算
Spark SQL:Spark的数据分析引擎 。支持SQL语句
Spark Streaming:Spark的流式计算引擎 。但本质依然是离线计算
MLlib:机器学习框架
(三)Flink生态圈
Flink DataSet:Flink批处理(离线计算)API
Flink DataStream:Flink流处理(实时计算)API
Flink Table&SQL:Flink的数据分析引擎 。支持SQL语句
MLlib:机器学习框架
其他观点:

大数据的框架主要学习和使用什么呢?

文章插图
什么是大数据?
大数据(big data) 。IT行业术语 。是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径 。而采用所有数据进行分析处理 。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性) 。
大数据的框架主要学习和使用什么呢?

文章插图
大数据开发学习路线:
第一阶段:Hadoop生态架构技术1、语言基础Java:多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以 。不需要深入掌握 。Linux:系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等 。Python:基础语法 。数据结构 。函数 。条件判断 。循环等基础知识 。2、环境准备这里介绍在windows电脑搭建完全分布式 。1主2从 。VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包 。这里准备好Hadoop完全分布式集群环境 。3、MapReduceMapReduce分布式离线计算框架 。是Hadoop核心编程模型 。4、HDFS1.0/2.0HDFS能提供高吞吐量的数据访问 。适合大规模数据集上的应用 。5、Yarn(Hadoop2.0)Yarn是一个资源调度平台 。主要负责给任务分配资源 。6、HiveHive是一个数据仓库 。所有的数据都是存储在HDFS上的 。使用Hive主要是写Hql 。7、SparkSpark 是专为大规模数据处理而设计的快速通用的计算引擎 。8、SparkStreamingSpark Streaming是实时处理框架 。数据是一批一批的处理 。9、SparkHiveSpark作为Hive的计算引擎 。将Hive的查询作为Spark的任务提交到Spark集群上进行计算 。可以提高Hive查询的性能 。10、StormStorm是一个实时计算框架 。Storm是对实时新增的每一条数据进行处理 。是一条一条的处理 。可以保证数据处理的时效性 。11、ZookeeperZookeeper是很多大数据框架的基础 。是集群的管理者 。12、HbaseHbase是一个Nosql数据库 。是高可靠、面向列的、可伸缩的、分布式的数据库 。13、Kafkakafka是一个消息中间件 。作为一个中间缓冲层 。14、FlumeFlume常见的就是采集应用产生的日志文件中的数据 。一般有两个流程 。一个是Flume采集数据存储到Kafka中 。方便Storm或者SparkStreaming进行实时处理 。另一个流程是Flume采集的数据存储到HDFS上 。为了后期使用hadoop或者spark进行离线处理 。
第二阶段:数据挖掘算法1、中文分词开源分词库的离线和在线应用2、自然语言处理文本相关性算法3、推荐算法基于CB、CF 。归一法 。Mahout应用 。4、分类算法NB、SVM5、回归算法LR、DecisionTree6、聚类算法层次聚类、Kmeans7、神经网络与深度学习NN、Tensorflow

学习大数据开发需要掌握哪些技术呢?
(1)Java语言基础Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类
(2)HTML、CSS与JavaPC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用
(3)JavaWeb和数据库数据库、JavaWeb开发核心、JavaWeb开发内幕

推荐阅读