大数据主要学习哪些内容?( 二 )


5. Avro与Protobuf
Avro与Protobuf均是数据序列化系统 。可以提供丰富的数据结构类型 。十分适合做数据存储 。还可进行不同语言之间相互通信的数据交换格式 。学习大数据 。需掌握其具体用法 。
6.ZooKeeper
ZooKeeper是Hadoop和Hbase的重要组件 。是一个为分布式应用提供一致性服务的软件 。提供的功能包括:配置维护、域名服务、分布式同步、组件服务等 。在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法 。
7. HBase
HBase是一个分布式的、面向列的开源数据库 。它不同于一般的关系数据库 。更适合于非结构化数据存储的数据库 。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 。大数据开发需掌握HBase基础知识、应用、架构以及高级用法等 。
8.phoenix
phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎 。其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性 。大数据开发需掌握其原理和使用方法 。
9. Redis
Redis是一个key-value存储系统 。其出现很大程度补偿了memcached这类key/value存储的不足 。在部分场合可以对关系数据库起到很好的补充作用 。它提供了Java 。C/C++ 。C# 。PHP 。Java 。Perl 。Object-C 。Python 。Ruby 。Erlang等客户端 。使用很方便 。大数据开发需掌握Redis的安装、配置及相关使用方法 。
10. Flume
Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统 。Flume支持在日志系统中定制各类数据发送方 。用于收集数据;同时 。Flume提供对数据进行简单处理 。并写到各种数据接受方(可定制)的能力 。大数据开发需掌握其安装、配置以及相关使用方法 。
11. SSM
SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成 。常作为数据源较简单的web项目的框架 。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时 。再使用SSM进行整合操作 。
12.Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统 。其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理 。也是为了通过集群来提供实时的消息 。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现!
13.Scala
Scala是一门多范式的编程语言 。大数据开发重要框架Spark是采用Scala语言设计的 。想要学好Spark框架 。拥有Scala基础是必不可少的 。因此 。大数据开发需掌握Scala编程基础知识!
14.Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎 。其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求 。大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识 。
15.Azkaban
Azkaban是一个批量工作流任务调度器 。可用于在一个工作流内以一个特定的顺序运行一组工作和流程 。可以利用Azkaban来完成大数据的任务调度 。大数据开发需掌握Azkaban的相关配置及语法规则 。想学习好大数据可以关注公众号程序员大牛 有视频资源分享一起学习
16.Python与数据分析
Python是面向对象的编程语言 。拥有丰富的库 。使用简单 。应用广泛 。在大数据领域也有所应用 。主要可用于数据采集、数据分析以及数据可视化等 。因此 。大数据开发需学习一定的Python知识 。
17.Solr与Es搜索引擎
海量数据建立搜索引擎 。方便用户搜索数据 。
18.爬虫技术
爬取重要数据存储分析 。
19.根据用户喜好 。推荐各种算法 。需要用户了解一些算法知识 。数学知识等 。这个对软件学习人员要求就较高了 。
总之 。大数据需要学习的技术很多 。在这里不一一举例说明了 。技术的更新迭代也比较快 。学到老活到老 。没有学的完技术 。只有一直不懈努力 。

推荐阅读