大数据究竟学的什么,学会哪些才能入行?( 二 )


Kafka
这是个比较好用的队列工具 。队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理 。这样与你协作的其它同学不会叫起来 。你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来 。你别怪他因为他不是搞大数据的 。你可以跟他讲我把数据放在队列里你使用的时候一个个拿 。这样他就不在抱怨了马上灰流流的去优化他的程序去了 。
因为处理不过来就是他的事情 。而不是你给的问题 。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS 。这时你可以与一个叫Flume的工具配合使用 。它是专门用来提供对数据进行简单处理 。并写到各种数据接受方(比如Kafka)的 。
Spark
它是用来弥补基于MapReduce处理数据速度上的缺点 。它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘 。特别适合做迭代运算 。所以算法流们特别稀饭它 。它是用scala编写的 。Java语言或者Scala都可以操作它 。因为它们都是用JVM的 。
会这些东西你就成为一个专业的大数据开发工程师了 。月薪2W都是小毛毛雨
后续提高 :当然还是有很有可以提高的地方 。比如学习下python 。可以用它来编写网络爬虫 。这样我们就可以自己造数据了 。网络上的各种数据你高兴都可以下载到你的集群上去处理 。
最后再学习下推荐、分类等算法的原理这样你能更好的与算法工程师打交通 。这样你的公司就更离不开你了 。大家都会对你喜欢的不要不要的 。
希望对你有帮助 。记得点赞和关注!
其他观点:
数据采集、处理、分析 。搜索python数据分析对你有所帮助 。如有帮助麻烦点一下好评

推荐阅读