Spark Streaming 流计算优化记录(1)-背景介绍 spark

1.背景概述
业务上有一定的需求, 希望能实时地对从中间件进来的数据已经已有的维度表进行inner join, 以便后续的统计. 维表十分巨大, 有近3千万记录,约3G数据, 而集群的资源也较紧张, 因此希望尽可能压榨Spark Streaming的性能和吞吐量.
【Spark Streaming 流计算优化记录(1)-背景介绍】技术架构大致上如下述: 数据从Kafka流入, SparkStreaming 会从HDFS中拿到维度表的数据, 与流入的消息进行计算, 最后进行inner join, 计算结果会插入HBase.

文章图片

为什么选择Kafka去承担类似数据总线的角色呢,绝大部分是由于它简单的架构以及出色的吞吐量, 并且与Spark也有专门的集成模块. Kafka的出色吞吐量主要是来自于最大化利用系统缓存以及顺序读写所带来的优点, 同时offset和partition的涉及也提供了较好的容灾性.

文章图片

为什么选择Spark作为流计算引擎呢,主要是由于Spark本身优雅的RDD设计让分布式编程更简单, 同时结合Spark的内存缓存层也使得计算更快,而Spark对各种技术的集成与支持, 能够使技术栈更简单和通用, 也是选用它的一个重要原因. 而Spark的DirectKafkaInputDStream也提供了简单有效的HA.

文章图片

而对于HBase的选择,则更多的是出于历史原因吧,因为公司一直都有在用HBase.

文章图片

然后, 硬件资源大概是开了6个计算节点(也就是executor),每个节点占3G内存和3个核, 包括主节点(也就是driver)在内, 整个spark应用占用的集群资源大概是18.5G内存和19个核. 噢, 对了, Kafka用于测试的topic有3个partition, 每个partition两个replication.
现在前面大概描述下测试结果吧, 一开始根本无法在1小时内跑完一个batch, 优化后可以达到每秒处理近6万条Kafka输入数据, 对6万*2千3百万数据(近3G)进行inner join. 与Storm稍微做了下对比, 从网上的资料”http://blog.linezing.com/?p=1048”可以看到Storm可以每秒处理3.5万数据, Spark Streaming则打到了它的近两倍吞吐量. 但需要说明的是, 网上使用的Storm版本不是最新的, 而且也没说明业务逻辑与是否有做优化, 因此只能大概作一些感性上的比较.
2.压之初体验
代码编写完后,不做任何优化, 全量数据压着玩玩, 由于一开始没打算记录这个过程, 所以第一次压测体验的数据木有记录, 估计也是从Kafka一次获得30多万条记录, 然后与HDFS上的3G多数据逐条进行转换后再进行inner join.
结果不大记得, 貌似跑了大半天吧, 同时在shuffle阶段内存严重不够用, 要把数据spill到磁盘进行shuffle.如果是自己的机子这样玩的话, 估计会很心疼吧.

Spark Streaming 流计算优化记录(1)-背景介绍

推荐阅读

同类色对比照片摄影同类色

珂的意思和含义

聊城有哪些县聊城都有哪些区县

为什么像汉字一样的象形文字很少,多数语言是拼音文字呢？

button的超级链接

支付宝商户如何开通花呗收款？花呗收钱开通的方法

画新娘妆和盘头多少钱，画一个新娘妆大概多少钱

坐飞机可以戴隐形眼镜吗？

茯苓绿豆粥——清热祛湿利尿消肿

嘉宝果泡酒多久可以喝

星巴克全职星级咖啡师面试难吗？

建筑软件,我的世界导入建筑软件

听书安卓1.5,喜马拉雅蜻蜓fm懒人听书不错!

医保卡余额怎么用医保卡余额使用技巧

iOS|iOS 碰撞角度矫正及 applyImpulse 和 applyForce的区别

唇色发紫日常养护嘴唇发黑是什么原因

为什么梦见打雪仗

榴莲一半硬一半软是什么原因

顾炀樊渊是哪部小说

梦见理发你知道预示着什么吗