基于HBase和Spark构建企业级数据处理平台基于HBase和Spark构建企业级数据

作者:沐远

文章图片

大数据技术与架构
点击右侧关注，大数据开发领域最强公众号！

文章图片

文章图片

暴走大数据
点击右侧关注，暴走大数据！

文章图片

本文整理自来自阿里巴巴的沐远的技术分享，由大数据技术与架构进行整理和总结。
场景需求和挑战
面临的场景金融风控

用户画像库
爬虫抓取信息
反欺诈系统
订单数据

个性化推荐

用户行为分析
用户画像
推荐引擎
海量实时数据处理

社交Feeds

海量帖子、文章
聊天、评论
海量实时数据处理

时空时序

监控数据
轨迹、设备数据
地理信息
区域分布统计
区域查询

大数据

维表和结果表
离线分析
海量实时数据存储

新的挑战 Apache HBase(在线查询) 的特点有：

松散表结构(Schema free)
随机查询、范围查询
原生海量数据分布式存储
高吞吐、低延迟
在线分布式数据库
多版本、增量导入、多维删除

面临的新的挑战：

流式及批量入库
复杂分析
机器学习、图计算
生态及联邦分析

选择Spark的原因

文章图片

快：通过query的执行优化、Cache等技术，Spark能够对任意数据量的数据进行快速分析。逻辑回归场景比Hadoop快100倍
一站式：Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型，且一个应用中可组合上面多个模型解决场景问题
开发者友好：同时友好支持SQL、Python、Scala、Java、R多种开发者语言
优秀的生态：支持与Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用

平台机构及案例
一站式数据处理平台架构

文章图片

数据入库：借助于Spark Streaming，能够做流式ETL以及增量入库到HBase/Phoenix。
在线查询：HBase/Phoenix能够对外提供高并发的在线查询
离线分析及算法：如果HBase/Phoenix的数据需要做复杂分析及算法分析，可以使用Spark的SQL、机器学习、图计算等

典型业务场景：爬虫+搜索引擎

文章图片

性能：流吞吐 20万条/秒
查询能力：HBase自动同步到solr对外提供全文检索的查询
一站式解决方案：Spark服务原生支持通过SQL读取HBase 数据能力进行ETL，Spark + HBase +Solr一站式数据处理平台

典型业务场景：大数据风控系统

文章图片

Spark同时支持事中及事后风控
Spark友好对接HBase、RDS、MongoDB多种在线库

典型业务场景：构建数据仓库(推荐、风控)

文章图片

毫秒级识别拦截代充订单，并发十万量级
Spark优秀的计算能力：Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升
一站式解决方案：Spark服务原生支持通过SQL读取 HBase SQL(Phoenix)数据能力
聚焦业务：全托管的Spark服务保证了作业运行的稳定性，释放运维人力，同时数据工作台降低了spark作业管理成本

原理及最佳实践
Spark API的发展经历了RDD、DataFrame、DataSet

文章图片
Spark Streaming采用的是Micro-Batch方式处理实时数据。

文章图片
作业堆积、延迟高、并发不够？

每批次的并发：调大kafka的订阅的分区、spark.streaming.blockInterval
代码热点优化：查看堆栈、broadcast、代码优化

Spark流式处理入库HBase

文章图片
Micro-Batch Processing：100ms延迟，Continuous Processing：1ms延迟
Spark HBase Connector的一些优化

文章图片

代码托管在：https://github.com/aliyun/aliyun-apsaradb-hbase-demo （包含Spark操作Hbase和Phoenix）
欢迎点赞+收藏+转发朋友圈素质三连

文章图片

文章图片

【基于HBase和Spark构建企业级数据处理平台】文章不错？点个【在看】吧！ ????

基于HBase和Spark构建企业级数据处理平台

推荐阅读

三星蓝牙

结婚后需要承担对方的债务吗结婚后有义务替另一半偿还债务吗

端午黄米饭如何做好吃端午黄米饭如何做

fox是什么中文意思 wolf是什么意思

激光祛斑反黑会恢复吗

iphone上如何查看照片参数ios14.8 iPhone上如何查看照片参数，iphone上如何查看照片参数为何要下载查看器

雷霆战舰,变形金刚雷霆战舰

浮点数打印其实是个复杂的过程

设计模式|职责链模式--状态模式--策略模式

游戏服务器租借租用游戏服务器怎么用

安卓已经超越苹果,安卓系列处理器性能远远落后于苹果a15

word在大纲视图怎么删除空白页 word在大纲视图怎么删除空白页的页码

天津方特水上乐园门票多少钱2023 天津方特水上乐园门票价格

描写落叶景色优美句子描写秋季落叶优美的短句

当“区、繁、员、纪、句……”作为姓氏,你读对了几个？

2023杭州临平1月学考和选考禁噪时间+区域

生蚝不能吃的部位是那里

跨域那些事

iPhone13大概要多少钱，苹果13手机卖多少钱

花生炖猪脚——健脾养胃补虚强骨质