flink|【大数据面经系列】大数据开发（实时计算方向）面试题（一）

2022-07-12 java hadoop flink big data

得物
一面

自我介绍
实时数仓相关项目介绍
flink集群规模与版本
多流join有哪些？
connect原理与实现
flink状态后端有哪些？
FSMemory和RocksDBstate有什么区别？
flink反压机制如何检测和解决？
多个算子的单一算子链如何检测反压？
kafka ack机制 kafka rebalance

二面

自我介绍
实时模型特征值工程介绍？重点项目介绍
频繁查询维表如何处理？
频繁update 外存如何处理？
端到端的一致性保证
sink到kafka中的一致性保证？kafka二阶段提交机制？
sink到hdfs如何保证一致性？
checkpoint机制与过程
实际中遇到的问题 flink kafka connector kafka什么情况下会丢失数据
java 垃圾回收
javatransient、 volatile关键字，java多线程？
checkpoint恢复过程？修改并行度后如何恢复？

欢乐互娱
一面

自我介绍
如何实现漏斗分析模型（clickhouse）
clickhouse视图
cdh相关 presto+clickhouse

soul
【flink|【大数据面经系列】大数据开发（实时计算方向）面试题（一）】一面

自我介绍
实时数仓项目相关
特征值与指标计算相关

二面

自我介绍
数据量峰值，性能最复杂场景的特征值计算
场景：统计用户最近1天、最近7天、最近30天内的登录设备与ip数（需去重）
大数据量场景下遇到什么问题（举例：个别用户短信数量过大，导致按用户keyby后某些state过大，解决办法：根据userid+某个其他随机key组合进行keyby）
任务一直处于checkpoint中怎么处理？
多流join时某个流无数据该如何处理？
窗口机制与工作原理？
state ttl设置？
rocksdb为何可以实现增量checkpoint 出现反压时, 如何从network buffer
input/output等来分析定位反压源？ flinksql savepoint

永辉
一面

自我介绍
项目相关
flink checkpoint机制
flink端到端一致性如何保证

二面

自我介绍
项目相关
实时场景如何处理
实时数仓建设相关

数禾
一面

自我介绍
flink 场景 select count(distinct(*))
项目相关

二面

flink端到端一致性保证
flink任务重启时state如何重新分布
特征变量开发相关场景

三面

自我介绍
工作中的角色
工作中遇到的困难

推荐阅读

上一篇：人工智能|【人脸识别实战一】系统架构设计

下一篇：大数据|常见大数据面试话术(建议收藏)