big|大厂面试 | 阿里巴巴大数据工程师面试题汇总面试|data

坐标城市：浙江杭州
面试公司：阿里巴巴
面试岗位：大数据工程师
面试难度：给4星吧
面试感受：还行吧，就是紧张了有点
本人学计算机的，同时也自学了Java、Python、C#、前端等，感觉都是皮毛，最后觉得还是大数据比较适合我，不过技术之间都是想通的，越来越发现自己欠缺的知识其实还有很多。
面试题
1.kafka 重启是否会导致数据丢失
2.讲一讲checkpoint
3.描述mapreduce的过程，中间有几次写磁盘
4.ORC、Parquet等列式存储的优点
5.调度系统的实现，开源调度系统Azkaban
【big|大厂面试 | 阿里巴巴大数据工程师面试题汇总】6.zookeeper HA原理
7.二分法以及变种
8.用java实现多种排序算法
9.如何用redis实现分布式锁
10.ArraryBlockingQueue的实现
11.一个文本文件，大约有一万航，每行一个词，要求统计出其中最频繁出现的前10个词
12.上千万或上亿数据（有重复），统计其中出现最多的前n个数据
13.有10个文件，每个文件1g，每个文件的每一行存放的都是用户的query，meigewenjiandequery都有可能重复，要求你按照query的频率来排序
14.海量日志数据，提取出某日访问百度最多次数的那个IP
15.zookeeper选举机制
16.zookeeper的端口水命，作用
17.zookeeper主从服务器如何通信
18.HFile数据格式中的KeyValue介绍
19.Spark中的Work主要工作是什么
20.Spark有几种部署模式，每种模式有什么特点
21.spark的driver的功能是什么
22.Spark master HA主从切换过程不会影响到集群已有作业的运行，为什么
23.spark streaming读取kafka的两种方式
24.spark master使用zookeeper进行ha，有哪些源数据保存到Zookeeper里面
25.spark rdd如何区分宽依赖窄依赖
26.怎么解决kafka的数据丢失
27.怎么查看kafka的offset
围绕kafka、spark、Hadoop问的较多，相当有难度，本关已过~，喜欢杭州，希望能进阿里！

big|大厂面试 | 阿里巴巴大数据工程师面试题汇总

推荐阅读

i909,I909年11月15日

信用卡逾期3个月会起诉吗信用卡逾期3个月会起诉吗?

东芝空调闪灯但机不起动是什么原因造成的

男扮女装相机男扮女装摄影

电商打印机用来干什么用电商打印机用来干什么，电商打印机用来干什么的

英雄联盟怎么举报方法？英雄联盟怎么举报

尼康24120拍风景尼康20拍雪景

阿里斯顿壁挂炉供热水不供暖原因介绍，解决方法公开！

都市帅气的通勤装选搭之一（西装+半裙，入秋的潮搭组合）

俯的组词俯可以组哪些词

音乐剧猫观后感精选15个

头三月孕妇禁吃的水果

鲁班简介资料，鲁班有哪些发明？鲁班是哪个朝代的？

mysql 5724安装 mysql5.6.14安装

核酸检测48小时有效期是从什么时候开始算

被朱元璋收养之后,后人为明朝守江山的小乞丐是谁？

惠而浦空调能买吗惠而浦怎么样

怎么煮牛蹄筋容易烂怎样做牛蹄筋又烂又好吃

俄乌冲突有望结束？泽连斯基列出5项条件，俄若同意就能立即和谈

给财神上香上几根对都代表什么给财神上香上几根