big|大厂面试 | 阿里巴巴大数据工程师面试题汇总

坐标城市:浙江杭州
面试公司:阿里巴巴
面试岗位:大数据工程师
面试难度:给4星吧
面试感受:还行吧,就是紧张了有点
本人学计算机的,同时也自学了Java、Python、C#、前端等,感觉都是皮毛,最后觉得还是大数据比较适合我,不过技术之间都是想通的,越来越发现自己欠缺的知识其实还有很多。
面试题
1.kafka 重启是否会导致数据丢失
2.讲一讲checkpoint
3.描述mapreduce的过程,中间有几次写磁盘
4.ORC、Parquet等列式存储的优点
5.调度系统的实现,开源调度系统Azkaban
【big|大厂面试 | 阿里巴巴大数据工程师面试题汇总】6.zookeeper HA原理
7.二分法以及变种
8.用java实现多种排序算法
9.如何用redis实现分布式锁
10.ArraryBlockingQueue的实现
11.一个文本文件,大约有一万航,每行一个词,要求统计出其中最频繁出现的前10个词
12.上千万或上亿数据(有重复),统计其中出现最多的前n个数据
13.有10个文件,每个文件1g,每个文件的每一行存放的都是用户的query,meigewenjiandequery都有可能重复,要求你按照query的频率来排序
14.海量日志数据,提取出某日访问百度最多次数的那个IP
15.zookeeper选举机制
16.zookeeper的端口水命,作用
17.zookeeper主从服务器如何通信
18.HFile数据格式中的KeyValue介绍
19.Spark中的Work主要工作是什么
20.Spark有几种部署模式,每种模式有什么特点
21.spark的driver的功能是什么
22.Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么
23.spark streaming读取kafka的两种方式
24.spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面
25.spark rdd如何区分宽依赖窄依赖
26.怎么解决kafka的数据丢失
27.怎么查看kafka的offset
围绕kafka、spark、Hadoop问的较多,相当有难度,本关已过~,喜欢杭州,希望能进阿里!

    推荐阅读