一些简单的面试题

风流不在谈锋胜,袖手无言味最长。这篇文章主要讲述一些简单的面试题相关的知识,希望能为你提供帮助。


1、下列选项中无法通过大数据技术实现的是:
A、商业模式发现
B、信用评估
C、商品推荐
D、运营分析
2、大数据平台管理系统一般有哪些能力:
A、数据集成
B、系统管理
C、安全管理
D、服务治理
3、假设每个用户最低资源保障设置为yarn.scheduler.capcity.root.queueA.mininum-user-limit-percent=24,则以下说法错误的是
A、第3个用户提交任务时,每个用户最多获得33.33%的资源
B、第2个用户提交任务时,每个用户最多获得50%的资源
C、第4个用户提交任务时,每个用户最多获得25%的资源
D、第5个用户提交任务时,每个用户最多最多获得20%的资源
4、大数据解决方案中平台架构包括以下哪些组成部分?
A、Hadoop层
B、大数据平台管理系统
C、MPP数据库
D、Dataframe
5、Spark自带的资源框架是?
A、Standalone 
B、Mesos
C、YARN
D、Docker
6、关于RDD,下列说法错误的是
A、RDD具有血缘依赖关系(Lineage)
B、RDD默认存储在磁盘
C、RDD是一个只读的,可分区的分布式数据集
D、RDD是spark对基础数据的抽象
7、关于Spark SQL& Hive的区别与联系,下列说法正确的是?
A、Spark SQL依赖于hive元数据
B、Spark SQL的执行引擎为Spark core,Hive默认执行引擎为Mapreduce
C、Spark SQL不可以使用hive的自定义函数
D、Spark SQL兼容绝大部分hive的语法和函数
8、在Hadoop集群中,Spark主要与以下哪些组件进行交互?
A、HDFS
B、YARN
C、Hive
D、Zookeeper
9、关于Hive在大数据集群中的架构描述错误的是?
A、只要有一个hiveServer不可用,整个Hive集群便不可用?
B、MetaStore用于提供元数据服务,依赖于DBService
C、在同一时间点,HiveServer只要一个处于Active,另一个则处理于Standby状态
D、HiverServer负责接收客户端请求,解析,执行HQL命令并返回查询结果
10、通常情况下,Hive以文本文件存储的表会以回车作其行分隔符,在hive中,可以提定表的数据的输入和输出格式处理。
A、True
B、FALSE
11、以下关于Hbase中Hmaster的功能描述哪些正确的?
A、Region负载均衡,Region分裂以及分裂后的Region分配
B、负责建表/修改表/删除表
C、负责RegionServer的负载均衡
D、RegionServer失效后的Region迁移
12、Nimbus在Streaming架构中的功能包括?()
A、监控任务执行状态
B、任务调度
C、启动/关闭工作进程
D、资源分配
13、Topology在任务完成后自动结束运行
A、True
B、FALSE
14、下面关于Flink的描述错误的是 
A、滚动窗口在时间上是重叠的
B、滚动窗口在时间上是不重叠的
C、滑动窗口之间时间点不存在重叠
D、滑动窗口之间时间点存在重叠
15、在FusionInsightManager界面中,对Loader(华为)的操作不包括哪个选项
A、切换Loader主备节点
B、启动Loader实例
C、配置Loader参数
D、查看Loader的服务状态
16、创建Loader作业中,可以在以下哪个步骤中设置过滤器类型
A、输入设置
B、转换
C、基本信息
D、输出
17、以下哪些数据源可以通过Loader实现与FusionInghtHD的数据交换
A、Nosql
B、FtpServer
C、SftpServer
D、mysql
18、Kafka日志的清理方式有两种:delete和compact。默认是delete。
A、True
B、False
19、Kafka-cluster mirroring工具可以实现以下那些功能?
A、Kafka集群数据同步方案
B、Kafka单集群内数据备份
C、Kafka单集群内数据恢复
D、以全部不对
20、FusionInsight HD产品中,一个典型的Kafka集群包含若干个producer和若干个consummer和一个zooekeeper集群?
A、True
B、False
21、ZKFC进程部署在hdfs中的以下那个节点上
A、active namenode
B、standby namenode
C、datanode
D、以上全部不对
22、以下关于kafka partition偏移量的描述不正确的是
A、每个消息在文件中的位置称为offset(偏移量)
B、消费者通过(offer.partition.topic)跟踪记录
C、唯一标记一条消息
D、offset是一个string型字符串
23.channel的作用类似队列,用于临时缓存进来的数据,当sink成功将数据发送到下一跳的channel或最终目的,数据会从channel移除
A、True
B、False
24、Zookeeper中的数据节点znode的分为哪几种类型
A、semi-persisent
B、ephemeral
C、temporary
D、persistent
25、HDFS联邦环境下,NameSpace(命名空间)包含以下哪些内容
A、目录
B、文件
C、块
D、以上全不正确
26、HDFS存储数据时,关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改datanode的存储策略,系统可以将数据强制保存在指定的数据节中组中
A、True
B、False
27、RDD有Transformtion和Action算子,下列属于Action算子的是?
A、map
B、saveAsTextFile
C、Filter
D、reduceByKey
28、Spark on yarn-client适用于生产环境是因为可以更快的看到App的输出
A、True
B、False
29、以下关于Hive SQL基本操作描述正确的
A、创建外表必须指定location正确
B、创建外表使用external关键字,创建普通表需要指定internal关键字
C、加载数据到Hive时源数据必须是HDFS的一个路径
D、创建表时可以指定列分割符
31、Flume适用于以下哪些场景的数据收集
A、Thrift,Avro,Syslog,Kafka等数据源上收集数据
B、本地文件数据采集
C、应用系统产生的日志采集
D、大量数据的实时数据采集
32、从zookeeper和yarn协同工作时,当activeresoucemanager产生故障时,standby resourcemanager会从以下哪些目录获取application相关信息
A、memstore
B、statestore
C、Storage
D、Warehouse
33、Zookeeper所有节点都可以处理读请求
A、True
B、False
34、HDFS的副本放置策略中,同一机架不同的服务器之间的距离是
A、3
B、2
C、1
D、4
35、下列哪些措施是为了保障数据的完整性
A、元数据可靠性保证
B、重建失效数据盘的副本数据
C、安全模式
D、集群数据均衡
36、Zooekeeper的scheme认证方式不包括以下哪项
A、digest
B、sasl
C、auth 
D、world
37、Mapreduce过程中,以下属于shuffle机制的是
A、Copy
B、partition
C、combine
D、sort/merge
38、FusionInsight Manager可以对哪些项目进行健康检查
A、角色
B、主机
C、服务
D、实例
39、FusionInsight Manager与外部管理平台对接时,支持哪些接口
A、VPN
B、SNMP
C、Syslog
D、FTP
40、下列选项中适合mapreduce场景有
A、实时交互计算
B、迭代计算
C、流式计算
D、离线计算
41、以下关于FusionInsight中carbondata说法正确的有
A、使用carbon的目的是对大数据即席查询提供快速响应
B、carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%-80%数据存储空间,大大节省硬件存储成本
C、carbon是一个新型的apache hadoop本地文件格式,使用选进的列式存储,索引,压缩和编码技术,以提高计算效率,有助于加速超过pb数量级的数据查询,可用于更换的交互查询。
D、Carbon也是一种将数据源与spark 集成的高性能分析引擎
42、HDFS联邦机制下,各namenode元数据是不共享
A、True
B、False
43、Applicationmaster采用轮询方式通过rpc协议向resourcemanager申请和领取资源
A、True
B、FALSE
44、在Yarn的任务调度中,一旦ApplicationMaster申请资源后,使与对应的ResourceMager通信,要求它启动任务。
A、True
B、FALSE
45、如图所示下列哪些选项属于宽依赖
A、groupby: A-> B
B、map:c-> D
C、union:D& E-> F
D、Join:B& F-> G
46、HDFS出现解决了需要在hdfs中存储大量的小文件(10MB以下),同时也要存储一些大文件(10MB)的混合场景
A、True
B、False
47、下列哪个命令是从HDFS下载目录/文件到本地的
A、dfs -put
B、dfs -cat
C、dfs -get 
D、dfs -mkdir 
48、以下选项中,属于hdfs架构关键特性的是
A、HA高可靠性
B、健壮性
C、元数据持久化机制
D、多方式访问机制
49、Hbase的主HMaster是如何选举的
A、由regionServer进行裁决
B、Hmaster为双主模式,不需要进行裁决
C、通过zookeeper进行裁决
D、随机选举
50、关于Hive与Hadoop基他组件的关系,以下描述错误的是
A、Hive最终将数据存储在HDFS中
B、Hive是Hadoop平台的数据仓库工具
C、HQL通过Mapreduce执行任务
D、Hive对Hbase有强依赖
51、Hive不支持超时重试机制
A、True
B、False
52、Hbase的region是由哪个服务进程来管理的
A、HRegionServer
B、ZooKeeper
C、HMaster
D、DataNode
53、Streaming的处理节点Bolt中,可以完成以下哪些操作?
A、连接运算
B、过滤(Filter)
C、连接数据库
D、业务处理
54、FusionInsight中,HiveServer将用户提交的HQL语句进行编程,解析成对应的Yarn任务,Spark任务或者HDFS操作,从而完成数据转换,分析
A、True
B、False
55、Flume传输的可靠性是指Flume在传输数据过程中,当下一跳的Flume节点故障或者数据接收异常时,可以自动切换到别外一路上继续传输。
A、True
B、False
56、FusionInsight HD集群中包含多个服务,每种服务又由若干角色组成,下面哪些是服务的角色
A、HDFS
B、NameNode
C、DataNode
D、Hbase
57、FusionInSight HD系统中使用Streaming客户端shell命令提交之后,使用stormUI查看发现该拓扑时间没有处理数据,可能原因有? 
A、查看客户端异常堆栈,判断是客户端使用问题
B、查看主Nimbus的运行日志,判断是否Nimbus服务端异常
C、查看Supervisor运行日志,判断是否Suprvisor异常
D、查看worker运行日志
58、假设HDFS在写入数据只存2份,那么在写入过程中,HDFS Client先将数据写入DataNode1,再将数据写入DataNode2
A、True
B、False
59、容量调度器在尽心资源分配,现有同级的2个队列Q1和Q2,他们容量均为30,期中Q1已使用8,Q2已使用14,则会优先将资源分配Q1
A、True
B、False
60、Hbase包含的一些典型Filter有哪些
A、SingleColumnValueFilter
B、FilterList
C、RowFilter
D、KeyOnlyFilter
61、Flink流式处理的数据源类型包括:
A、Collections
B、Jdbc
C、Socket Streams
D、Files
62、Server.channels.transactionCapactiy的事务大小,当前chnnel支持事务处理的事件个数,可和source和batchsize设置同样大小,但不能小于batchsize
A、True
B、False
63、Flume架构中,一个sink可以连接多个channel
A、True
B、False
64、以下关于Flink关键特性描述不正确的是
A、SparkStreaming与Flink相比,时延更低
B、Flink流式处理引擎能够同进支持流处理和批处理的应用功能
C、与FusionInght HD中Streaming相比,Flink具有更高的吞吐量
D、checkpoint实现了Flink的容错
65、FusionInsight是华为企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据处理系统,通过对海量信息数据实时和非实时的分析挖掘,发现全新价值点和企业商机。
A、True
B、False
66、Kafka-cluster mirroring工具可以实现以下那些功能?
A、Kafka集群数据同步方案
B、Kafka单集群内数据备份
C、Kafka单集群内数据恢复
D、以全部不对
67、FusionInsightTool是为技术支持工程师和维护工程师提供的一套健康工具,能够检查集群相关节点,服务的健康状态,中潜在的问题,并生成健康检查报告,方便技术工程和维护工程快速了解系统的健康状况。
A、True
B、False
68、FusionInsight产品中,关于Kafka说法不正确的是
A、Kafka强依赖于zooeker
B、Kafka的服务端可以产生消息
C、Kafka部署的实例个数不得小于2
D、Consumer作为kafka的客户端角色专门进行消息的消费。
69、为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeaderPartition和Follower Partition的描述错误的是
A、Kafka针对Partition的复制需要选出一个Leader,由该Leader负责Partiton的读写操作,其他的副本节点只是负责数据同步。
B、由LeaderServer承载了全部的请求压力。因此从集群的整体考虑,kafka会将leader均衡的分散在每个实例上,来确保数据均衡
C、一个kafka集群各个节点间不可能互为Leader和Flower
D、如果Leader失效。那么将会有期他follower来接管。(成为新的Leader)
70、Kafka是一个高吞吐,分布式,基于发布订阅的消息系统,利用kafka技术可在廉价的pc Server上搭建起大规模消息系统。
A、True
B、False
71、Flink是一个批处理和流处理的结合的统一计算框架,其核心是一个数据分发以及并行计算的流数据处理引擎。
A、True
B、False
72、Hbase集群定时执行Compction的目的是什么?
A、减少同一个region同一个columnFamily下的文件数目
B、减少同一个region的文件数目
C、提升数据读取性能
D、提升数据写入能力
73、下列关于Flink barrier描述错误的是
A、一个barrier将本周期数据与下一周期的快照的数据分融出来
B、barrier是Flink快照的核心
C、在插入barrier的时候,会暂时阻断数据流
D、barrier周期性插入到数据流,并作为数据流的一部分随之流动
74、Flume的进程级联时,以下哪些Sink类型用于接收上一跳Flume发送过来的数据
A、Null Sink
B、thrift sink
C、hdfs sink
D、avro sink
75、Flink可以基于以下哪些窗口进行统计
A、时间窗口
B、滑动窗口
C、会话窗口
D、countWindow 
76、关于FusionInsight HD Streaming的Supervisor描述正确的是
A、Supervisor 是在topology中接受数据然后执行处理的组件
B、SuperVisor负责接受Nimbus分配任务,启动和停止属于自已的管理的worker进程
C、Superviosr负责资源分配和任务调度
D、Supervisor是运行具体处理逻辑的过程
77、Hadoop中,如果yarn.scheduler.root.QueueA.minim.m-user-limit-percent设置为50,下面说法错误的是
A、一个用户提交任务,可以使用queueA的100%资源
B、如果QueueA中已经有2个用户的任务运行,这时第3个用户提供提交的任务需要等待资源释放
C、QueueA中必须保障每个用户至少得到50%的资源。
D、QueueA中每个用户最多只能获得50%的资源。
78、关于Flume,下列说法错误的是
A、Flume级联节点之间的数据传输支持加密
B、Flume支持多级联和多路复用
C、Source到channel到sink等进程内部有加密的必要
D、Flume级联节点之间的数据传输不支持压缩
79、以下关于kafka log中segmentfile的说法正确的是
A、通过索引信息可以快速定位message
B、稀疏存储,即将原来的完整数据,只间隔的选择多条进行存储
C、是index元数据全部映射到memory,可以避免segment file的index数据IO磁盘操作
D、索引稀疏存储,可以大幅度降低index文件数据占用空间大小。
80、Streaming主要通过zookeeper提供以下的哪项实现事件侦听
A、分布式锁机制
B、watcher 
C、checkpoint
D、ACK
81、zookeeper在分布式应用中的主要作用不包括以下哪些选项
A、选举master节点
B、保证各节点上数据的一致性
C、分配集群资源
D、存储及群中服务器信息
82、Hadoop集群规模很大时,数据的分布情况非常关键,用户需要根据数据分布情况,决定集群是否扩容,数据是否还需要做负载均衡等,fusionInsight资源分布监控说法正确的是
A、可以帮助用户快速聚焦在最关键的资源消耗上
B、通过每个服务主业的资源分布查看界面,看到关键资源的分布情况
C、通过databoard界面,可以查看主机资源分不清哪个主机,例如内存占用率50-70%的主机列表,并提供链接跳转
D、帮助用户迅速找到资源消耗最高的点,采用适当的措施
83、以下关于华为大数据解决方案说法正确的是
A、Gaussdb是一款开源数据库产品
B、farmer是数据服务框架
C、FusionInsightManager是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群。
D、FusionInsight HD是基于开源大数据软件Hadoop的增强版本
84、下图展示文件A,B,C的存放位置,其中文件A和D具有关联性,它们存储位置符合colocation同分布策略
A、True B False
85、HDFS中Namenode的主备仲裁,是由哪个组件控制的
A、HDFS Client
B、NodeManager
C、ResourceManager
D、ZooKeeper failover controller
86、SparkStreaming计算DStream将流式计算分解成一系列短小的批处理作业。
A、True
B、False
87、导入数据到Hive表中,不会检查数据合法性,只会在读取时候检查
A、True
B、False
88、Topology的处理逻辑都在bolt中
A、True
B、False
89、安装FusionInsight HD的streaming组件是,nimbus角色要求安装几个角色
A、4
B、3
C、2
D、1
90、Flume的properties配置文件中可以配置多个channel来传输数据
A、True
B、False
91、驱动型source 是flume周期性主动去获取数据
A、True
B、False
92、FusionInsight HD数据高可靠性体现在以下哪些方面
A、硬盘热插拔
B、关键数据掉电保护
C、跨数据中心容灾
D、第三方备份系统集成
93、FusionInsight HD系统审计日志不可以记录下面哪些操作
A、手动消除告警
B、启停服务实例
C、查询历史监控
D、删除服务实例
94、下图展示HDFS的标签存储策略,观察下图,Hbase的数据会存储到哪些数据节点上
就是只能到相关标签上
95、Hbase的数据文件Hfile中一个key、value、timestamp、keytype
A、True
96、在有N个节点FusionInsight hd集群中部署hbase时,推荐部署()个hmaster进程,()个regionserver进程
A、3,N
B、N、N
C、2,N
D、2,2
97、Flink的数据转换操作在以下哪些环节中完成
A、channel 
B、Transformation
C、sink
D、Source
98、kafka消息传输保障通常有以下哪几种
A、仅有一次(Exactly once)
B、最少一次(At Least once)
C、最多三次(At more three times)
D、最多一次(At most once )
99、Kafka logs segment文件命名规则是partion全局的第一个segment从0开始,后续每个segment文件名为为上上一个全局parttion事务最大offset
A、True
B、False
100、Hbase的主要特点有哪些
A、面向列
B、高性能
C、可伸缩
D、高可靠性
101、Yarn,从节点负责以下哪些工作
A、集群中所有的统一管理和分配
B、监督container的生命周期管理
C、监控每个container的资源使用(内存、CPU等)情况
D、管理日志和不同应用程序用到的附属服务
102、spark 有哪些特点?
A、快
B、灵
C、轻
D、巧
103、hive中groupby指的是通过一定的规则将每一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理
A、True
B、False
104、Flink适用于高并发处理数据,毫秒级时延的应用
A、True
B、False
105、与开源sqoop相比,loader具有哪些增强特性
A、高可靠性
B、高性能
C、安全性
D、图形化
106、FusionInsight Hd loader可以将hdfs数据导出以下哪些目标端
A、oracle
B、sftp
C、db2数据库
D、ftp服务器
107、Loader在创建作业,连接哪些作业
A、配置作业与内部连接方式
B、配置作业与外部连接方式
C、确定有转换
D、r提供优化参数,提高数据导入导出性能
108、当zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点的等价的
A、3
B、4
C、5
D、以上全不正确
109、FusionInsight家族包含下列哪些子产品
A、FusionInsight farmer
B、FusionInsight miner
C、FusionInsight HD
D、Gaussdb 200
110、FusionInsight manager用户权限管理不支持哪个配置
A、给用户配置角色
B、给用户组配置角色
C、给角色配置权限
D、给用户组配置权限
111、Yarn调度器分配资源的顺序,下面哪一个描述的正确
A、任意机器---> 本地资源---> 同机架
B、任意机器--> 同机架--> 本地资源
C、本地资源--> 同机架---> 任意机器
D、同机架--> 任意机器---> 本地资源
112、以下哪个不属于hadoop 中mapreduce组件的特点
A、高容错
【一些简单的面试题】B、良好的扩展性
C、实时计算
D、易于编程
113、Hbase的最小存储单元是region
A、True
B、FAlse
114、Hhbase的某张表的rowkey划分splitkey为9.e.a.z ,请问表里面有几个region
A、6
B、3
C、5
D、4
115、根据数据流如何在两个transformation之间传输数据,数据流可以分为那些类型
A、一对一流
B、distributing流
C、一对多流
D、redistributig流
116、为了保障应用的快照存储的可靠性,快照主要存储在哪里
A、jobmanager的内存中
B、可靠性的单机数据库中
C、本地文件系统中
D、hdfs中
117、在Fusioningiht产品中,关于kafka的topic,以下描述不正确的是
A、topic的partition数量可以创建时配置
B、每个topic只能被 分成一个partition区
C、每条分布到kafka的消息都有一个类别,这个类别被称为topic,也可以理解为一个存储消息的队列
D、每个partition在层储层对应一个log文件,log文件记录了所有的消息数据。
118、kafka集群在运行期间,直接依赖于下面哪个组件 zookeeper



    推荐阅读