看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

写在前面——

上周我们发布了675道Java面试题集,读者朋友们反响热烈,还有粉丝给我们发私信,希望可以再出一套大数据的面试题。

应广大读者和面试者需求,我们从各招聘公司和学员处收集了1200多道大数据面试题,其中不乏有京东、搜狐、新浪、爱艺奇等大企业面试题,我们从中筛选出其中550道最精华的部分组成这份面试题集,并在此分享给大家。

希望这份大数据面试题可以对你找工作有所帮助,小伙伴们可以私信小编:“资料”领取整套题目+答案哦!

本题集包含Redis、搜索引擎、Spark、Storm和kafka、高并发、Hadoop、hive和SQL、Hbase八个模块,详情如下:

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

一、Redis

1、redis工作原理

2、kafka为什么要分多个partition?

3、有一个千万用户的网站,活跃用户在百万左右,用户ID是64位长整数。

4、redis bit操作?

5、redis用来做什么? 模型等,频繁调用的放在redis中,取其快

6、Redis中如何向Spark存东西一条一条插,还是一堆一堆插数据,怎么建立连接?

7、你在项目中redis的存储有哪些?

8、Redis是什么,使用场景?

9、redis支持的最大数据量是多少?redis集群下怎么从某一台集群查key-value。

10、列举一个常用的Redis客户端的并发模型。

11、什么是布隆过滤器,其实现原理是?False positive指的是?

12、memcache与redis的区别

13、Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细)

14、HBase与Redis

16、redis支持的数据格式

17、基本操作,存储格式

18、下列对RDD特点描述错误的是()(单选)

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

19、Spark中的RDD的计算是以什么作为单位的?每个RDD都会实现什么函数以达到这个目的?

20、以下哪一个是Redis不支持的持久化策略( )(单选)

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

2

搜索引擎

21、用到哪些全文检索的技术

22、lunce和solr

23、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前一个日志文件中有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门),请你统计最热门的10个查询串,要求使用的內存不能超过1G。

24、Elasticsearch使用一种叫做倒排索引的结构来实现快速的全文索,什么是倒排索引,请举例?

3

Spark

25、Spark框架

26、sparkSQL介绍下(RDD、DataFrame)

27、DSL和SQL用哪个比较多?

28、udf和udaf都写过哪些?

29、介绍下udaf

30、spark运行在Yarn上流程(cluster)

31、spark调优

32、宽窄依赖

33、sparkStreaming和Storm比较

34、SparkStreaming与Storm的应用场景

35、sparkon yarn 和mapreduce 中yarn有什么区别

36、spark原理

37、Spark支持的分布式部署方式是? ( )

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

38、Spark的四大组件下面哪个不是 ( )

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

39、下面哪个端口不是spark自带服务的端口 ( )

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

八、Hbase

511、hbase最主要的特点是什么?

512、hbase部署

513、简单描述HBase的 rowley的设计原则?

514、请描述HBase中scan和get的功能以及实现的异同

515、请描述HBase中scan对象的 setCache和 setBatch方法的使用

516、请详细描述 HBase中一个Ce1l的结构

517、请描述如何处理 HBase中 region太多和region太大带来的冲突

518、Hbase的rowKey怎么创建比较好?列簇怎么创建比较好?

519、hbase内部机制是什么?

520、hbase过滤器实现原则

521、描述Hbase,ZooKeeper搭建过程

522、HBase写数据的原理是什么?

523、HBase宕机如何处理?

524、hbase怎么预分区?

525、以start-hbase.sh为起点,Hbase启动的流程是什么?

526、请简述HBASE中compact用途是什么,什么时候触发,分哪两种compact,有何区别,有哪些相关配置参数?

527、hbase的API都有哪些filter?

528、关系型数据库是怎么把数据导出到Hbase 里的?

529、解释Hbase LSM结构树

530、hbase怎么给web前台提供接口来访问?

531、下面对HBase的描述哪些是正确的?( )

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

532、HBase依赖( )提供消息通信机制?

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

533、简述HBASE写入数据的过程

534、你们用HBASE存储什么数据?

535、HBase如何实现模糊查询?

536、描述一下Hase的基础架构--- JD

537、写出在hbase shell中的命令

a)hbase中查询表名为test,谁的值=001

b)hbase中查询表名为test, rowley为 user开头的

538、Hbase的持久化数据是存放在HDFS上的,并由 zookeeper协助进行集

群管理,这一说法是()的

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

539、HBase中的一个表是被划分为很多 regionserver的,这些regionserver分布式地存放在服务器上,这一说法是()

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

540、HBase可以通过 compact命令操作来做版本间的文件合并,这一说法是的()

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

看完这680道面试题,绝对让HR大吃一惊,pdf答案免费赠送

由于篇幅原因,小编就给大家介绍到这里,小伙伴们记得转发+关注并私信小编:“资料”领取整套550道面试题+答案哦!


分享到:


相關文章: