剛出爐 | 2019-12 | 北京2家大數據面試題

北京A公司

1.說一下java 數據結構 時間複雜度 空間複雜度 瞭解算法麼?
2.離線項目
3.Flume監控怎麼做的?如何知道source 到channel 多條數據 ?
4.Flume組件說一下
5.Kafka 分區策略
6.Linux 進程和線程的區別
7.如何查一個進程
8.離線數倉各層你們是做什麼的
剛出爐 | 2019-12 | 北京2家大數據面試題

北京B公司

一面:

1.我知道你們公司 你聊一下你公司的業務主要是做什麼的?
2.Spark常用算子你寫一下
3.map,mappartition 有什麼區別
4.Spark內存管理
5.實時數倉 這個Phoenix 有什麼好處
6.Spark 調優你都調哪塊?

二面:

上來把我簡歷放到一遍 說 “咱倆談談技術問題” ,我就知道這個人 不簡單。
1.使用Json格式好處和壞處?
2.Flume組件談談你的理解 自己自定義過Sink 和攔截器麼?
3.Kafka 優點 為什麼快?
4.什麼是零拷貝?
5.自己搭建過 Apache的Hadoop麼?高可用你怎麼理解?
6.你公司集群規模?
7.datanode掛了一臺會發生什麼?
8.Spark你遇到的故障以及如何解決?
9.Spark內存管理?

三面:

1.你Spark作業cpu飆升你分析一下 什麼原因?
2.Spark實時這塊你怎麼做的調優?
3.那麼你調優的時候 如何動態修改你要調的參數?怎麼調?(實時)
4.spark-submit 你的腳本 運行了一段時間發現數據量大了 你如何調內存參數?
5.Spark內存管理說一下 

四面:

1.Flume延遲數據你們怎麼處理的?
2. 出了一個場景 :
 MySQL數據同步 今天的數據 如果有延遲 這個延時數據跑到下一天了 你該怎麼辦?

五面:

這個人 就是我未來的leader
1.Spark內存管理?
2.在Spark裡面 定義一個類 裡面的屬性是 boolean類型的 它內存由誰管理 內存是多大?
3.join 和 group by 是堆內還是堆外?
4.Spark調優 你怎麼做的
5.說了他們的實時數倉和團隊人員配置
6.離職原因?你期望薪資多少?我不敢要了 我要了23k 我說之前是18k
招聘信息上寫的是 5-10年 30k-50k

之後說 薪資問題你一會和HR談 說來這面試的 很少有人能堅持到這的。


分享到:


相關文章: