剛出爐 | 2019-12 | 北京2家大數據面試題

北京A公司

1.說一下java 數據結構 時間複雜度 空間複雜度 瞭解算法麼? 2.離線項目 3.Flume監控怎麼做的?如何知道source 到channel 多條數據 ? 4.Flume組件說一下 5.Kafka 分區策略 6.Linux 進程和線程的區別 7.如何查一個進程 8.離線數倉各層你們是做什麼的

北京B公司

一面:

1.我知道你們公司 你聊一下你公司的業務主要是做什麼的? 2.Spark常用算子你寫一下 3.map,mappartition 有什麼區別 4.Spark內存管理 5.實時數倉 這個Phoenix 有什麼好處 6.Spark 調優你都調哪塊?

二面:

上來把我簡歷放到一遍 說 “咱倆談談技術問題” ,我就知道這個人 不簡單。 1.使用Json格式好處和壞處? 2.Flume組件談談你的理解 自己自定義過Sink 和攔截器麼? 3.Kafka 優點 為什麼快? 4.什麼是零拷貝? 5.自己搭建過 Apache的Hadoop麼?高可用你怎麼理解? 6.你公司集群規模? 7.datanode掛了一臺會發生什麼? 8.Spark你遇到的故障以及如何解決? 9.Spark內存管理?

三面:

1.你Spark作業cpu飆升你分析一下 什麼原因? 2.Spark實時這塊你怎麼做的調優? 3.那麼你調優的時候 如何動態修改你要調的參數?怎麼調?(實時) 4.spark-submit 你的腳本 運行了一段時間發現數據量大了 你如何調內存參數? 5.Spark內存管理說一下

四面:

1.Flume延遲數據你們怎麼處理的? 2. 出了一個場景 : MySQL數據同步 今天的數據 如果有延遲 這個延時數據跑到下一天了 你該怎麼辦?

五面:

這個人 就是我未來的leader 1.Spark內存管理? 2.在Spark裡面 定義一個類 裡面的屬性是 boolean類型的 它內存由誰管理 內存是多大? 3.join 和 group by 是堆內還是堆外? 4.Spark調優 你怎麼做的 5.說了他們的實時數倉和團隊人員配置 6.離職原因?你期望薪資多少?我不敢要了 我要了23k 我說之前是18k 招聘信息上寫的是 5-10年 30k-50k

之後說 薪資問題你一會和HR談 說來這面試的 很少有人能堅持到這的。