最全騰訊等BAT大數據面試99題:hadoop、java、spark、機器算法等

最全騰訊等BAT大數據面試99題:hadoop、java、spark、機器算法等

以下是面試騰訊等BAT公司所做的大數據面試題彙總,主要包括以下幾大類:

一、spark相關

1.Spark的Shuffle原理及調優?

2.hadoop和spark使用場景?

3.spark如何保證宕機迅速恢復?

4.hadoop和spark的相同點和不同點?

5.RDD持久化原理?

6.checkpoint檢查點機制?

7.checkpoint和持久化機制的區別?

8.Spark Streaming和Storm有何區別?

9.RDD機制?

10.Spark streaming以及基本工作原理?

11.DStream以及基本工作原理?

12.spark有哪些組件?

13.spark工作機制?

14.Spark工作的一個流程?

15.spark核心編程原理?

16.spark基本工作原理?

17.spark性能優化有哪些?

18.updateStateByKey詳解?

19.寬依賴和窄依賴?

20.spark streaming中有狀態轉化操作?

21.spark常用的計算框架?

22.spark整體架構?

23.Spark的特點是什麼?

24.搭建spark集群步驟?

25.Spark的三種提交模式是什麼?

26..spark內核架構原理?

27.Spark yarn-cluster架構?

28.Spark yarn-client架構?

29.SparkContext初始化原理?

30.Spark主備切換機制原理剖析?

31.spark支持故障恢復的方式?

32.spark解決了hadoop的哪些問題?

33.數據傾斜的產生和解決辦法?

34.spark 實現高可用性:High Availability?

35.spark實際工作中,是怎麼來根據任務量,判定需要多少資源的?

36.spark中怎麼解決內存洩漏問題?

二、hadoop

1.講述HDFS上傳文件和讀文件的流程?

2.HDFS在上傳文件的時候,如果其中一個塊突然損壞了怎麼辦?

3.NameNode的作用?

4.NameNode在啟動的時候會做哪些操作?

5.NameNode的HA?

6.Hadoop的作業提交流程?

7.Hadoop怎麼分片?

8.如何減少Hadoop Map端到Reduce端的數據傳輸量?

9.Hadoop的Shuffle?

10.哪些場景才能使用Combiner呢?

11.HMaster的作用?

12.如何實現hadoop的安全機制?

13.hadoop的調度策略的實現,你們使用的是那種策略,為什麼?

14.數據傾斜怎麼處理?

15.評述hadoop運行原理?

16.簡答說一下hadoop的map-reduce編程模型?

17.hadoop的TextInputFormat作用是什麼,如何自定義實現?

18.map-reduce程序運行的時候會有什麼比較常見的問題?

19.Hadoop平臺集群配置、環境變量設置?

20.Hadoop性能調優?

21.Hadoop高併發?

三、HBase

1.HBase的操作數據的步驟?

2.HDFS和HBase各自使用場景?

3.熱點現象及解決辦法?

4.RowKey的設計原則?

5.hbase.hregion.max.filesize應該設置多少合適?

6.autoflush=false的影響?

8.Hbase行健列族的概念,物理模型,表的設計原則?

9.HBase存儲單元Cell?

10.HBase物理模型?

11.HBase的客戶端Client?

12.HBase二級索引?

四、Hive

1. hadoop中兩個大表實現join的操作,簡單描述?

2.Hive中存放是什麼?

3.Hive與關係型數據庫的關係?

4.講一下數據庫,SQl ,左外連接, 原理,實現?

5.大表和小表join?

6. 數據清洗怎麼做的?怎麼用spark做數據清洗?

7. Hadoop中二次排序怎麼做?

8. hadoop常見的join操作?

9. hive優化有哪些?

10. 分析函數?

五、Java

1.講講多線程吧,要是你,你怎麼實現一個線程池呢?

2.項目用什麼語言寫? Scala? Scala的特點? 和Java的區別?

3.平時對多線程這方面是怎麼處理呢?

4.什麼是jvm?

5.jvm怎麼調優的?

6.jvm結構?堆裡面幾個區?

7.jdbc?mysql的驅動包名字叫什麼?

8.java自帶有哪幾種線程池?

9. GC機制?

10. 使用泛型的好處?

11.HashMap?

12.Java多線程的狀態?

六、機器學習算法

1.簡要描述你知道的數據挖掘算法和使用場景?

2.mllib支持的算法?

3.ALS算法原理?

4.kmeans算法原理?

5.canopy算法原理?

6.樸素貝葉斯分類算法原理?

7.關聯規則挖掘算法apriori原理?

結束語:大量粉絲還沒有養成閱讀後點讚的習慣,希望大家在閱讀後順便點贊,如果喜歡,也請分享給身邊的朋友,以示對我們的鼓勵!

最全騰訊等BAT大數據面試99題:hadoop、java、spark、機器算法等


分享到:


相關文章: