人工智能面試總結:160個機器學習面試題,趕緊先考考本人!


人工智能面試總結:160個機器學習面試題,趕緊先考考本人!


數據科學職位的典型面試過程會有很多輪,其中通常會觸及理論概念,目的是肯定招聘者能否理解機器學習的根底學問。在這篇文章中,我想總結一下我一切的面試閱歷(面試or被面試)並提出了160多個數據科學理論問題的清單。其中包括以下主題:

  • 線性迴歸
  • 模型考證
  • 分類和邏輯迴歸
  • 正則化
  • 決策樹
  • 隨機森林
  • GBDT
  • 神經網絡
  • 文本分類
  • 聚類
  • 排序:搜索和引薦
  • 時間序列

這篇文章中的問題數量似乎遠遠不夠,請記住,面試流程是依據公司的需求和你的工作閱歷而定的。因而,假如你的工作中沒有用過時間序列模型或計算機視覺模型,就不會收到相似的問題。

提示:假如不曉得某些面試問題的答案,不要灰心。為了簡化起見,我依據難度將問題分為三類:

  • 容易
  • 中號
  • 專家
人工智能面試總結:160個機器學習面試題,趕緊先考考本人!

人工智能面試總結:160個機器學習面試題,趕緊先考考本人!

2020年最新python教程和電子書,幫助您入門人工智能行業,方向對了,努力3個月,起薪過萬並不難!

如果你看好人工智能產業,處於想學python或者找不到合適的入門教程,那麼趕快來領取吧

獲取方式:

1.點贊+關注+評論一下(勾選“同時轉發”)

2.私信小V關鍵詞 “ 資料 ”,即可免費獲取哦!

還不會私信的小夥伴,可以按照以下步驟操作:

1、打開頭條,點擊右下角“我的”

2、在個人界面點擊“關注”,當然這需要你先關注小編

3、在關注中找到小編,點擊小編的頭像進入他的個人界面,隨後點擊“私信” 

4、隨後進入私信發送界面,這樣就可以愉快的私信聊天了;


人工智能面試總結:160個機器學習面試題,趕緊先考考本人!


let us go!

有監視的機器學習

  • 什麼是有監視學習?

線性迴歸

  • 什麼是迴歸?哪些模型可用於處理迴歸問題?
  • 什麼是線性迴歸?什麼時分運用它?
  • 什麼是正態散佈?為什麼要注重它?
  • 如何檢查變量能否遵照正態散佈?‍
  • 如何樹立價錢預測模型?價錢能否正態散佈?需求對價錢停止預處置嗎?‍
  • 處理線性迴歸的模型有哪些?‍
  • 什麼是梯度降落?它是如何工作的?‍
  • 什麼是正軌方程?‍
  • 什麼是SGD-隨機梯度降落?與通常的梯度降落有何不同?‍
  • 有哪些評價迴歸模型的指標?
  • 什麼是MSE和RMSE?

考證方式

  • 什麼是過擬合?
  • 如何考證模型?
  • 為什麼需求將數據分為三個局部:鍛鍊,考證和測試?
  • 解釋穿插考證的工作原理?
  • 什麼是K折穿插考證?
  • 如何在K折穿插考證當選擇K?你最喜歡的K是什麼?

分類

  • 什麼是分類?哪些模型能夠處理分類問題?
  • 什麼是邏輯迴歸?什麼時分需求運用它?
  • Logistic迴歸是線性模型嗎?為什麼?
  • 什麼是Sigmoid?它有什麼作用?
  • 如何評價分類模型?
  • 什麼是精確性?
  • 精確性一直是一個好的指標嗎?
  • 什麼是混雜表?表中的單元格表示什麼?
  • 什麼是精度,召回率和F1分數?
  • 精確率和召回率的權衡‍
  • 什麼是ROC曲線?什麼時分運用?‍
  • 什麼是AUC(AU ROC)?什麼時分運用?‍
  • 如何解釋AU ROC分數?‍
  • 什麼是PR曲線?‍
  • PR曲線下的面積是幾?這個指標有用嗎?‍
  • 在哪種狀況下AU PR比AU ROC好?‍
  • 如何處置分類變量?‍
  • 為什麼需求one-hot編碼?‍

正則化

  • 假如的數據中包含三列:x,y,z,其中z是x、y的和,那麼線性迴歸模型會怎樣?‍
  • 假如數據中的z列是x和y列之和加上一些隨機噪聲,那麼的線性迴歸模型會怎樣?‍
  • 什麼是正則化?為什麼需求它?
  • 有哪些正則化技術?‍
  • 什麼樣的正則化技術適用於線性模型?‍
  • L2正則化在線性模型中是什麼樣的?‍
  • 如何選擇正確的正則化參數?
  • L2正則化對線性模型的權重有什麼影響?‍
  • L1正則化在線性模型中是什麼樣的?‍
  • L2和L1正則化有什麼區別?‍
  • 能夠在線性模型中同時具有L1和L2正則化嗎?‍
  • 如何解釋線性模型中的常數項?‍
  • 如何解釋線性模型中的權重?‍
  • 假如一個變量的權重高於另一個變量的權重,那麼能夠說這個變量更重要嗎?‍
  • 什麼時分需求對線性模型停止特徵歸一化?什麼狀況下能夠不做歸一化?‍

特徵選擇

  • 什麼是特徵選擇?為什麼需求它?
  • 特徵選擇對線性模型重要嗎?‍
  • 有哪些特徵選擇技術?‍
  • 能夠運用L1正則化停止特徵選擇嗎?‍
  • 能夠運用L2正則化停止特徵選擇嗎?‍

決策樹

  • 什麼是決策樹?
  • 如何鍛鍊決策樹?‍
  • 決策樹模型的主要參數是什麼?
  • 如何處置決策樹中的分類變量?‍
  • 與更復雜的模型相比,單個決策樹有什麼益處?‍
  • 如何曉得哪些特徵對決策樹模型更重要?‍

隨機森林

  • 什麼是隨機森林?
  • 為什麼需求在隨機森林中停止隨機化?‍
  • 隨機森林模型的主要參數是什麼?‍
  • 如何選擇隨機森林中樹的深度?‍
  • 如何曉得隨機森林需求幾棵樹?‍
  • 隨機森林的鍛鍊並行化容易?該怎樣做?‍
  • 隨機森林中過多的樹有什麼潛在問題?‍
  • 能否能夠不找到最佳分割,而是隨機選擇幾個分割,然後從當選擇最佳分割?可行嗎
  • 數據中存在相關特徵時會怎樣?‍

梯度提升

  • 什麼是梯度加強樹?‍
  • 隨機森林和梯度提升之間有什麼區別?‍
  • 能否能夠並行化梯度提升模型的鍛鍊?怎樣做?‍
  • 梯度加強樹種的特徵重要性-有哪些可能的選擇?‍
  • 梯度提升模型的特徵重要性,連續變量和離散變量之間能否有區別?
  • 梯度提升模型中的主要參數是什麼?‍
  • 如何在XGBoost或LightGBM中調整參數?
  • 如何在梯度提升模型當選擇樹的數量?‍

參數調整

  • 你大致理解哪些參數調整戰略?‍
  • 網格搜索參數調整戰略和隨機搜索有什麼區別?什麼時分運用一個或另一個?‍

神經網絡

  • 神經網絡能夠處理哪些問題?
  • 通常的全銜接前饋神經網絡如何工作?‍
  • 為什麼需求激活功用?
  • sigmoid 為激活函數有什麼問題?‍
  • 什麼是ReLU?它比sigmoid 或tanh好嗎?‍
  • 如何初始化神經網絡的權重?‍
  • 假如將神經網絡的一切權重都設置為0會怎樣?‍
  • 神經網絡中有哪些正則化技術?‍
  • 什麼是1.1Dropout?為什麼有用?它是如何工作的?‍

神經網絡的優化

  • 什麼是反向傳播?它是如何工作的?為什麼需求它?‍
  • 你曉得哪些鍛鍊神經網絡的優化技術?‍
  • 如何運用SGD(隨機梯度降落)鍛鍊神經網絡?‍
  • 學習率是幾?
  • 學習率太大時會發作什麼?太小?
  • 如何設置學習率?‍
  • 什麼是Adam?Adam和SGD之間的主要區別是什麼?‍
  • 什麼時分運用Adam和SGD?‍
  • 要堅持學習率不變還是在鍛鍊過程中改動它?‍
  • 如何肯定何時中止鍛鍊神經網絡?
  • 什麼是ModelCheckpoint?‍
  • 講一下你是如何停止模型鍛鍊的?‍

用於計算機視覺的神經網絡

  • 如何運用神經網絡停止計算機視覺?‍
  • 什麼是卷積層?‍
  • 為什麼需求卷積?不能運用全銜接層嗎?‍
  • CNN中的pooling是什麼?為什麼需求它?‍
  • Max pooling如何工作?還有其他池化技術嗎?‍
  • CNN能否抗旋轉?假如旋轉圖像,CNN的預測會怎樣?
  • 什麼是數據加強?為什麼需求它們?你曉得哪種加強?
  • 如何選擇要運用的加強?‍
  • 你曉得什麼樣的CNN分類體系?
  • 什麼是遷移學習?它是如何工作的?‍
  • 什麼是目的檢測?你曉得有哪些框架嗎?
  • 什麼是對象分割?你曉得有哪些框架嗎?

文字分類

  • 如何運用機器學習停止文本分類?‍
  • 什麼是詞袋模型?如何將其用於文本分類?‍
  • 詞袋模型的優缺陷是什麼?‍
  • 什麼是N-gram?如何運用它們?‍
  • 運用N-gram時,詞袋模型中N應該是幾?‍
  • 什麼是TF-IDF?它對文本分類有什麼用?‍
  • 你用過哪種模型對帶有詞袋特徵的文本停止分類?‍
  • 運用詞袋停止文本分類時,你希望運用梯度提升樹模型還是邏輯迴歸?‍
  • 什麼是詞嵌入?為什麼有用?你曉得Word2Vec嗎?‍
  • 你還曉得其他詞嵌入的辦法嗎?
  • 假如你的句子包含多個單詞,則可能需求將多個單詞嵌入組合為一個。你會怎樣做?‍
  • 在停止帶有嵌入的文本分類時,運用梯度提升樹模型還是邏輯迴歸?‍
  • 如何運用神經網絡停止文本分類?
  • 如何運用CNN停止文本分類?

聚類

  • 什麼是無監視學習?
  • 什麼是聚類?什麼時分需求它?
  • K-means是如何工作的嗎?‍
  • 如何為K均值選擇K?‍
  • 你還曉得其他哪些聚類算法?‍
  • 你曉得DBScan如何工作嗎?‍
  • 何時選擇K-means,何時選擇DBScan?‍

降維

  • 維度災難是什麼?為什麼要關懷它?‍
  • 你曉得降維技巧嗎?‍
  • 什麼是奇特值合成?它通常如何用於機器學習?‍

排序和搜索

  • 什麼是排序問題?能夠運用哪些模型來處理它們?‍
  • 文本信息檢索任務重,什麼是好的無監視baselines?‍
  • 如何評價排序算法?運用哪些離線指標?‍
  • k的精度和召回率是幾?‍
  • k的均勻精度均值是幾?‍
  • 如何運用機器學習停止搜索?‍
  • 如何取得鍛鍊算法的排序數據?‍
  • 能夠將搜索問題表述為分類問題嗎?
  • 如何將點擊數據用作鍛鍊數據以停止排序算法?
  • 如何運用梯度提升樹停止排序?
  • 如何在線評價新的排序算法?‍

引薦系統

  • 什麼是引薦系統?
  • 樹立引薦系統時有什麼好的 baseline?‍
  • 什麼是協同過濾?
  • 如何將隱式反應(點擊等)歸入引薦系統?‍
  • 什麼是冷啟動問題?
  • 處理冷啟動問題的可能辦法?

時間序列

  • 什麼是時間序列?
  • 時間序列與通常的迴歸問題有何不同?
  • 用於處理時間序列問題的有哪些模型?‍
  • 假如序列中有趨向,如何消弭它?為什麼要這麼做?‍
  • 在時間t處測得只要一個變量“y”的序列。如何在時間t + 1預測“y”?運用哪種辦法?‍
  • 有一個帶有變量“y”和一系列特徵的序列。如何預測t + 1時的“y”?運用哪種辦法?‍
  • 運用樹來處理時間序列問題有什麼問題?‍

以上!希望它對各位有用,趕緊考考本人先,也希望大家面試順利!更多人工智能,機器學習方面的教程也會繼續更新!


分享到:


相關文章: