數據科學職位的典型面試過程會有很多輪,其中通常會觸及理論概念,目的是肯定招聘者能否理解機器學習的根底學問。在這篇文章中,我想總結一下我一切的面試閱歷(面試or被面試)並提出了160多個數據科學理論問題的清單。其中包括以下主題:
- 線性迴歸
- 模型考證
- 分類和邏輯迴歸
- 正則化
- 決策樹
- 隨機森林
- GBDT
- 神經網絡
- 文本分類
- 聚類
- 排序:搜索和引薦
- 時間序列
這篇文章中的問題數量似乎遠遠不夠,請記住,面試流程是依據公司的需求和你的工作閱歷而定的。因而,假如你的工作中沒有用過時間序列模型或計算機視覺模型,就不會收到相似的問題。
提示:假如不曉得某些面試問題的答案,不要灰心。為了簡化起見,我依據難度將問題分為三類:
- 容易
- 中號
- 專家
2020年最新python教程和電子書,幫助您入門人工智能行業,方向對了,努力3個月,起薪過萬並不難!
如果你看好人工智能產業,處於想學python或者找不到合適的入門教程,那麼趕快來領取吧
獲取方式:
1.點贊+關注+評論一下(勾選“同時轉發”)
2.私信小V關鍵詞 “ 資料 ”,即可免費獲取哦!
還不會私信的小夥伴,可以按照以下步驟操作:
1、打開頭條,點擊右下角“我的”
2、在個人界面點擊“關注”,當然這需要你先關注小編
3、在關注中找到小編,點擊小編的頭像進入他的個人界面,隨後點擊“私信”
4、隨後進入私信發送界面,這樣就可以愉快的私信聊天了;
let us go!
有監視的機器學習
- 什麼是有監視學習?
線性迴歸
- 什麼是迴歸?哪些模型可用於處理迴歸問題?
- 什麼是線性迴歸?什麼時分運用它?
- 什麼是正態散佈?為什麼要注重它?
- 如何檢查變量能否遵照正態散佈?
- 如何樹立價錢預測模型?價錢能否正態散佈?需求對價錢停止預處置嗎?
- 處理線性迴歸的模型有哪些?
- 什麼是梯度降落?它是如何工作的?
- 什麼是正軌方程?
- 什麼是SGD-隨機梯度降落?與通常的梯度降落有何不同?
- 有哪些評價迴歸模型的指標?
- 什麼是MSE和RMSE?
考證方式
- 什麼是過擬合?
- 如何考證模型?
- 為什麼需求將數據分為三個局部:鍛鍊,考證和測試?
- 解釋穿插考證的工作原理?
- 什麼是K折穿插考證?
- 如何在K折穿插考證當選擇K?你最喜歡的K是什麼?
分類
- 什麼是分類?哪些模型能夠處理分類問題?
- 什麼是邏輯迴歸?什麼時分需求運用它?
- Logistic迴歸是線性模型嗎?為什麼?
- 什麼是Sigmoid?它有什麼作用?
- 如何評價分類模型?
- 什麼是精確性?
- 精確性一直是一個好的指標嗎?
- 什麼是混雜表?表中的單元格表示什麼?
- 什麼是精度,召回率和F1分數?
- 精確率和召回率的權衡
- 什麼是ROC曲線?什麼時分運用?
- 什麼是AUC(AU ROC)?什麼時分運用?
- 如何解釋AU ROC分數?
- 什麼是PR曲線?
- PR曲線下的面積是幾?這個指標有用嗎?
- 在哪種狀況下AU PR比AU ROC好?
- 如何處置分類變量?
- 為什麼需求one-hot編碼?
正則化
- 假如的數據中包含三列:x,y,z,其中z是x、y的和,那麼線性迴歸模型會怎樣?
- 假如數據中的z列是x和y列之和加上一些隨機噪聲,那麼的線性迴歸模型會怎樣?
- 什麼是正則化?為什麼需求它?
- 有哪些正則化技術?
- 什麼樣的正則化技術適用於線性模型?
- L2正則化在線性模型中是什麼樣的?
- 如何選擇正確的正則化參數?
- L2正則化對線性模型的權重有什麼影響?
- L1正則化在線性模型中是什麼樣的?
- L2和L1正則化有什麼區別?
- 能夠在線性模型中同時具有L1和L2正則化嗎?
- 如何解釋線性模型中的常數項?
- 如何解釋線性模型中的權重?
- 假如一個變量的權重高於另一個變量的權重,那麼能夠說這個變量更重要嗎?
- 什麼時分需求對線性模型停止特徵歸一化?什麼狀況下能夠不做歸一化?
特徵選擇
- 什麼是特徵選擇?為什麼需求它?
- 特徵選擇對線性模型重要嗎?
- 有哪些特徵選擇技術?
- 能夠運用L1正則化停止特徵選擇嗎?
- 能夠運用L2正則化停止特徵選擇嗎?
決策樹
- 什麼是決策樹?
- 如何鍛鍊決策樹?
- 決策樹模型的主要參數是什麼?
- 如何處置決策樹中的分類變量?
- 與更復雜的模型相比,單個決策樹有什麼益處?
- 如何曉得哪些特徵對決策樹模型更重要?
隨機森林
- 什麼是隨機森林?
- 為什麼需求在隨機森林中停止隨機化?
- 隨機森林模型的主要參數是什麼?
- 如何選擇隨機森林中樹的深度?
- 如何曉得隨機森林需求幾棵樹?
- 隨機森林的鍛鍊並行化容易?該怎樣做?
- 隨機森林中過多的樹有什麼潛在問題?
- 能否能夠不找到最佳分割,而是隨機選擇幾個分割,然後從當選擇最佳分割?可行嗎
- 數據中存在相關特徵時會怎樣?
梯度提升
- 什麼是梯度加強樹?
- 隨機森林和梯度提升之間有什麼區別?
- 能否能夠並行化梯度提升模型的鍛鍊?怎樣做?
- 梯度加強樹種的特徵重要性-有哪些可能的選擇?
- 梯度提升模型的特徵重要性,連續變量和離散變量之間能否有區別?
- 梯度提升模型中的主要參數是什麼?
- 如何在XGBoost或LightGBM中調整參數?
- 如何在梯度提升模型當選擇樹的數量?
參數調整
- 你大致理解哪些參數調整戰略?
- 網格搜索參數調整戰略和隨機搜索有什麼區別?什麼時分運用一個或另一個?
神經網絡
- 神經網絡能夠處理哪些問題?
- 通常的全銜接前饋神經網絡如何工作?
- 為什麼需求激活功用?
- sigmoid 為激活函數有什麼問題?
- 什麼是ReLU?它比sigmoid 或tanh好嗎?
- 如何初始化神經網絡的權重?
- 假如將神經網絡的一切權重都設置為0會怎樣?
- 神經網絡中有哪些正則化技術?
- 什麼是1.1Dropout?為什麼有用?它是如何工作的?
神經網絡的優化
- 什麼是反向傳播?它是如何工作的?為什麼需求它?
- 你曉得哪些鍛鍊神經網絡的優化技術?
- 如何運用SGD(隨機梯度降落)鍛鍊神經網絡?
- 學習率是幾?
- 學習率太大時會發作什麼?太小?
- 如何設置學習率?
- 什麼是Adam?Adam和SGD之間的主要區別是什麼?
- 什麼時分運用Adam和SGD?
- 要堅持學習率不變還是在鍛鍊過程中改動它?
- 如何肯定何時中止鍛鍊神經網絡?
- 什麼是ModelCheckpoint?
- 講一下你是如何停止模型鍛鍊的?
用於計算機視覺的神經網絡
- 如何運用神經網絡停止計算機視覺?
- 什麼是卷積層?
- 為什麼需求卷積?不能運用全銜接層嗎?
- CNN中的pooling是什麼?為什麼需求它?
- Max pooling如何工作?還有其他池化技術嗎?
- CNN能否抗旋轉?假如旋轉圖像,CNN的預測會怎樣?
- 什麼是數據加強?為什麼需求它們?你曉得哪種加強?
- 如何選擇要運用的加強?
- 你曉得什麼樣的CNN分類體系?
- 什麼是遷移學習?它是如何工作的?
- 什麼是目的檢測?你曉得有哪些框架嗎?
- 什麼是對象分割?你曉得有哪些框架嗎?
文字分類
- 如何運用機器學習停止文本分類?
- 什麼是詞袋模型?如何將其用於文本分類?
- 詞袋模型的優缺陷是什麼?
- 什麼是N-gram?如何運用它們?
- 運用N-gram時,詞袋模型中N應該是幾?
- 什麼是TF-IDF?它對文本分類有什麼用?
- 你用過哪種模型對帶有詞袋特徵的文本停止分類?
- 運用詞袋停止文本分類時,你希望運用梯度提升樹模型還是邏輯迴歸?
- 什麼是詞嵌入?為什麼有用?你曉得Word2Vec嗎?
- 你還曉得其他詞嵌入的辦法嗎?
- 假如你的句子包含多個單詞,則可能需求將多個單詞嵌入組合為一個。你會怎樣做?
- 在停止帶有嵌入的文本分類時,運用梯度提升樹模型還是邏輯迴歸?
- 如何運用神經網絡停止文本分類?
- 如何運用CNN停止文本分類?
聚類
- 什麼是無監視學習?
- 什麼是聚類?什麼時分需求它?
- K-means是如何工作的嗎?
- 如何為K均值選擇K?
- 你還曉得其他哪些聚類算法?
- 你曉得DBScan如何工作嗎?
- 何時選擇K-means,何時選擇DBScan?
降維
- 維度災難是什麼?為什麼要關懷它?
- 你曉得降維技巧嗎?
- 什麼是奇特值合成?它通常如何用於機器學習?
排序和搜索
- 什麼是排序問題?能夠運用哪些模型來處理它們?
- 文本信息檢索任務重,什麼是好的無監視baselines?
- 如何評價排序算法?運用哪些離線指標?
- k的精度和召回率是幾?
- k的均勻精度均值是幾?
- 如何運用機器學習停止搜索?
- 如何取得鍛鍊算法的排序數據?
- 能夠將搜索問題表述為分類問題嗎?
- 如何將點擊數據用作鍛鍊數據以停止排序算法?
- 如何運用梯度提升樹停止排序?
- 如何在線評價新的排序算法?
引薦系統
- 什麼是引薦系統?
- 樹立引薦系統時有什麼好的 baseline?
- 什麼是協同過濾?
- 如何將隱式反應(點擊等)歸入引薦系統?
- 什麼是冷啟動問題?
- 處理冷啟動問題的可能辦法?
時間序列
- 什麼是時間序列?
- 時間序列與通常的迴歸問題有何不同?
- 用於處理時間序列問題的有哪些模型?
- 假如序列中有趨向,如何消弭它?為什麼要這麼做?
- 在時間t處測得只要一個變量“y”的序列。如何在時間t + 1預測“y”?運用哪種辦法?
- 有一個帶有變量“y”和一系列特徵的序列。如何預測t + 1時的“y”?運用哪種辦法?
- 運用樹來處理時間序列問題有什麼問題?
以上!希望它對各位有用,趕緊考考本人先,也希望大家面試順利!更多人工智能,機器學習方面的教程也會繼續更新!