人工智能行業:求職面試最強50問答(技巧就是機會)

機器學習崗位的面試中通常會對一些常見的機器學習算法和思想進行提問,在平時的學習過程中可能對算法的理論,注意點,區別會有一定的認識,但是這些知識可能不繫統,在回答的時候未必能在短時間內答出自己的認識,因此將機器學習中常見的原理性問題記錄下來,保持對各個機器學習算法原理和特點的熟練度。


算法分類

  下面圖片是借用網友做的,很好的總結了機器學習的算法分類:

人工智能行業:求職面試最強50問答(技巧就是機會)

人工智能行業:求職面試最強50問答(技巧就是機會)

問答題

問1:協方差和相關性有什麼區別?

  答:相關性是協方差的標準化格式。協方差本身很難做比較。例如:如果我們計算工資(¥)和年齡(歲)的協方差,因為這兩個變量有不同的度量,所以我們會得到不能做比較的不同的協方差。為了解決這個問題,我們計算相關性來得到一個介於-1和1之間的值,就可以忽略它們各自不同的度量。

問2:你認為把分類變量當成連續型變量會得到一個更好的預測模型嗎?

  答:為了得到更好的預測,只有在分類變量在本質上是有序的情況下才可以被當做連續型變量來處理。

問3:“買了這個的客戶,也買了.....”亞馬遜的建議是那種算法的結果?

  答:這種推薦引擎的基本想法來源於協同過濾。協同過濾算法考慮用於推薦項目的“用戶行為”。他們利用的是其他用戶的購物行為和針對商品的交易歷史記錄,評分,選擇和購物信息。針對商品的其他用戶的行為和偏好用來推薦項目(商品)給新用戶。在這中情況下,項目(商品)的特徵是未知的。

問4:在K-means或者KNN,我們是用歐氏距離來計算最近的鄰居之間的距離,為什麼不用曼哈頓距離?

  答:我們不用曼哈頓距離,因為它只計算水平或者垂直距離,有維度的限制。另一方面,歐氏距離可以用於任何空間的距離計算問題。因為,數據點可以存在於任何空間,歐式距離是更可行的選擇。例如:想象一下國際象棋棋盤,象或者車所有的移動的由曼哈頓距離計算的,因為他們是在各自的水平和垂直方向做的運動。

問5:為什麼樸素貝葉斯如此“樸素”?

  答:因為它假定所有的特徵在數據集中的作用是同樣重要和獨立的。正如我們所知,這個假設在現實世界中是很不真實的,因此說樸素貝葉斯真的很“樸素”。

問6:我們知道校正R2或者F值是用來評估線性迴歸模型的,那麼用什麼來評估邏輯迴歸模型?

  答:我們可以使用以下方法:

  1,由於邏輯迴歸是用來預測概率的,我們可以用AUC-ROC曲線以及混淆矩陣來確定其性能。

  2,此外,在邏輯迴歸中類似於校正R2 的指標是AIC。AIC是對模型係數數量懲罰模型的擬合度量。因此,我們更偏愛有最小的AIC的模型。

  3,空偏差指的是隻有截距項的模型預測的響應。數值越低,模型越好。殘餘偏差表示由添加自變量的模型預測的響應。數值越低,模型越好。

問7:真陽性率和召回有什麼關係?寫出方程式。

  答:真陽性率 == 召回 他們有共同的公式(TP/(TP+FN))

問8:你是怎麼理解偏差方差的平衡的?

  答:從數學的角度來看,任何模型出現的誤差可以分為三個部分。分別是:

  偏差誤差在量化平均水平之上,預測值跟實際值相差多遠時有用。高偏差誤差意味著我們的模型表現不太好,因為沒有抓到重要的趨勢。而另一方面,方差量化了在同一個觀察上進行的預測是如何彼此不同的。高方差模型會過度擬合你的訓練集,而在訓練集以外的數據上表現很差。

問9:給你一個有1000列和1百萬行的訓練數據集,這個數據集是基於分類問題的。經理要求你來降低該數據集的維度以減少模型計算時間,但是你的機器內存有限,你會怎麼做?(你可以自由做各種實際操作假設。)

  答:你的面試官應該非常瞭解很難在有限的內存上處理高緯的數據,以下是你可以使用到的方法:

  1,由於我們的RAM很小,首先要關閉機器上正在運行的其他程序,包括網頁瀏覽器等,以確保大部分內存可以使用。

  2,我們可以隨機採樣數據集。這意味著,我們可以創建一個較小的數據集,比如有1000個變量和30萬行,然後做計算。

  3,為了降低維度,我們可以吧數值變量和分類變量分開,同時刪掉相關聯的變量,對於數據變量,我們將使用相關性分析;對於分類變量,我們可以用卡方檢驗。

  4,另外,我們還可以使用PAC,並挑選可以解釋在數據集中有最大偏差的成分。

  5,利用在線學習算法,如VowpalWabbit(在Python中可用)是一個不錯的選擇。

  6,利用Stochastic GradientDescent(隨機梯度下降法)建立線性模型也很有幫助。

  7,我們也可以用我們對業務的理解來估計個預測變量對響應變量的影響的大小。但是,這是一個主觀的方法,如果沒有找到有用的預測變量可能會導致信息的顯著丟失。

問10:全球平均溫度的上升導致世界各地的海盜數量減少,這是否意味著海盜的數量減少引起氣候變化?

  答:不能夠這樣說,這是一個“因果關係和相關性”的經典案例。全球平均溫度和海盜數量之間有可能有相關性,但基於這些信息,我們不能說因為全球平均氣溫的上升而導致了海盜的消失。我們不能斷定海盜的數量減少是引起氣候變化的原因,因為可能有其他因素(潛伏或混雜因素)影響這一現象。

問11:給你一個數據集,這個數據集有缺失值,且這些缺失值分佈在高中值有1一個標準偏差的的範圍內,百分之多少的數據不會受到影響?為什麼?

  答:大約有32%的數據將不會受到缺失值的影響。因為,由於數據分佈在中位數附近,讓我們先假設這是一個正態分佈。我們知道,在一個正態分佈中,約有68%的數據位於跟平均值(或者眾數,中位數)1個標準差範圍內,那麼剩下的約32%的數據是不受影響的。因此,約有32%的數據將不受缺失值的影響。

問12:有監督學習和無監督學習的區別

  有監督學習:對具有標記的訓練樣本進行學習,以儘可能對訓練樣本集外的數據進行分類預測。(LR,SVM,BP,RF,GBDT)

  無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。(KMeans,DL)

問13:正則化

  答:正則化是針對過擬合而提出的,以為在求解模型最優的是一般優化最小的經驗風險,現在在該經驗風險上加上模型複雜度這一項(正則化項是模型參數向量的範數),並使用一個rate比率來權衡模型複雜度比以往經驗風險的權重,如果模型複雜度越高,結構化的經驗風險會越大,現在的目標就變為了結構經驗風險的最優化,可以防止模型訓練過度複雜,有效的降低過擬合的風險。

  奧卡姆剃刀原理:能夠很好的解釋已知數據並且十分簡單才是最好的模型。

問14:線程分類器與非線性分類器的區別以及優劣

  答:如果模型是參數的線性函數,並且存在線性分類面,那麼就是線性分類器,負責不是。  常用的線性分類器有:LR ,貝葉斯分類,單層感知器,線性迴歸

  常見的非線性分類器:決策樹,RF,GBDT,多層感知機

  SVM兩種都有(看線性核還是高斯核)

  線性分類器速度快,編程方便,但是可能擬合效果不會很好

  非線性分類器編程複雜,但是效果擬合能力強

問15:介紹卷積神經網絡,和 DBN 有什麼區別?

  卷積神經網絡的特點是卷積核,CNN中使用了權共享,通過不斷的上採用和卷積得到不同的特徵表示,採樣層又稱為pooling層,基於局部相關性原理進行亞採樣,在減少數據量的同時保持有用的信息。DBN是深度信念網絡,每一層是一個RBM,整個網絡可以視為RBM堆疊得到,通常使用無監督逐層訓練,從第一層開始,每一層利用上一層的輸入進行訓練,等各層訓練結束之後再利用BP算法對整個網絡進行訓練。

問16:採用 EM 算法求解的模型有哪些,為什麼不用牛頓法或梯度下降法?

  用EM算法求解的模型一般有GMM或者協同過濾,k-means其實也屬於EM。EM算法一定會收斂,但是可能收斂到局部最優。由於求和的項數將隨著隱變量的數目指數上升,會給梯度計算帶來麻煩。

問17:用 EM 算法推導解釋 Kmeans。

  k-means算法是高斯混合聚類在混合成分方差相等,且每個樣本僅指派一個混合成分時候的特例。注意k-means在運行之前需要進行歸一化處理,不然可能會因為樣本在某些維度上過大導致距離計算失效。k-means中每個樣本所屬的類就可以看成是一個隱變量,在E步中,我們固定每個類的中心,通過對每一個樣本選擇最近的類優化目標函數,在M步,重新更新每個類的中心點,該步驟可以通過對目標函數求導實現,最終可得新的類中心就是類中樣本的均值。

問18:用過哪些聚類算法,解釋密度聚類算法。

  k-means算法,聚類性能的度量一般分為兩類,一類是聚類結果與某個參考模型比較(外部指標),另外是直接考察聚類結果(內部指標)。後者通常有DB指數和DI,DB指數是對每個類,找出類內平均距離/類間中心距離最大的類,然後計算上述值,並對所有的類求和,越小越好。類似k-means的算法僅在類中數據構成簇的情況下表現較好,密度聚類算法從樣本密度的角度考察樣本之間的可連接性,並基於可連接樣本不斷擴展聚類蔟得到最終結果。

  DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類算法,基於一組鄰域參數進行刻畫,包括鄰域,核心對象(鄰域內至少包含個對象),密度直達(j由i密度直達,表示j在i的鄰域內,且i是一個核心對象),密度可達(j由i密度可達,存在樣本序列使得每一對都密度直達),密度相連(xi,xj存在k,i,j均有k可達),先找出樣本中所有的核心對象,然後以任一核心對象作為出發點,找出由其密度可達的樣本生成聚類蔟,直到所有核心對象被訪問過為止。

問19:聚類算法中的距離度量有哪些?

  聚類算法中的距離度量一般用閩科夫斯基距離,在p取不同的值下對應不同的距離,例如p=1的時候對應曼哈頓距離,p=2的情況下對應歐式距離,p=inf的情況下變為切比雪夫距離,還有jaccard距離,冪距離(閩科夫斯基的更一般形式),餘弦相似度,加權的距離,馬氏距離(類似加權)作為距離度量需要滿足非負性,同一性,對稱性和直遞性,閩科夫斯基在p>=1的時候滿足讀來那個性質,對於一些離散屬性例如{飛機,火車,輪船}則不能直接在屬性值上計算距離,這些稱為無序屬性,可以用VDM(Value Diffrence Metrix),屬性u上兩個離散值a,b之間的VDM距離定義為

人工智能行業:求職面試最強50問答(技巧就是機會)

  其中表示在第i個簇中屬性u上a的樣本數,樣本空間中不同屬性的重要性不同的時候可以採用加權距離,一般如果認為所有屬性重要性相同則要對特徵進行歸一化。一般來說距離需要的是相似性度量,距離越大,相似度越小,用於相似性度量的距離未必一定要滿足距離度量的所有性質,例如直遞性。比如人馬和人,人馬和馬的距離較近,然後人和馬的距離可能就很遠。

問20:解釋貝葉斯公式和樸素貝葉斯分類。

  貝葉斯公式

人工智能行業:求職面試最強50問答(技巧就是機會)

最小化分類錯誤的貝葉斯最優分類器等價於最大化後驗概率。

  基於貝葉斯公式來估計後驗概率的主要困難在於,條件概率是所有屬性上的聯合概率,難以從有限的訓練樣本直接估計得到。樸素貝葉斯分類器採用了屬性條件獨立性假設,對於已知的類別,假設所有屬性相互獨立。這樣,樸素貝葉斯分類則定義為

          

人工智能行業:求職面試最強50問答(技巧就是機會)

  如果有足夠多的獨立同分布樣本,那麼可以根據每個類中的樣本數量直接估計出來。在離散情況下先驗概率可以利用樣本數量估計或者離散情況下根據假設的概率密度函數進行最大似然估計。樸素貝葉斯可以用於同時包含連續變量和離散變量的情況。如果直接基於出現的次數進行估計,會出現一項為0而乘積為0的情況,所以一般會用一些平滑的方法,例如拉普拉斯修正,

人工智能行業:求職面試最強50問答(技巧就是機會)

問21:TF-IDF是什麼?

  TF指Term frequecy,代表詞頻,IDF代表inverse document frequency,叫做逆文檔頻率,這個算法可以用來提取文檔的關鍵詞,首先一般認為在文章中出現次數較多的詞是關鍵詞,詞頻就代表了這一項,然而有些詞是停用詞,例如的,是,有這種大量出現的詞,首先需要進行過濾,比如過濾之後再統計詞頻出現了中國,蜜蜂,養殖且三個詞的詞頻幾乎一致,但是中國這個詞出現在其他文章的概率比其他兩個詞要高不少,因此我們應該認為後兩個詞更能表現文章的主題,IDF就代表了這樣的信息,計算該值需要一個語料庫,如果一個詞在語料庫中出現的概率越小,那麼該詞的IDF應該越大,一般來說TF計算公式為(某個詞在文章中出現次數/文章的總詞數),這樣消除長文章中詞出現次數多的影響,IDF計算公式為log(語料庫文章總數/(包含該詞的文章數)+1)。將兩者乘乘起來就得到了詞的TF-IDF。傳統的TF-IDF對詞出現的位置沒有進行考慮,可以針對不同位置賦予不同的權重進行修正,注意這些修正之所以是有效的,正是因為人觀測過了大量的信息,因此建議了一個先驗估計,人將這個先驗估計融合到了算法裡面,所以使算法更加的有效。

問22:文本中的餘弦距離是什麼,有哪些作用?

  餘弦距離是兩個向量的距離的一種度量方式,其值在-1~1之間,如果為1表示兩個向量同相,0表示兩個向量正交,-1表示兩個向量反向。使用TF-IDF和餘弦距離可以尋找內容相似的文章,例如首先用TF-IDF找出兩篇文章的關鍵詞,然後每個文章分別取出k個關鍵詞(10-20個),統計這些關鍵詞的詞頻,生成兩篇文章的詞頻向量,然後用餘弦距離計算其相似度。

簡答題

1.什麼是機器學習

簡單的說,機器學習就是讓機器從數據中學習,進而得到一個更加符合現實規律的模型,

通過對模型的使用使得機器比以往表現的更好,這就是機器學習。

對上面這句話的理解:

數據:從現實生活抽象出來的一些事物或者規律的特徵進行數字化得到。

學習:在數據的基礎上讓機器重複執行一套特定的步驟(學習算法)進行事物特徵的萃取,

得到一個更加逼近於現實的描述(這個描述是一個模型它的本身可能就是一個函數)。我

們把大概能夠描述現實的這個函數稱作我們學到的模型。

更好:我們通過對模型的使用就能更好的解釋世界,解決與模型相關的問題。

2.機器學習與數據挖掘的區別

數據挖掘和機器學習的區別和聯繫,周志華有一篇很好的論述《機器學習和

數據挖掘》可以幫助大家理解。

數據挖掘受到很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響

最大。簡言之,對數據挖掘而言,數據庫提供數據管理技術,機器學習和統計學

提供數據分析技術。

由於統計學往往醉心於理論的優美而忽視實際的效用,因此,統計學界提供的

很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之後才能

再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖

掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。

從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域,但機器

學習研究往往並不把海量數據作為處理對象,因此,數據挖掘要對算法進行改造,

使得算法性能和空間佔用達到實用的地步。同時,數據挖掘還有自身獨特的內容,

即關聯分析。

而模式識別和機器學習的關係是什麼呢,傳統的模式識別的方法一般分為兩種:

統計方法和句法方法。句法分析一般是不可學習的,而統計分析則是發展了不少機

器學習的方法。也就是說,機器學習同樣是給模式識別提供了數據分析技術。

至於,數據挖掘和模式識別,那麼從其概念上來區分吧,數據挖掘重在發現知識,

模式識別重在認識事物。

機器學習的目的是建模隱藏的數據結構,然後做識別、預測、分類等。因此,機器

學習是方法,模式識別是目的。

總結一下吧。只要跟決策有關係的都能叫 AI(人工智能),所以說 PR(模式識別)、

DM(數據挖掘)、IR(信息檢索) 屬於 AI 的具 體應用應該沒有問題。 研究的東西則

不太一樣, ML(機器學習) 強調自我完善的過程。 Anyway,這些學科都是相通的。

3.什麼是機器學習的過度擬合現象

  如果一味的去提高訓練數據的預測能力,所選模型的複雜度往往會很高,這種現象稱為過擬合,所表現的就是模型訓練時候的誤差很小,但在測試的時候誤差很大

指在模型參數擬合過程中的問題,由於訓練數據包含抽樣誤差,訓練時,

複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表

現就是訓練集上效果好,在測試集上效果差。模型泛化能力弱。

4.過度擬合產生的原因


過擬合的第一個原因,就是建模樣本抽取錯誤,包括(但不限於)樣本數量太少,

抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特點,等等導致抽出

的樣本數據不能有效足夠代表業務邏輯或業務場景;

過擬合的第二個原因,就是樣本里的噪音數據干擾過大,大到模型過分記住了噪音

特徵,反而忽略了真實的輸入輸出間的關係;

過擬合的第三個原因,就是在決策樹模型搭建中,如果我們對於決策樹的生長沒有

合理的限制和修剪的話,決策樹的自由生長有可能每片葉子裡只包含單純的事件

數據(event)或非事件數據(no event),可以想象,這種決策樹當然可以完

美匹配(擬合)訓練數據,但是一旦應用到新的業務真實數據時,效果是一塌糊塗。

過擬合的第四個原因,就是建模時的“邏輯假設”到了模型應用時已經不能成立了。任

何預測模型都是在假設的基礎上才可以搭建和應用的,常用的假設包括:假設歷

史數據可以推測未來,假設業務環節沒有發生顯著變化,假設建模數據與後來的

應用數據是相似的,等等。如果上述假設違反了業務場景的話,根據這些假設搭

建的模型當然是無法有效應用的。

過擬合的第五個原因,就是建模時使用了太多的輸入變量,這跟上面第二點(噪音數據)

有些類似,數據挖掘新人常常犯這個錯誤,自己不做分析判斷,把所有的變量交給

軟件或者機器去“撞大運”。須知,一個穩定優良的模型一定要遵循建模輸入變量“

少而精”的原則的。

上面的原因都是現象,但是其本質只有一個,那就是“業務理解錯誤造成的”,無論是抽樣,

還是噪音,還是決策樹,神經網絡等等,如果我們對於業務背景和業務知識非常瞭解,

非常透徹的話,一定是可以避免絕大多數過擬合現象產生的。因為在模型從確定需求,

到思路討論,到搭建,到業務應用驗證,各個環節都是可以用業務敏感來防止過擬合

於未然的。

5.如何避免過度擬合

  當你使用較小的數據集進行機器學習時,容易產生過度擬合,因此使用較大的數據量能避免過度擬合現象。但是當你不得不使用小型數據集進行建模時候,可以使用被稱為交叉驗證的技術。在這種方法中數據集被分為兩節,測試和訓練數據集,測試數據集只測試模型,而在訓練數據集中,數據點被用來建模。

  在該技術中,一個模型通常是被給定有先驗知識的數據集(訓練數據集)進行訓練,沒有先驗知識的數據集進行測試,交叉驗證的思想是:在訓練階段,定義一個數據集用來測試模型。

1. dropout:訓練神經網絡模型時,如果訓練樣本較少,為了防止模型過擬合,

Dropout可以作為一種trikc供選擇。

2. early stop結合cross validation使用。

3. 儘可能的擴大 training dataset,增加訓練集的全面性和數量

6.什麼是感應式的機器學習?

感應機器學習涉及由實踐進行學習的過程,能從一組可觀測到的例子的嘗試推導出普遍性規則

7.什麼是機器學習的五個流行的算法?

1,決策樹

2,神經網絡

3,概率網絡

4,最鄰近法

5,支持向量機

8.機器學習有哪些不同的算法技術?

在機器學習中不同類型的算法技術是:

1,監督學習 2,非監督學習

3,半監督學習 4,轉導推理(Transduction)

5, 學習推理(Learning to Learn)

9.在機器學習中,建立假設或者模型的三個階段指的是什麼?

1,建模

2,模型測試

3,模型應用

10.什麼是監督學習的標準方法?

監督學習的標準方法是將一組示例數據的分成訓練數據集和測試數據集

11.什麼是訓練數據集和測試數據集?

在類似於機器學習的各個信息科學相關領域中,一組數據被用來發現潛在的預測關係,

稱為“訓練數據集”。訓練數據集是提供給學習者的案例,而試驗數據集是用於測試由學習

者提出的假設關係的準確度。

12.下面列出機器學習的各種方法?

機器學習的各種方法如下“

1.概念與分類學習(Concept Vs Classification Learning)。

2.符號與統計學習(Symbolic Vs Statistical Learning)。

3.歸納與分析學習(Inductive Vs Analytical Learning)。

13.非機器學習有哪些類型?

人工智能 規則推理

14.什麼是非監督學習的功能?

1.求數據的集群

2. 求出數據的低維表達

3. 查找數據有趣的方向

4. 有趣的座標和相關性

5.發現顯著的觀測值和數據集清理

15.什麼是監督學習的功能?

1.分類 2.語音識別 3.迴歸 4.時間序列預測 5. 註釋字符串

16.什麼是算法獨立的機器學習?

機器學習在基礎數學領域獨立於任何特定分類器或者學習算法,被稱為算法獨立的機器學習。

17.人工智能與機器學習的區別?

基於經驗數據的特性而設計和開發的算法被稱為機器學習。而人工智能不但包

括機器學習,還包括諸如知識表示,自然語言處理,規劃,機器人技術等其它方法。

18.在機器學習中分類器指的是什麼?

在機器學習中,分類器是指輸入離散或連續特徵值的向量,並輸出單個離散值或者類型的系統。

19.樸素貝葉斯方法的優勢是什麼?


樸素貝葉斯分類器將會比判別模型,譬如邏輯迴歸收斂得更快,因此你只需要

更少的訓練數據。其主要缺點是它學習不了特徵間的交互關係。

20.在哪些領域使用模式識別技術?

模式識別被應用在:

1計算機視覺 2.語言識別 3.統計 4.數據挖掘 5. 非正式檢索 6. 生物信息學。

21.什麼是遺傳編程?

遺傳編程的機器學習中兩種常用的方法之一。該模型是基於測試,並在一系列的

結果當中,獲取最佳選擇。

22.在機器學習中歸納邏輯程序設計是指什麼?

歸納邏輯程序設計(ILP)是利用邏輯程序設計表達的背景知識和實例,它是機器學習的一個分支。

23.在機器學習中,模型的選擇是指?

在不同的數學模型中,選擇用於描述相同的數據集的模型的過程被稱為模型選擇。

模型選擇被應用於統計,機器學習和數據挖掘的等相關領域。

24.用於監督學習校準兩種方法是什麼?

在監督學習中,用於預測良好概率的兩種方法是:

1,普拉特校準 2, 保序迴歸。

這些方法被設計為二元分類,而且有意義的。

25. 什麼方法通常用於防止過擬合?

當有足夠的數據進行等滲迴歸時,這通常被用來防止過擬合問題。

26.規則學習的啟發式方法和決策樹的啟發式方法之間的區別是什麼?

決策樹的啟發式方法評價的是一系列不相交的集合的平均質量;然而規則學習的

啟發式方法僅僅評價在候選規則覆蓋下的實例集。

27.什麼是感知機器學習?

在機器學習,感知器是一種輸入到幾個可能的非二進制輸出的監督分類算法。

28.貝葉斯邏輯程序的兩個組成部分是什麼?

貝葉斯邏輯程序由兩部分組成。第一成分由一組貝葉斯條款組成,能捕捉特定

域的定性結構。第二組分是定量的,它能對域的量化信息進行編碼。

29.什麼是貝葉斯網絡?

貝葉斯網絡是用來表示一組變量之間為概率關係的圖像模型。

30.為什麼基於實例的學習算法有時也被稱為懶惰學習算法?

基於實例的學習算法也被稱為懶惰學習算法,因為它們延緩誘導或泛化過程,直到分類完成。

31.支持向量機能處理哪兩種分類方法?

1.結合二分類法

2. 修改二進制納入多類學習法。

32.什麼是集成學習?

為了解決特定的計算程序,如分類器或專家知識等多種模式,進行戰略性生產

和組合。這個過程被稱為集成學習。

33.為什麼集成學習被應用?

集成學習能提高模型的分類,預測,函數逼近等方面的精度。

34.什麼使用集成學習?

當你構建一個更準確,相互獨立的分類器時,使用集成學習。

35.什麼是集成方法的兩種範式?

集成方法的兩種範式是:

1. 連續集成方法

2. 並行集成方法。

36.什麼是集成方法的一般原則,在集成方法中套袋(bagging)和爆發(boosting)指的是什麼?

集成方法的一般原則是要結合定的學習算法多種預測模型,相對於單一模型,

其有更強的健壯性。套袋是一種能提高易變的預測或分類方案集成方法。爆發方

法被依次用來減少組合模型的偏差。爆發和裝袋都可以通過降低方差減少誤差。

37.什麼是集成方法分類錯誤的偏置方差分解?

學習算法的期望誤差可以分解為偏差和方差。偏置項衡量由學習方法產生的平

均分類器與目標函數是否匹配。

38.在集成方法中什麼是增量合成方法?

增量學習方法是一種從新數據進行學習,並能應用於後續由現有的數據集生成的分類器的算法。

39.PCA,KPCA和ICE如何使用?

PCA(主成分分析),KPCA(基於內核主成分分析)和ICA(獨立成分分析)是用

於降維的重要特徵提取技術。

40.在機器學習中降維是什麼意思?

在機器學習和統計應用中,降維是指在計算時減少隨機變量數目的處理過程,並

且可以分為特徵選擇和特徵提取。

41.什麼是支持向量機?

支持向量機是一種監督學習算法,適用於分類和迴歸分析。

42.關係評價技術的組成部分是什麼?

關係評價技術的重要組成部分如下:

1.數據採集2. 地面實況採集3. 交叉驗證技術4. 查詢類型5. 評分標準6. 顯著性檢驗。

43.連續監督學習有什麼不同方法?

連續監督學習問題的不同解決辦法如下:

1.滑動窗口方法

2. 複發性推拉窗

3. 隱藏馬爾科夫模型

4. 最大熵馬爾科夫模型

5. 條件隨機域

6. 圖變換網絡

44.在機器人技術和信息處理技術的哪些方面會相繼出現預測問題?

在機器人技術和信息處理技術中,相繼出現預測問題的是:

1.模仿學習 2. 結構預測 3. 基於模型的強化學習

45.什麼是批量統計學習?


統計學習技術允許根據一組觀察到的數據進行學習功能和預測,這可以對無法觀

察和未知的數據進行預測。這些技術提供的學習預測器對未來未知數據的預測提供性能保證。

46什麼是PAC學習?

可能近似正確模型 (PAC) 學習是一個已經被引入到分析學習算法和統計效率的學習框架。

47有哪些不同的類別可以分為序列學習過程?

1.序列預測 2. 序列生成 3. 序列識別 4. 順序決定.

48什麼是序列學習?

序列學習是一種以合乎邏輯的方式進行教學和學習的方法。

49.機器學習的兩種技術是什麼?

機器學習的兩種技術是:

1.遺傳編程

2.歸納學習

50.你在日常工作中看到的機器學習的一個流行應用是什麼?

各大電商網站上已部署好的推薦引擎使用的是機器學習。


分享到:


相關文章: