BAT機器學習面試1000題(481~485題)

BAT機器學習面試1000題(481~485題)

481、Nave Bayes是一種特殊的Bayes分類器,特徵變量是X,類別標籤是C,它的一個假定是()

A、各類別的先驗概率P(C)是相等的

B、以0為均值,sqr(2)/2為標準差的正態分佈

C、特徵變量X的各個維度是類別條件獨立隨機變量

D、P(X|C)是高斯分佈

正確答案是:C

解析:

樸素貝葉斯的條件就是每個變量相互獨立。

來源@劉炫320,鏈接:http://blog.csdn.net/column/details/16442.html

482、關於支持向量機SVM,下列說法錯誤的是()

A、L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力

B、Hinge 損失函數,作用是最小化經驗分類錯誤

C、分類間隔為1/||w||,||w||代表向量的模

D、當參數C越小時,分類間隔越大,分類錯誤越多,趨於欠學習

正確答案是:C

解析:

A正確。考慮加入正則化項的原因:想象一個完美的數據集,y>1是正類,y

B正確。

C錯誤。間隔應該是2/||w||才對,後半句應該沒錯,向量的模通常指的就是其二範數。

D正確。考慮軟間隔的時候,C對優化問題的影響就在於把a的範圍從[0,+inf]限制到了[0,C]。C越小,那麼a就會越小,目標函數拉格朗日函數導數為0可以求出w=求和ai∗yi∗xi,a變小使得w變小,因此間隔2/||w||變大

來源:@劉炫320,鏈接:http://blog.csdn.net/column/details/16442.html

483、在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那麼可用以下哪種方法直接進行參數估計()

A、EM算法

B、維特比算法

C、前向後向算法

D、極大似然估計

正確答案是:D

解析:

EM算法: 只有觀測序列,無狀態序列時來學習模型參數,即Baum-Welch算法

維特比算法: 用動態規劃解決HMM的預測問題,不是參數估計

前向後向算法:用來算概率

極大似然估計:即觀測序列和相應的狀態序列都存在時的監督學習算法,用來估計參數

注意的是在給定觀測序列和對應的狀態序列估計模型參數,可以利用極大似然發估計。如果給定觀測序列,沒有對應的狀態序列,才用EM,將狀態序列看不不可測的隱數據。

來源:@劉炫320,鏈接:http://blog.csdn.net/column/details/16442.html

484、在Logistic Regression 中,如果同時加入L1和L2範數,不會產生什麼效果()

A、以做特徵選擇,並在一定程度上防止過擬合

B、能解決維度災難問題

C、能加快計算速度

D、可以獲得更準確的結果

正確答案是:D

解析:

L1範數具有係數解的特性,但是要注意的是,L1沒有選到的特徵不代表不重要,原因是兩個高相關性的特徵可能只保留一個。如果需要確定哪個特徵重要,再通過交叉驗證。它的優良性質是能產生稀疏性,導致 W 中許多項變成零。 稀疏的解除了計算量上的好處之外,更重要的是更具有“可解釋性”。所以能加快計算速度和緩解維數災難.

在代價函數後面加上正則項,L1即是Losso迴歸,L2是嶺迴歸。L1範數是指向量中各個元素絕對值之和,用於特徵選擇。L2範數 是指向量各元素的平方和然後求平方根,用於 防止過擬合,提升模型的泛化能力。

對於機器學習中的範數規則化,也就是L0,L1,L2範數的詳細解答,請參閱《範數規則化》(鏈接:http://blog.csdn.net/zouxy09/article/details/24971995/)。

來源:@劉炫320,鏈接:http://blog.csdn.net/column/details/16442.html

485、機器學習中L1正則化和L2正則化的區別是?

A、使用L1可以得到稀疏的權值

B、使用L1可以得到平滑的權值

C、使用L2可以得到稀疏的權值

正確答案是:A

解析:

L1正則化偏向於稀疏,它會自動進行特徵選擇,去掉一些沒用的特徵,也就是將這些特徵對應的權重置為0.

L2主要功能是為了防止過擬合,當要求參數越小時,說明模型越簡單,而模型越簡單則,越趨向於平滑,從而防止過擬合。

L1正則化/Lasso

L1正則化將係數w的l1範數作為懲罰項加到損失函數上,由於正則項非零,這就迫使那些弱的特徵所對應的係數變成0。因此L1正則化往往會使學到的模型很稀疏(係數w經常為0),這個特性使得L1正則化成為一種很好的特徵選擇方法。

L2正則化/Ridge regression

L2正則化將係數向量的L2範數添加到了損失函數中。由於L2懲罰項中係數是二次方的,這使得L2和L1有著諸多差異,最明顯的一點就是,L2正則化會讓係數的取值變得平均。

對於關聯特徵,這意味著他們能夠獲得更相近的對應係數。還是以Y=X1+X2為例,假設X1和X2具有很強的關聯,如果用L1正則化,不論學到的模型是Y=X1+X2還是Y=2X1,懲罰都是一樣的,都是2alpha。但是對於L2來說,第一個模型的懲罰項是2alpha,但第二個模型的是4*alpha。可以看出,係數之和為常數時,各系數相等時懲罰是最小的,所以才有了L2會讓各個係數趨於相同的特點。

可以看出,L2正則化對於特徵選擇來說一種穩定的模型,不像L1正則化那樣,係數會因為細微的數據變化而波動。所以L2正則化和L1正則化提供的價值是不同的,L2正則化對於特徵理解來說更加有用:表示能力強的特徵對應的係數是非零。

因此,一句話總結就是:L1會趨向於產生少量的特徵,而其他的特徵都是0,而L2會選擇更多的特徵,這些特徵都會接近於0。Lasso在特徵選擇時候非常有用,而Ridge就只是一種規則化而已。

來源:@劉炫320,鏈接:http://blog.csdn.net/column/details/16442.html


分享到:


相關文章: