從零開始學人工智能--統計學習：統計學習基礎知識

2021-04-05 17:40:34 佚名

統計學習基礎知識

文章目錄

統計學習基礎知識

統計學習種類

1.1 監督學習

1.1.1 分類問題

1.1.2 迴歸問題

1.2 非監督學習

統計學習中的基本概念

2.1 統計學習三要素：模型，策略，算法

2.2 欠擬合和過擬合

2.3 如何避免過擬合

2.3.1 從模型出發（交叉驗證，AIC， BIC）

2.3.2 從策略出發（正則化）

2.3.3 從尋優出發（Early Stopping）

2.3.4 從數據出發（增加數據集）

2.4 過擬合產生的原因

2.5 最大似然估計和貝葉斯估計

2.5.1 貝葉斯定理

2.5.2 最大似然

2.5.3 貝葉斯估計

線性迴歸

3.1 經典線性迴歸

3.2 嶺迴歸（ridge regression）

3.3 lasso迴歸和ElasticNet

線性分類

4.1 感知機

4.2 邏輯迴歸（logistic regression）

4.3 Softmax迴歸

4.4 廣義線性模型

4.5 從另一個角度看邏輯迴歸

4.6 生成模型和判別模型

4.7 分類器評價標準

現在我們開始統計學習系列課程的學習，首先先給大家介紹一下統計學習的基礎知識。

統計學習種類

統計學習一般分為兩個主要類別：監督學習（predictive learning, supervised learning）以及非監督學習（descriptive learning, unsupervised learning），因為監督學習在實際中應用更為廣泛，我們將主要精力放在監督學習上。

1.1 監督學習

監督學習的目標是在一個輸入輸出對的集合中（訓練集）D={(x_i,y_i)}_{i=1}^ND=(xi,yi)i=1N學習一個從輸入變量xx到輸出變量（標籤）yy的映射，NN是訓練樣本（採樣）的數目。簡單來看，x_ixi可以是一個向量，例如一個人的身高，體重等，複雜來看x_ixi可以是一張圖片，一句話，一封郵件，一個時間序列等等。輸出y_iyi可以是連續的，也可以是離散的，當y_iyi是連續的時，該學習問題被稱為迴歸（regression）問題，當y_iyi是離散的時，該學習問題被稱為分類（classification）問題。

1.1.1 分類問題

分類問題的輸出在y\in\left{1,2,3,…,C\right}y∈{1,2,3,…,C}中取值，C=2C=2對應二分類問題，C>2C>2對應多分類問題。

例如：

這是一個二分類問題，左側是形象化描述，方框中的訓練集用圖形展示，右側是數據化描述，訓練集用表格展示。訓練數據有很多個形狀和顏色，某些搭配是屬於‘yes’類的，某些搭配是屬於’no’類的，我們要推斷新出現的藍色的月亮，黃色的環和藍色的箭頭屬於哪一類（泛化能力）

概率描述的必要性

因為新出現的藍色的月亮，黃色的環和藍色的箭頭是在訓練集中沒有的，我們無法100%確定他們屬於哪一類別，所以要引入概率來描述這種不確定性

用條件概率p(y|x,D,M)p(y∣x,D,M)來描述輸出yy的概率分佈，xx是新出現的輸入，DD是訓練集，MM是選擇的模型，在上述例子中，p(yes|藍色月亮,D,M)+p(no|藍色月亮,D,M)=1p(yes∣藍色月亮,D,M)+p(no∣藍色月亮,D,M)=1。一般情況下，DD和MM都是確定的，所以條件概率也被簡寫為p(y|x)p(y∣x)。

給定輸出條件概率，我們一般用取值最大的猜測作為新輸入的推斷（預測）輸出\hat{y}y^：

\hat{y}=\hat{f}(x)=\mathop{\arg\max}_{c=1,2,…,C}p(y=c|x)y=f(x)=argmaxc=1,2,…,Cp(y=c∣x)

這對應著最可能的類別標籤，也叫作p(y|x)p(y∣x)的眾數。

一些實際應用

文本分類

xx是文本的一種結構化表示，文本分類是計算概率p(y=c|x)p(y=c∣x)，一個特殊的應用是垃圾郵件過濾，其中y=1y=1代表垃圾郵件，y=0y=0代表非垃圾郵件

大部分分類學習算法要求輸入向量xx是定長的，可以用bag of words的方式來表示變長的文檔，基本思路是當詞jj在文檔ii中出現時x_{ij}=1xij=1，這樣訓練集就可以被結構化為一個binary的共現矩陣，在共現矩陣上可以應用各種分類算法來學習規律

圖片分類

圖片和文本都具備明顯的局部性，通過挖掘這種局部性而誕生的算法框架稱為卷積神經網絡和循環神經網絡，二者共同大力推動了AI從傳統統計學習向深度學習的發展

1.1.2 迴歸問題

分類問題的輸出yy是在一個連續的區間內取值，在推斷時取後驗概率分佈的期望E(y|x)E(y∣x)。其應用例子包括：

預測某隻股票第二天的最高股價

預測某篇文章接下去1小時的點擊次數

預測一個機器人手臂在空中的位置

預測某個醫院科室接下去一個月的就診人數

迴歸問題和分類問題的主要區別不是輸出的離散或者連續（就診人數也可以認為是一個多分類問題），二者最主要的區別是對輸出的分佈假設不同，後續我們會涉及到。

1.2 非監督學習

非監督學習只有輸入數據xx而沒有輸出yy，我們的目標是挖掘xx中感興趣的信息，非監督學習有時也被稱為知識發現，其代表就是聚類，主成分分析，關聯分析，協同過濾，社區發現等。以聚類為例：小時候你在區分貓和狗的時候，別人和你說，這是貓，那是狗，最終你遇到貓或狗你都能區別出來(而且知道它是貓還是狗)，這是監督學習的結果。但如果小時候沒人教你區別貓和狗，不過你發現貓和狗之間存在差異，應該是兩種動物(雖然能區分但不知道貓和狗的概念)，這是無監督學習的結果。

聚類正是做這樣的事，按照數據的特點，將數據劃分成多個沒有交集的子集(每個子集被稱為簇)。通過這樣的劃分，簇可能對應一些潛在的概念，但這些概念就需要人為的去總結和定義了。

聚類可以用來尋找數據的潛在的特點，還可以用來其他學習任務的前驅。比如市場分割。也許你在數據庫中存儲了許多客戶的信息，而你希望將他們分成不同的客戶群，這樣你可以對不同類型的客戶分別銷售產品或者分別提供更適合的服務。

聚類示意：

統計學習中的基本概念

讓我們看看一個簡單的案例，曲線擬合：

我們有如下的數據點，這個數據點是通過y=sin(2\pi x)y=sin(2πx)加上一些高斯噪聲生成的

現在考慮一個關於xx的多項式擬合上述藍顏色的點：

f(x,w)=w_0+w_1x+w_2x2+…+w_MxM=\sum_jw_jx^jf(x,w)=w0+w1x+w2x2+…+wMxM=j∑wjxj

雖然f(x,w)f(x,w)是關於xx的非線性函數，但是是關於參數ww的線性函數，這種和參數保持線性關係的模型被稱為線性模型。

可以通過最小化f(x,w)f(x,w)和yy的差別來求解參數ww，其中一種是誤差的平方和：

E(w)=\frac12\sum_n{f(x_n, w)-y_n}^2E(w)=21n∑{f(xn,w)−yn}2

因為E(w)E(w)是關於ww的二次函數，所以其導數是關於ww的一次函數，E(w)E(w)的最小值是唯一的，當數據量比較小時，可以通過最小二乘直接獲得解析解，在數據量比較大時，一般通過梯度下降法來逼近這個解。

2.1 統計學習三要素：模型，策略，算法

模型：在上述的曲線擬合問題中，線性函數f(x,w)f(x,w)就是模型，當然我們也可以選擇其他的線性模型或者非線性模型，選擇合適的模型是應用統計學習算法的第一步

策略：有了模型，統計學習接著需要考慮的是按照什麼樣的準則學習最優的模型，在上述的曲線擬合問題中，誤差平方和E(w)E(w)就是一個準則（策略，損失函數），其餘的準則還有0-1損失函數，絕對值損失函數，對數損失函數等

算法：有了準則，就要考慮在該準則的約束下如何尋找參數ww的最小值，最常用的就是梯度下降法或者同類別的基於梯度的算法（我更傾向於叫這一步為優化或者尋優，算法是一個比較泛的概念）

2.2 欠擬合和過擬合

上述模型，策略和算法都是針對模型的學習過程（擬合過程）的，而統計學習最終是要預測我們沒有見過的樣本（泛化能力），這裡就涉及到一個在訓練樣本上的擬合程度的問題，是損失函數E(w)E(w)越小泛化能力越強嗎？答案是不一定，還是考慮上述曲線擬合問題，當多項式的階數MM不同時，擬合的效果如下：

可以看到在M=0M=0和M=1M=1時，模型未能很好的擬合訓練集的散點，在M=3M=3時看起來還不錯，在M=9M=9時擬合的程度最好，事實上，在M=9M=9時，可以做到E(w)=0E(w)=0（思考一下為什麼），但在M=9M=9時，擬合出來的曲線和真正的數據分佈的曲線y=sin(2\pi x)y=sin(2πx)相去甚遠，當有一個新的數據點出現時，例如在左邊的第一個和第二個點之間，預測曲線會給出一個非常差的預測結果，此時稱為模型過擬合。而在M=0M=0和M=1M=1時，稱為欠擬合。

2.3 如何避免過擬合

2.3.1 從模型出發（交叉驗證，AIC， BIC）

從曲線擬合問題的直觀上來看，我們可以選擇複雜度較低的模型，例如M=3M=3。那麼在面對一般化的問題時，該如何選取合適複雜度的模型呢？可以從訓練的數據集中抽出一部分，作為驗證集，驗證集不參與訓練，但是能夠作為一個假的測試集來驗證模型是欠擬合還是過擬合。

分割訓練集和驗證集，也是比較主觀的，如果分割的不合適，可能也對選出的模型泛化能力有負面作用，另外，訓練數據是比較珍貴的，扔掉一部分數據是比較可惜的，所以會採取利用全部數據的交叉驗證（cross validation）的方式：

上圖描述的是1010折交叉驗證，常用的還有33折，55折，NN折（NN為樣本數量）交叉驗證，NN折交叉驗證也稱為留一交叉驗證（leave one out cross validation），交叉驗證選擇在驗證集上平均誤差最低的模型。交叉驗證也存在一些缺陷，當模型比較複雜時，要訓練和測試多次，尤其當可選擇的模型範圍很大時，訓練和測試的次數會成指數級增加。但交叉驗證仍然是在數據集有限的情況下最常用也是最好用的避免過擬合的方式之一。

此外，還有計算量相對較小的AICAIC和BICBIC準則，AICAIC由日本統計學家赤池弘次在1974年提出，$BIC$1978年由Schwarz提出。他們提供了權衡估計模型複雜度和擬合數據優良性的標準。

AIC準則的其中一種表達式為：

AIC=k+E(w)AIC=k+E(w)

BIC準則的其中一種表達式為：

BIC=kln(N)+E(w)BIC=kln(N)+E(w)

其中kk代表模型參數的個數，NN代表訓練集樣本數目。通常AICAIC或BICBIC的取值越小，模型泛化能力越強。

2.3.2 從策略出發（正則化）

在參數取值圖中，我們可以看到，M=9M=9的多項式模型的參數取值和波動非常大，雖然這個模型有很強的能力來擬合訓練集。而在M=3M=3時，參數是在一個相對較為合理的範圍之內的，那麼如何把模型的參數限制在一個較為合理的範圍之內呢？我們考慮在損失函數E(w)E(w)上加入一個對參數取值的懲罰：

E(w)=\frac12\sum_n{f(x_n, w)-y_n}2+\frac\lambda2||w||2E(w)=21n∑{f(xn,w)−yn}2+2λ∣∣w∣∣2

參數\lambdaλ用來控制懲罰的程度，||w||∣∣w∣∣是L2L2範數，在迴歸問題中，上述策略被稱為嶺迴歸（ridge regression）。

或者：

E(w)=\frac12\sum_n{f(x_n, w)-y_n}^2+\lambda||w||_1E(w)=21n∑{f(xn,w)−yn}2+λ∣∣w∣∣1

||w||_1∣∣w∣∣1是L1L1範數，在迴歸問題中，上述策略被稱為lasso迴歸。他們的統計學意義我們後續會涉及。

2.3.3 從尋優出發（Early Stopping）

考慮上述多項式擬合M=9M=9的情況，那麼大的參數取值是尋優算法通過不斷迭代得到的。那麼我們在尋優時，是否能否通過早一些停止迭代來避免這個問題呢，答案是可以的，而且在實際工程中這個辦法也很有效，就是早停法（Early Stopping）。

一般在算法尋優時，訓練集和驗證集的誤差呈如下的曲線：

我們可以根據驗證集誤差的變化來決定何時停止訓練，選取參數被調整到最合適的模型。實際工程中，早停法有很多種應用方式，例如在連續多次迭代驗證集誤差都持續上升則停止，上升比例超過一定程度停止等等。

2.3.4 從數據出發（增加數據集）

考慮上述多項式擬合M=9M=9的情況，當我們把數據量從1010個增加到1515個和100100個的時候，擬合曲線有如下的變化：

直觀上來看，大的數據量和大的模型容量是適配的，這樣能在很大程度上避免過擬合，但是在實際工程中仍然要結合交叉驗證，正則化和早停法一起使用。另外，有標註的樣本是非常昂貴的，一方面需要在實際生產過程中採集樣本，另一方面要給每個樣本打上一個合適的標籤（答案）yy，有些標籤是隨著業務運行獲得的，有些標籤是需要人為標註的。

例如，在機器學習在風控場景的應用中，為了預測一個客戶未來貸款違約的可能性，我們要找很多歷史上違約和履約的客戶進行學習，而違約的客戶量本身就是很少的，壞樣本（違約）很珍貴。

在圖像識別中，為了識別一張圖片是貓還是狗，需要人為給每張圖片標註貓，狗或者其它的分類

為了識別一張圖片上的文字區域，需要人為給每個文字區域畫上框：

自動駕駛為了識別車道線，行人，建築物，汽車等元素，需要人為給每個像素點做標註：

自然語言處理為了識別每個單詞的詞性，需要人為給每個漢字做標註：

今年海釣比賽在廈門市與金門之間的海域舉行。

今(O)年(O)海(O)釣(O)比(O)賽(O)在(O)廈(B-LOC)門(I-LOC)市(E-LOC)與(O)金(B-LOC)門(E-LOC)之(O)間(O)的(O)海(O)域(O)舉(O)行(O)。

數據是AI的“衣食父母”，尤其在現在深度學習算法更加依賴大量的數據，有標註的數據十分珍貴，數據也是AI公司的核心競爭能力之一。

2.4 過擬合產生的原因

令f(x;D)f(x;D)為在訓練集DD上學習的函數ff在新樣本xx上的預測輸出，yy代表真實的輸出

我們考慮在同一個學習場景下的很多個數據集，例如在曲線擬合案例中，在y=sin(2\pi x)y=sin(2πx)上生成很多個NN個點的數據集，學習算法在這些數據集上的期望預測為\bar{f}(x)=E_D(f(x;D))fˉ(x)=ED(f(x;D))

使用樣本數相同的不同訓練集產生的方差（variance）為：

var(x)=E_D((f(x;D)-\bar{f}(x))^2)var(x)=ED((f(x;D)−fˉ(x))2)

方差的含義：方差度量了同樣大小的訓練集的變動所導致的學習性能的變化，即刻畫了數據擾動所造成的影響。

期望輸出與真實標記的差別稱為偏差（bias），即：

bias(x)=(\bar{f}(x)-y)^2bias(x)=(fˉ(x)−y)2

偏差的含義：偏差度量了學習算法的期望預測與真實結果的偏離程度，即刻畫了學習算法本身的擬合能力。

模型的泛化能力可以分解為偏差和方差的和：

E_D((f(x;D)-y)2)=E_D((f(x;D)-\bar{f}(x))2)+(\bar{f}(x)-y)^2ED((f(x;D)−y)2)=ED((f(x;D)−fˉ(x))2)+(fˉ(x)−y)2

一般來說，偏差與方差是有衝突的，這稱為偏差-方差窘境（bias-variance dilemma）。考慮上述曲線擬合問題，如果我們在y=sin(2\pi x)y=sin(2πx)上新採樣1010個不同的樣本點，那麼99階的多項式將會發生非常大的波動，但仍然能擬合這1010個點，這就是低偏差，高方差的一個表現，最後泛化誤差仍然很高。下圖給出了一個示意圖：

一個形象的打靶示意圖來解釋bias和variance的區別：

那麼如何合理的在bias和variance中尋找一個折中呢，這時就可以考慮應用2.3節中的方法了。

2.5 最大似然估計和貝葉斯估計

2.5.1 貝葉斯定理

AA和BB代表兩個事件，則AA和BB共同發生的概率為：

P(A,B)=P(A|B)P(B)=P(B|A)P(A)P(A,B)=P(A∣B)P(B)=P(B∣A)P(A)

貝葉斯定理有如下表示：

P(A|B)=\frac{P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A)

我們開看如下的具體案例：

假設一個人去醫院做一個結腸癌的檢查，這個檢查不太準確，一個確定有癌症的人可以有80%的概率檢查為陽性，一個沒有癌症的人可以有10%的概率檢查為陽性，即p(x=1|y=1)=0.8p(x=1∣y=1)=0.8，p(x=1|y=0)=0.1p(x=1∣y=0)=0.1

其中y=1y=1為這個人有癌症，y=0y=0為這個人沒有癌症，x=1x=1為檢查為陽性。

假設這個人的檢測呈陽性，那麼直觀來看他有很大的幾率有結腸癌。但是如果考慮結腸癌在人群中發生的概率P(y=1)=0.004P(y=1)=0.004（先驗知識），那麼此時有：

P(y=1|x=1)=\frac{P(x=1|y=1)P(y=1)}{P(x=1|y=1){P(y=1)}+P(x=1|y=0){P(y=0)}}=0.031P(y=1∣x=1)=P(x=1∣y=1)P(y=1)+P(x=1∣y=0)P(y=0)P(x=1∣y=1)P(y=1)=0.031

也就是說只有百分之三的概率這個人真正有結腸癌，這就是先驗知識對觀測的修正作用，貝葉斯定理在統計學習中應用十分廣泛，下兩小節我們考慮一個簡單的參數估計和統計推斷問題來探索一下貝葉斯估計的應用。

2.5.2 最大似然

考慮一個扔硬幣問題，硬幣投擲的結果x\in{0,1}x∈{0,1}，其中x=1x=1代表投擲結果為正面，x=0x=0代表投擲結果為反面。我們假設這個硬幣是不均勻的，也就是每次投擲正反面出現的概率是不一樣的，假設正面的概率為\muμ

p(x=1|\mu)=\mup(x=1∣μ)=μ

那麼自然，反面的概率為1-\mu1−μ:

p(x=0|\mu)=1-\mup(x=0∣μ)=1−μ

統一上述兩式子就是經典的伯努利分佈（Bernoulli distribution）

p(x|\mu)=\mux(1-\mu){1-x}p(x∣μ)=μx(1−μ)1−x

假設我們觀測了一個投擲序列D={x_1,x_2,…,x_N}D={x1,x2,…,xN}，似然函數定義為這些觀測出現的概率乘積

p(D|\mu)=\prod_{n=1}N{p(x_n|\mu)}=\prod_{n=1}N{\mu{x_n}(1-\mu){1-x_n}}p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)1−xn

最大似然就是認為\muμ的取值應該使似然函數取值最大，假設我們觀測10次，其中有7個正面，3個反面，那麼似然函數為：

p(D|\mu)=\mu7(1-\mu)3p(D∣μ)=μ7(1−μ)3

上述式子求最大值可以先進行對數，變成ln(p(D|\mu))=7ln\mu+3ln(1-\mu)ln(p(D∣μ))=7lnμ+3ln(1−μ),對其求導，可以得到\mu=0.7μ=0.7

一般來說，有\mu_{ML}=\frac1N{\sum_{n=1}^N{x_n}}μML=N1∑n=1Nxn

2.5.3 貝葉斯估計

在上述的最大似然中，存在一個致命的問題，假設我們觀測的樣本數量為3個，但是3次都是正面，我們會得出\mu_{ML}=1μML=1，即我們會判斷以後每一次都會扔出正面，這符合數學邏輯，但是不符合我們的常識和直觀感受，比如有人在你之前扔過這個硬幣20次，其中正面是10次，那此時你是否還非常確信以後每一次都是正面呢？是否要修正自己的判斷呢？那如何修正自己的判斷呢？此時就要在似然函數的基礎上引入關於\muμ的先驗分佈。

假設有如下的關於\muμ的先驗分佈：

p(\mu)\propto\mu{10}(1-\mu){10}p(μ)∝μ10(1−μ)10

此時根據貝葉斯定理：

p(\mu|D)\propto{p(D|\mu)p(\mu)}p(μ∣D)∝p(D∣μ)p(μ)

此時結合我們的觀測3次，正面次數為3次，可知：

p(\mu|D)\propto\mu{13}(1-\mu){10}p(μ∣D)∝μ13(1−μ)10

此時我們最大化p(\mu|D)p(μ∣D)會得到\mu_{MAP}=\frac{13}{23}μMAP=2313，這個推斷要遠遠比\mu_{ML}=1μML=1更加合理，這就是引入先驗知識的意義。在我們觀測的樣本量比較小的時候，引入先驗分佈會顯得尤為重要。這種將結合先驗和似然結合到一起的參數估計方式也稱為最大後驗概率推斷（MAP: Max a Posterior）

（基於篇幅有限，此段略去大量的數學證明和數學表達，只為讓大家能夠形象化的理解貝葉斯估計的思想，準確的數學推導可以參考Pattern Recognition and Machine Learning，以及Machine Learning A Probabilistic Perspective）

線性迴歸

3.1 經典線性迴歸

對於一個一般的線性模型而言，其目標就是要建立輸入變量和輸出變量之間的迴歸模型。該模型是既是參數的線性組合。從數學上來說，線性迴歸有如下表達形式:

h_{\theta}(x) = \theta_{0} + \theta_{1}x_1 + \theta_{2}x_2 + \cdots + \theta_{n}x_n = \sum_{i = 0}^{n}\theta_{i}x_{i} = \theta^Txhθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=i=0∑nθixi=θTx

其中x_0=1x0=1，當x=(x_0,x_1)x=(x0,x1)時，就是一元的線性迴歸，例如房屋面積和銷售價格的關係：

Living area(feet^2)Price

2104400

1600330

2400369

……

xx和yy的散點圖如下：

一元線性迴歸的函數表達形式h_{\theta}(x)hθ(x)是二維平面上的一條直線：

我們可以引入更高維度的特徵變量xx，考慮多變量的例子：

Living area(feet^2)badroomsPrice

21043400

16003330

24002369

………

此時稱為多元線性迴歸，實際上函數h_{\theta}(x)hθ(x)擬合的是一個高維空間中的平面：

現在我們假設預測值\theta^TxθTx與真實值yy之間存在一個誤差\epsilonϵ, 於是可以這樣寫：

y = \theta^Tx + \epsilony=θTx+ϵ

線性迴歸假設\epsilonϵ是獨立同分布的，服從與均值為00，方差為\sigma^2σ2的正態分佈（高斯分佈）

P(\epsilon) = \frac{ 1 }{\sqrt{2\pi}\sigma} e{-\frac{(\epsilon)2}{2\sigma^2}}P(ϵ)=2πσ1e−2σ2(ϵ)2

那麼yy服從均值為\thetaTxθTx，方差為\sigma2σ2的正態分佈：

P(y|x;\theta) = \frac{ 1 }{\sqrt{2\pi}\sigma} e^{-\frac{(y - \thetaTx)2}{2\sigma^2}}P(y∣x;θ)=2πσ1e−2σ2(y−θTx)2

所有的樣本可以認為是從上述分佈中抽樣，則MM個樣本的似然函數為：

L(\theta) = \prod_{i=1}{m}\rho(yi|x^i;\theta) = \prod_{i=1}^{m}\frac{ 1 }{\sqrt{2\pi}\sigma} e{-\frac{(yi - \thetaTxi)2}{2\sigma2}}L(θ)=i=1∏mρ(yi∣xi;θ)=i=1∏m2πσ1e−2σ2(yi−θTxi)2

上面的函數式子中，xixi與yiyi都是已知的樣本，θθ是要學習的參數。

為計算方便，我們把L(\theta)L(θ)取對數：

logL(\theta)\ = log\prod_{i=1}^{m}\frac{ 1 }{\sqrt{2\pi}\sigma} e{-\frac{(yi - \thetaTxi)2}{2\sigma2}}\ = \sum_{i=1}^mlog\frac{ 1 }{\sqrt{2\pi}\sigma}e{-\frac{(yi - \thetaTxi)2}{2\sigma2}}\ = mlog\frac{ 1 }{\sqrt{2\pi}\sigma}-\frac{1}{\sigma2}\centerdot\frac{1}{2}\sum_{i=1}m(y^i - \thetaTxi)^2logL(θ)=logi=1∏m2πσ1e−2σ2(yi−θTxi)2=i=1∑mlog2πσ1e−2σ2(yi−θTxi)2=mlog2πσ1−σ21⋅21i=1∑m(yi−θTxi)2

上面的公式取最大值，也就是下面的函數取最小值：

J(\theta) = \frac{1}{2}\sum_{i=1}m(h_{\theta}(xi) - yi)2J(θ)=21i=1∑m(hθ(xi)−yi)2

求J(\theta)J(θ)的最小值，可以直接對上式求駐點：

首先，將上式變形：

J(\theta) = \frac{1}{2}\sum_{i=1}m(h_{\theta}(xi) - yi)2\ = \frac{1}{2}(X\theta - y)^T(X\theta - y)J(θ)=21i=1∑m(hθ(xi)−yi)2=21(Xθ−y)T(Xθ−y)

下一步對參數\thetaθ求導可得：

\bigtriangledown_{\theta} J(\theta) = \bigtriangledown_{\theta}(\frac{1}{2}(X\theta - y)^T(X\theta - y))\ =\bigtriangledown_{\theta}(\frac{1}{2}(\thetaTXT-y^T)(X\theta - y)\ =\bigtriangledown_{\theta}(\frac{1}{2}(\thetaTXTX\theta-\thetaTXTy-yTX\theta+yTy) \ = \frac{1}{2}(2XTX\theta-XTy-(yTX)T)\ = XTX\theta-XTy▽θJ(θ)=▽θ(21(Xθ−y)T(Xθ−y))=▽θ(21(θTXT−yT)(Xθ−y)=▽θ(21(θTXTXθ−θTXTy−yTXθ+yTy)=21(2XTXθ−XTy−(yTX)T)=XTXθ−XTy

駐點滿足：

XTX\theta-XTy = 0XTXθ−XTy=0

即得到：

\theta = (XTX){-1}X^Tyθ=(XTX)−1XTy

上式也稱為Normal Equation，當然也可以利用梯度下降法迭代求解：

\theta_j=\theta_j-\alpha \dfrac{\partial}{\partial \theta_j}J(\theta) =\theta_j-\alpha\sum_{i=1}m(h_{\theta}(xi) - yi)x_j{i}θj=θj−α∂θj∂J(θ)=θj−αi=1∑m(hθ(xi)−yi)xji

梯度下降法和Normal Equation的區別如下：

Gradient DescentNormal Equation

需要選擇學習率\alphaα無需選擇學習率

需要迭代，需要選擇初始值不需要迭代

不需要求逆矩陣需要求矩陣X^TXXTX的逆矩陣，複雜度較高

當特徵維度nn很高時也能使用特徵維度nn很高時幾乎無法使用

在工程上一般採取梯度下降法或者隨機梯度下降法求解。

3.2 嶺迴歸（ridge regression）

經典線性迴歸是假設誤差滿足標準正態分佈，嶺迴歸是在這個基礎上加上了參數\thetaθ也滿足標準正態分佈，用最大後驗估計推導可得似然函數為：

\begin{aligned} argmax_{\theta} \quad L(\theta) & = ln \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(y_{i}-\theta{T}x_{i}){2}}{2\sigma^2} } \cdot \prod_{j=1}^{d} \frac{1}{\tau \sqrt{2\pi}} e{-\frac{\theta{2}}{2\tau^{2}}} \\ & = -\frac{1}{2\sigma^{2}} \sum_{i=1}{n}(y_{i}-\theta{T}x_{i})^{2} -\frac{1}{2\tau^{2}} \sum_{i=1}{d}\theta_{j}{2} - nln\sigma\sqrt{2\pi} - dln \tau \sqrt{2\pi} \end{aligned}argmaxθL(θ)=lni=1∏nσ2π1e−2σ2(yi−θTxi)2⋅j=1∏dτ2π1e−2τ2θ2=−2σ21i=1∑n(yi−θTxi)2−2τ21i=1∑dθj2−nlnσ2π−dlnτ2π

最大似然等價於最小化如下的損失函數：

\begin{aligned} argmin_{\theta} \quad f(\theta) & = \sum_{i=1}{n}(y_{i}-\theta{T}x_{i})^{2} + \lambda \sum_{j=1}{d}\theta_{j}{2} \\ \end{aligned}argminθf(θ)=i=1∑n(yi−θTxi)2+λj=1∑dθj2

嶺迴歸的Normal Equation為：

\theta = (X^TX+\lambda I){-1}XTyθ=(XTX+λI)−1XTy

嶺迴歸因為矩陣\lambda IλI的對角元素全是11，像一條山嶺，故而得名。嶺迴歸的示意圖如下：

嶺迴歸因為對參數取值範圍的抑制在一定程度上避免了過擬合的問題，另外在存在特徵變量間的共線性時（特徵變量間有較強的相關性）可以避免X^TXXTX不可逆的情況。

3.3 lasso迴歸和ElasticNet

lasso迴歸和嶺迴歸的不同是假設參數\thetaθ也滿足laplace分佈，用最大後驗估計推導可得似然函數為：

\begin{aligned} argmax_{\theta} \quad L(\theta) & = ln \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} e^{ -\frac{(y_{i}-\theta{T}x_{i}){2}}{2\sigma^2} } \cdot \prod_{j=1}^{d} \frac{1}{2b} e^{-\frac{\lvert \theta_{i} \rvert}{b} } \\ & = -\frac{1}{2\sigma^{2}} \sum_{i=1}{n}(y_{i}-\theta{T}x_{i})^{2} -\frac{1}{b} \sum_{i=1}^{d} \lvert \theta_{j} \rvert - nln\sigma\sqrt{2\pi} - dln 2b \end{aligned}argmaxθL(θ)=lni=1∏nσ2π1e−2σ2(yi−θTxi)2⋅j=1∏d2b1e−b∣θi∣=−2σ21i=1∑n(yi−θTxi)2−b1i=1∑d∣θj∣−nlnσ2π−dln2b

最大似然等價於最小化如下的損失函數：

\begin{aligned} argmin_{\theta} \quad f(\theta) & = \sum_{i=1}{n}(y_{i}-\theta{T}x_{i})^{2} + \lambda \sum_{j=1}^{d} \lVert \theta_{j} \rVert_{1} \\ \end{aligned}argminθf(θ)=i=1∑n(yi−θTxi)2+λj=1∑d∥θj∥1

因為\lVert \theta_{j} \rVert_{1}∥θj∥1不可導，lasso迴歸的求解需要用到座標軸下降或者最小角迴歸，受限於篇幅，這裡不做展開，lasso迴歸的示意圖如下：

相比嶺迴歸，lasso迴歸的解更容易出現在座標軸上，所以更容易出現稀疏的解，對特徵之間的共線性也有比較好的抑制作用，在一定程度上實現了特徵選擇的效果。lasso迴歸全稱是Least absolute shrinkage and selection operator。

ElasticNet迴歸是將嶺迴歸和lasso迴歸進行結合，吸收二者的優點，損失函數為：

\begin{aligned} argmin_{\theta} \quad f(\theta) & = \sum_{i=1}{n}(y_{i}-\theta{T}x_{i})^{2} + \lambda_1 \sum_{j=1}{d}\theta_{j}{2}+\lambda_2 \sum_{j=1}^{d} \lVert \theta_{j} \rVert_{1} \\ \end{aligned}argminθf(θ)=i=1∑n(yi−θTxi)2+λ1j=1∑dθj2+λ2j=1∑d∥θj∥1

線性分類

通俗來講，分類是將NN個樣本點xx分為CC類的過程，不同的樣本類別在空間中的邊界稱為決策邊界，當決策邊界是輸入的線性組合時（DD維的空間中是一個D-1D−1維的超平面），稱為線性分類，示意圖如下：

一維數據的線性決策邊界：

二維數據的線性決策邊界：

三維數據的線性決策邊界：

上述三種場景都是線性可分的，即可以找到一個超平面將樣本分開。有時樣本的空間分佈無法找到這樣的一個超平面線性可分，如下圖的樣本分佈：

此時雖然仍然可以利用線性決策邊界，但是分類的效果就會變得很差，這種數據的分佈就會用到其它非線性的方法如神經網絡，knn，決策樹等等，或者對其做一些變換讓其線性可分（支持向量機等）這些是後面要討論的內容。

數據集的線性可分性定義如下（針對二分類）：

給定一個數據集：

T = {(x_1, y_1), (x_2, y_2), …, (x_N, y_N)},T={(x1,y1),(x2,y2),…,(xN,yN)},

其中，x_i \in R^{\ n}, \ y_i \in \gamma = {+1, -1}, \ i = 1, 2, …, Nxi∈R n, yi∈γ={+1,−1}, i=1,2,…,N，如果存在某個超平面SS：

w \cdot x + b = 0w⋅x+b=0

能夠將數據集的正實例點和負實例點完全正確地劃分到超平面的兩側，則稱數據集為線性可分數據集(linear separable data set)。

線性分類任務的目標就使數據集儘可能的分到SS兩側（數據集本身不一定是線性可分的），錯誤分配的樣本會用一個損失函數來量化，最後通過最小化這個損失函數來找到參數ww和bb

4.1 感知機

感知機是1957年，由Rosenblatt提出。感知機是二分類的線性模型，其輸入是實例的特徵向量，輸出的是事例的類別，分別是+1+1和-1−1。假設訓練數據集是線性可分的，感知機學習的目標是求得一個能夠將訓練數據集正實例點和負實例點完全正確分開的分離超平面。如果是非線性可分的數據，則最後無法獲得超平面。

感知機從輸入空間樣本xx到輸出空間樣本yy的模型如下：

f(x)=sign(w \cdot {x}+b)f(x)=sign(w⋅x+b)

其中：

sign(x)= \begin{cases} -1& {x<0}\ 1& {x\geq 0} \end{cases}sign(x)={−11x<0x≥0

MM為誤分點的集合，感知機的優化目標是最小化如下函數：

L(w,b) = \sum\limits_{{x_i} \in M}^{} { - {y_i}(w{x_i} + b)}L(w,b)=xi∈M∑−yi(wxi+b)

其導數如下：

使用隨機梯度下降每次選一個樣本點做更新：

算法流程：

輸入：訓練數據集T = {(x_1, y_1), (x_2, y_2), …, (x_N, y_N)}T={(x1,y1),(x2,y2),…,(xN,yN)}，其中

x_i \in \chi = R^{\ n}, \ y_i \in \gamma = {+1, -1}, \ i = 1, 2, …, Nxi∈χ=R n, yi∈γ={+1,−1}, i=1,2,…,N。學習率\eta(0 < \eta \leq 1)η(0

輸出：w, bw,b；感知機模型：f(x) = sign(w \cdot x + b)f(x)=sign(w⋅x+b)

STEP 1選取初值w_0, b_0w0,b0

STEP 2在訓練集中選取數據(w_i, y_i)(wi,yi)

STEP 3如果y_i(w \cdot x_i + b) \leq 0yi(w⋅xi+b)≤0，則：

w \leftarrow w + \eta y_ix_i \ b \leftarrow b + \eta y_iw←w+ηyixib←b+ηyi

STEP 4轉至步驟2，直到訓練集中沒有誤分類點。

動手做一做

訓練數據集：

正實例點是[10,8],[6,9],[6,8],[7,6],[7,8],[9,6],[11,3],[10,6],[12,5][10,8],[6,9],[6,8],[7,6],[7,8],[9,6],[11,3],[10,6],[12,5]

負實例點是[1,2],[2,2],[3,1],[1,1],[3,6],[4,4],[3,2],[2,6],[6,2][1,2],[2,2],[3,1],[1,1],[3,6],[4,4],[3,2],[2,6],[6,2]

利用上述隨機梯度下降法求解感知機模型

4.2 邏輯迴歸（logistic regression）

邏輯迴歸的表現形式和線性迴歸有些類似，邏輯迴歸解決的是二分類問題，假設y\in{0,1}y∈{0,1}，為了使輸出在00到11之間，邏輯迴歸採用如下的函數形式：

h_\theta(x)=\frac{1}{1+e{-\thetaTx}}hθ(x)=1+e−θTx1

即將線性迴歸的函數形式\theta^TxθTx用logistic sigmoid函數進行映射，logistic sigmoid函數的形式為：

\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1

該函數具有如下的特性：當xx趨近於負無窮時，yy趨近於00；當xx趨近於正無窮時，yy趨近於1；當x= 0x=0時，y=0.5y=0.5

最早logistic sigmoid函數是皮埃爾·弗朗索瓦·韋呂勒在1844或1845年在研究它與人口增長的關係時命名的。sigmoid曲線可以模仿一些情況人口增長的 S 形曲線。起初階段大致是指數增長；然後隨著開始變得飽和，增加變慢；最後，達到成熟時增加停止。

邏輯迴歸假設yy服從伯努利分佈，並且用h_\theta(x)hθ(x)代表y=1y=1的概率，即：

P(y=1|x;\theta) = h_\theta(x)P(y=1∣x;θ)=hθ(x)

P(y=0|x;\theta) = 1-h_\theta(x)P(y=0∣x;θ)=1−hθ(x)

將上述兩個式子合併成一個：

P(y|x;\theta) = (h_\theta(x))y(1-h_\theta(x)){1-y}P(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y

現在有訓練數據集T = {(x^1, y^1), (x^2, y^2), …, (x^N, y^N)}T={(x1,y1),(x2,y2),…,(xN,yN)}

似然函數為：

l(\theta)=\prod_{i=1}{N}P(yi|xi;\theta)=\prod_{i=1}{N} (h_\theta(xi)){yi}(1-h_\theta(xi)){1-yi}l(θ)=i=1∏NP(yi∣xi;θ)=i=1∏N(hθ(xi))yi(1−hθ(xi))1−yi

最大似然等價於對似然函數的負對數求最小值：

J(\theta)=-lnl(\theta)=-\sum_{i=1}N(yiln(h_\theta(xi))+(1-yi)ln(1-h_\theta(x^i)))J(θ)=−lnl(θ)=−i=1∑N(yiln(hθ(xi))+(1−yi)ln(1−hθ(xi)))

利用梯度下降求解的參數的更新公式為：

\theta_j:=\theta_j-\alpha\dfrac{\partial}{\partial \theta_j}J(\theta)θj:=θj−α∂θj∂J(θ)

展開後為：

\theta_j:=\theta_j-\alpha\sum_{i=1}N(h_{\theta}(xi) - yi)x_j{i}θj:=θj−αi=1∑N(hθ(xi)−yi)xji

可以看到邏輯迴歸的參數更新遞推式和線性迴歸的參數更新遞推式在形式上是一樣的，只是邏輯迴歸的h_\theta(x)hθ(x)是在線性迴歸的h_\theta(x)=\theta^Txhθ(x)=θTx的外面套了一層sigmoid函數。

4.3 Softmax迴歸

在 softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題）。

因此對於訓練集T = {(x^1, y^1), (x^2, y^2), …, (x^N, yN)}T={(x1,y1),(x2,y2),…,(xN,yN)}，我們有yi\in{1,2,…,k}yi∈{1,2,…,k}。（注意此處的類別下標從$ 1 $開始，而不是 00）。

對於給定的輸入xx，我們想用假設函數針對每一個類別j估算出概率值P(y=j|x)P(y=j∣x)。也就是說，我們想估計xx的每一種分類結果出現的概率。因此，我們的假設函數將要輸出一個kk維的向量（向量元素的和為11）來表示這kk個估計的概率值。具體地說，我們的假設函數h_\theta(x)hθ(x)形式如下：

softmax迴歸的代價函數為（推導過程略去）：

其中1{}1{}為示性函數，{}{}中的取值為真的時候為11，否則為00。

值得注意的是，上述公式是logistic迴歸代價函數的推廣。logistic迴歸代價函數可以改為：

對於J(\theta)J(θ)的最小化問題，目前還沒有閉式解法。因此，我們使用迭代的優化算法（例如梯度下降法）。經過求導，我們得到梯度公式如下：

有了梯度，就可以用梯度下降法去迭代更新參數了。

Softmax 迴歸 vs. k 個二元分類器

如果你在開發一個音樂分類的應用，需要對kk種類型的音樂進行識別，那麼是選擇使用 softmax 分類器呢，還是使用 logistic 迴歸算法建立$ k $個獨立的二元分類器呢？

這一選擇取決於你的類別之間是否互斥，例如，如果你有四個類別的音樂，分別為：古典音樂、鄉村音樂、搖滾樂和爵士樂，那麼你可以假設每個訓練樣本只會被打上一個標籤（即：一首歌只能屬於這四種音樂類型的其中一種），此時你應該使用類別數 k = 4k=4 的softmax迴歸。（如果在你的數據集中，有的歌曲不屬於以上四類的其中任何一類，那麼你可以添加一個“其他類”，並將類別數kk設為55。）

如果你的四個類別如下：人聲音樂、舞曲、影視原聲、流行歌曲，那麼這些類別之間並不是互斥的。例如：一首歌曲可以來源於影視原聲，同時也包含人聲。這種情況下，使用44個二分類的 logistic 迴歸分類器更為合適。這樣，對於每個新的音樂作品，我們的算法可以分別判斷它是否屬於各個類別。

現在我們來看一個計算視覺領域的例子，你的任務是將圖像分到三個不同類別中。(i) 假設這三個類別分別是：室內場景、戶外城區場景、戶外荒野場景。你會使用sofmax迴歸還是$ 3$個logistic 迴歸分類器呢？ (ii) 現在假設這三個類別分別是室內場景、黑白圖片、包含人物的圖片，你又會選擇 softmax 迴歸還是多個 logistic 迴歸分類器呢？

在第一個例子中，三個類別是互斥的，因此更適於選擇softmax迴歸分類器。而在第二個例子中，建立三個獨立的 logistic迴歸分類器更加合適。

4.4 廣義線性模型

在之前的章節中，我們談到了服從高斯分佈的線性迴歸和服從伯努利分佈的邏輯迴歸，它們的解決過程十分相似。實際上，他們都是廣義線性模型的特例，對於這類問題我們有比較統一的解決方案。

在介紹廣義線性模型之前，我們先來引入指數分佈族這一概念，一個單參數指數分佈族可以表示為：

p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta))p(y;η)=b(y)exp(ηTT(y)−a(η))

在這裡,\etaη被稱為自然參數（natrual parameter），一般來說，T(y) = yT(y)=y，a(\eta)a(η)被稱為log partition function。這裡e^{-a(\eta)}e−a(η)起到歸一化常數的作用。如果我們確定T, a, bT,a,b，通過不斷改變\etaη，我們就可以得到一個分佈族。

伯努利分佈屬於指數分佈族

對於伯努利分佈我們有：

p(y;\phi ) = \phi ^y(1 - \phi )^{(1 - y)} \ = exp(ylog\phi + (1 - y)log(1 - \phi )) \ = exp\left(log\left(\frac{\phi }{1 - \phi } \right)y+ log(1 - \phi)\right)p(y;ϕ)=ϕy(1−ϕ)(1−y)=exp(ylogϕ+(1−y)log(1−ϕ))=exp(log(1−ϕϕ)y+log(1−ϕ))

很顯然，伯努利方程是符合指數分佈族形式：

\eta = log(\frac{\phi} {1- \phi}) \ T(y) = y \ a(\eta) = -log(1 - \phi) = log(1 + e^\eta) \ b(y) = 1 \η=log(1−ϕϕ)T(y)=ya(η)=−log(1−ϕ)=log(1+eη)b(y)=1

可以看到上式蘊含著：\phi = \frac{1}{1 + e^{(- \eta)}}ϕ=1+e(−η)1，也就是我們之前引入的sigmoid函數

高斯分佈屬於指數分佈族

p(y;\mu) = \frac{1}{\sqrt{2\pi}}exp\left(-\frac{1}{2}(y - \mu)^2\right) \ = \frac{1}{\sqrt{2\pi}}exp\left(-\frac{1}{2}y^2\right)exp\left(\mu y - \frac{1}{2}\mu^2\right)p(y;μ)=2π1exp(−21(y−μ)2)=2π1exp(−21y2)exp(μy−21μ2)

因此，在指數分佈族形式下，我們只需要進行如下轉換：

\eta = \mu \ T(y) = y \ a(\eta) = \mu^2/2 = \eta^2/2 \ b(y) = (1/\sqrt{2\pi})exp(-y^2/2)η=μT(y)=ya(η)=μ2/2=η2/2b(y)=(1/2π)exp(−y2/2)

還有很多常見的分佈都屬於指數分佈族，在此就不展開。

廣義線性模型

廣義線性模型有如下的假設：

P(y|x;\theta) \sim 指數分佈(\eta)P(y∣x;θ)∼指數分佈(η)

\etaη與xx成線性關係，即\eta = \theta^TXη=θTX

給定一個xx，我們需要目標函數為h_\theta(x) = E[y|x]hθ(x)=E[y∣x]

根據如上假設，我們可以推導出高斯分佈的線性迴歸模型：

h_\theta(x) = E[y|x;\theta] \ = \mu \ = \eta \ = \theta^Txhθ(x)=E[y∣x;θ]=μ=η=θTx

上式中第一個等號是因為假設三，第二個等號則是由於高斯分佈的基本性質，第三個等號則是由於前文中高斯分佈中推導過的和的關係，最後一個等號則是由於假設二。

同樣，我們也可以推導出邏輯迴歸模型：

h_\theta(x) = E[y|x;\theta] \ = \phi \ = \frac{1}{1 + e^{-\eta}} \ = \frac{1}{1 + e{-\thetaTx}}hθ(x)=E[y∣x;θ]=ϕ=1+e−η1=1+e−θTx1

上式中第一個等號是因為假設三，第二個等號則是由於伯努利分佈的基本性質，第三個等號則是由於前文中伯努利分佈中推導過的和的關係，最後一個等號則是由於假設二。

從以上可以看出，線性迴歸和邏輯迴歸的sigmoid函數形式並非是拍腦袋想出來的，而是符合更廣泛的廣義線性模型的假設而得出的自然推論。

4.5 從另一個角度看邏輯迴歸

考慮二分類問題，根據貝葉斯公式有：

P(y=1|x)=\frac{P(x|y=1)P(y=1)}{P(x|y=1)P(y=1)+P(x|y=0)P(y=0)}P(y=1∣x)=P(x∣y=1)P(y=1)+P(x∣y=0)P(y=0)P(x∣y=1)P(y=1)

如果我們定義：

\eta=ln\frac{P(x|y=1)P(y=1)}{P(x|y=0)P(y=0)}η=lnP(x∣y=0)P(y=0)P(x∣y=1)P(y=1)

那麼有：

P(y=1|x)=\frac{1}{1+e^{-\eta}}P(y=1∣x)=1+e−η1

這和我們最初引入的sigmoid函數形式也是一致的。

實際上，給定y=0y=0和y=1y=1這兩個類別的樣本的分佈假設（如高斯分佈），我們是可以用最大似然求解分佈的均值和方差的，進而可以顯示的得到聯合概率分佈P(y=1,x)P(y=1,x)和P(y=0,x)P(y=0,x)，進而獲得後驗概率P(y=1|x)P(y=1∣x)。只不過在邏輯迴歸中，直接用線性表達式\eta=\theta^Txη=θTx來對ln\frac{P(x|y=1)P(y=1)}{P(x|y=0)P(y=0)}lnP(x∣y=0)P(y=0)P(x∣y=1)P(y=1)進行建模。這就引出了4.6節的生成模型和判別模型。

極大似然的求解示意：

假設先驗P(y=1)=\piP(y=1)=π，則P(y=0)=1-\piP(y=0)=1−π，對於一個來自y=1y=1類別的數據點x^nxn，聯合概率分佈如下，假設每一類的樣本分佈為正態分佈並且方差相同：

P(xn,y=1)=P(y=1)P(xn|y=1)=\pi{N(x^n|\mu_1,\Sigma)}P(xn,y=1)=P(y=1)P(xn∣y=1)=πN(xn∣μ1,Σ)

P(xn,y=0)=P(y=0)P(xn|y=0)=(1-\pi){N(x^n|\mu_2,\Sigma)}P(xn,y=0)=P(y=0)P(xn∣y=0)=(1−π)N(xn∣μ2,Σ)

這樣似然函數可以寫為：

\prod_{n=1}N(\pi{N(xn|\mu_1,\Sigma))}{yn}((1-\pi){N(xn|\mu_2,\Sigma))}{1-y^n}n=1∏N(πN(xn∣μ1,Σ))yn((1−π)N(xn∣μ2,Σ))1−yn

為了確定聯合概率分佈，需要確定\pi,\mu_1,\mu_2,\Sigmaπ,μ1,μ2,Σ四個未知變量，分別為：

\pi=\frac{1}{N}\sum_{n=1}Nynπ=N1n=1∑Nyn

\mu_1=\frac{1}{N_1}\sum_{n=1}Nynx^nμ1=N11n=1∑Nynxn

\mu_2=\frac{1}{N_2}\sum_{n=1}N(1-yn)x^nμ2=N21n=1∑N(1−yn)xn

\Sigma=\frac{N_1}{N}S_1+\frac{N_2}{N}S_2Σ=NN1S1+NN2S2

其中：

S_1=\frac{1}{N_1}\sum_{n\in{y=1}}(xn-\mu_1)(xn-\mu_1)^TS1=N11∑n∈y=1(xn−μ1)(xn−μ1)T

S_2=\frac{1}{N_2}\sum_{n\in{y=0}}(xn-\mu_2)(xn-\mu_2)^TS2=N21∑n∈y=0(xn−μ2)(xn−μ2)T

可以看到先驗概率\piπ就是樣本點所佔的比例，而\mu_1μ1和\mu_2μ2分別為兩類樣本的均值，協方差\SigmaΣ為兩類樣本方差的加權平均。這些參數確定後，對於一個新的樣本xx，我們就可以很方便的獲得P(y=1|x)P(y=1∣x)的取值。

4.6 生成模型和判別模型

給個例子感覺一下: 如果我想知道一個人A說的是哪個國家的語言，我應該怎麼辦呢?

生成式模型

我把每個國家的語言都學一遍，這樣我就能很容易知道A說的是哪國語言，並且C、D說的是哪國的我也可以知道，進一步我還能自己講不同國家語言。

判別式模型

我只需要學習語言之間的差別是什麼，學到了這個界限自然就能區分不同語言，我能說出不同語言的區別，但我不會講。

如果我有輸入數據xx，並且想通過標註yy去區分不同數據屬於哪一類，生成式模型是在學習樣本和標註的聯合概率分佈P(x,y)P(x,y) 而判別式模型是在學習條件概率P(y|x)P(y∣x) 。

生成式模型P(x,y)P(x,y)可以通過貝葉斯公式轉化為P(y|x)=\frac{P(x,y)}{P(x)}P(y∣x)=P(x)P(x,y)，並用於分類，而聯合概率分佈P(x,y)P(x,y)也可用於其他目的，比如用來生成樣本對(x,y)(x,y)

判別式模型的主要任務是找到一個或一系列超平面，利用它(們)劃分給定樣本xx到給定分類yy，這也能直白的體現出“判別”模型這個名稱。

在4.5節中，直接用邏輯迴歸建模就是判別式的模型，而對P(xn,y=1)P(xn,y=1)和P(xn,y=0)P(xn,y=0)進行建模就是生成式的模型。

4.7 分類器評價標準

分類算法有很多，不同分分類算法又用很多不同的變種。不同的分類算法有不同的特定，在不同的數據集上表現的效果也不同，我們需要根據特定的任務進行算法的選擇，如何選擇分類，如何評價一個分類算法的好壞，直觀上來看，我們可以用正確率（accuracy）來評價分類算法。

正確率確實是一個很好很直觀的評價指標，但是有時候正確率高並不能代表一個算法就好。比如某個地區某天地震的預測，假設我們有一堆的特徵作為地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別劃分為0，那那麼它就可能達到99%的正確率，但真的地震來臨時，這個分類器毫無察覺，這個人類帶來的損失是巨大的。為什麼99%的正確率的分類器卻不是我們想要的，因為這裡數據分佈不均衡，類別1的數據太少，完全錯分類別1依然可以達到很高的正確率卻忽視了我們關注的東西。接下來詳細介紹一下分類算法的評價指標。

這裡首先介紹幾個常見的模型評價術語，現在假設我們的分類目標只有兩類，計為正例/正樣本（positive）和負例/負樣本（negtive）分別是：

1）True positives(TP): 被正確地劃分為正例的個數，即實際為正例且被分類器劃分為正例的實例數

2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的實例數；

3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的實例數；

4）True negatives(TN): 被正確地劃分為負例的個數，即實際為負例且被分類器劃分為負例的實例數。

混淆矩陣：

預測正預測負總計

實際正TPFN正樣本總數

實際負FPTN負樣本總數

總計預測為正樣本的總數預測為負樣本的總數所有樣本總數

評價指標：

1）正確率（accuracy）**

正確率是我們最常見的評價指標， accuracy = （TP+TN)/(TP+FN+FP+TN)，這個很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好；

2）錯誤率（error rate)

錯誤率則與正確率相反，描述被分類器錯分的比例，error rate = (FP+FN)/(TP+FN+FP+TN)，對某一個實例來說，分對與分錯是互斥事件，所以 accuracy =1 - error rate；

3）靈敏度（sensitive）

sensitive = TP/(TP+FN)，表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力；

4）特效度（specificity)

specificity = TN/(FP+TN)，表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力；

FPR = 1-specificity=FP/(FP+TN)，表示的是所有負例中被分錯的比例

5）精度（precision）

精度是精確性的度量，表示被分為正例的示例中實際為正例的比例， precision=TP/(TP+FP)；

6）召回率（recall）

召回率是覆蓋面的度量，度量有多個正例被分為正例， recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率與靈敏度是一樣的。

ROC曲線

下圖是一個二分模型真實的輸出結果，一共有20個樣本，輸出的概率就是模型判定其為正例的概率，第二列是樣本的真實標籤。

其中class一欄表示真實值，p為正例，n為反例,這20個樣本中有10個正例10個反例；score一欄則是分類器給出的分類評分。一般的二分類的實現方法就是選擇一個閾值，將大於這個閾值的樣本認為是正例，小於這個閾值的樣本認為是反例。於是，不妨對樣本4來看，如果將樣本4的評分設置為分類閾值，被分類器為正例的樣本有1 2 3 4，其中真正的正例樣本有1 2 4，故其TPR=3/10=0.3,FPR=1/10=0.1(分母雖然數值一樣但是意義不同，前面TPR的分母是樣本總體中的真正例個數，後者是樣本總體中的真反例個數)。接著不妨設置樣本9的評分0.51作為閾值，那麼樣本1~9都會被分類器認為是正例樣本，其中為真正例的有1 2 4 5 6 9共6個，所以TPR=6/10=0.6,FPR=3/10=0.3.如此這樣，將1~20每個樣本的評分均作為分類器的判定閾值，可以得到20組TPR和FPR的有序數對；然後不妨以TPR和FPR為兩個座標軸建立一個直角座標系，就可以得到這樣的圖像：

這樣每一組圖像在圖中都會有一個座標，可以連成一條折線。一般地我們希望分類器得到的分類結果是完全正確的，也就是正例樣本全部都能夠被檢測出來，並且不會混入真反例樣本，這個時候TPR接近1且FPR接近0，反應在圖像上好的分類器的折線應該更加接近左上角。當樣本足夠多時，折線就近似為圓滑的曲線，類似於這個樣子：

從這個圖上看，分類器A的結果肯定比分類器B要好。

還有一種更直觀的繪製ROC曲線的方法，這邊簡單提一下。就是把橫軸的刻度間隔設為1/N，縱軸的刻度間隔設為1/P，N,P分別為負樣本與正樣本數量。然後再根據模型的輸出結果降序排列，依次遍歷樣本，從0開始繪製ROC曲線，每遇到一個正樣本就沿縱軸方向繪製一個刻度間隔的曲線，每遇到一個負樣本就沿橫軸方向繪製一個刻度間隔的曲線，遍歷完所有樣本點以後，曲線也就繪製完成了。究其根本，其最大的好處便是不需要再去指定閾值尋求關鍵點了，每一個樣本的輸出概率都算是一個閾值了。

分享到:

關鍵字: 統計分類器樣本

致敬！這496人為抗疫付出了生命

參考快訊：據法新社統計，歐洲確診病例超150萬例，死亡病例超14萬例

96%的城市重新開始崛起？房地產市場超乎你的想象

4月21日日本新冠疫情最新消息：單日死亡數創新高

元明王朝，異常繁榮，看元明統治時期究竟有多少人口

統計！目前持牌銀行卡收單機構僅61家

外國人住在日本哪裡？在留外國人最多的日本百大城市

市民最關心哪些事？貴陽市網絡問政10月數據報表“出爐”

國內又有8座城市開始收縮，這回不止是東北，兩個城市在四川

又有8座城市開始收縮，這回不止是東北

四川省扶貧開發局領導到射洪市調研移民後期扶持基礎信息統計工作

4月21日日本新冠疫情最新消息情況：單日死亡數創新高

國內又有8座城市開始收縮，這回不止是東北

殺號公式準確率統計1

來來來, 和統計交朋友 : 開題篇 | Basic Statistics

雨量7/10-7/17統計

一年級下冊第九單元統計

刑事案件各階段法定辦案時間一覽，最長刑事案件終結是32個月

「截止到10月20日 9：00」2021國考瀋陽報名人數統計

「截止到10月17日 16：00」21國考瀋陽報名人數統計

「截止到10月16日16：00」2021國考瀋陽報名人數統計

臺灣失業率再走高消費者信心指數創新低

用你的家鄉話說出來他的名字！

統計:你家或朋友親戚家的孩子玩遊戲私自充了多少錢沒要回來？

4月成交27塊地！哈爾濱房地產市場將如何？

紐約宣佈修訂新冠病亡人數：3700多名生前疑似病例被納入

杭州近十三年人口增長情況，2019年新增人口或超50萬人？

5月深圳有11個新盤計劃入市！

肖戰翻唱《紅梅贊》一小時破300萬播放；國家廣電總局當天也發聲

日本累計確診新冠肺炎11152例單日死亡數創新高

中級經濟師-經濟基礎-統計【第二十三章第四節+練習題】

10死46傷！這幾省燃氣事故多發

「統計」重慶各區近年推動上市進展，兩江新區最突出

5月貴陽新開盤項目統計 10個全新盤集中推出

496人為抗疫付出了生命！向英雄致敬！

戰疫無硝煙，中華有犧牲！這496人付出了生命

[券業場]賣方元老李迅雷卸任中泰證券研究所長剛剛捲入7000萬失業研報風波

4月15日大樂透聯盟實單鑑賞，統計：最熱一注能否有所表現

工作10年的王會計：用17張表格，教你快速上手學會做內部賬！

年終盤點！2019年常州成交的50+幅地塊，進展如何？

市統計局與市住建局對接城建項目投資統計工作

被美稱為“新冠肺炎死亡率最高國家”，比利時不幹了

日本新冠確診病例達10806例

日本累計確診11152例單日死亡數創新高--國際要聞--國際--首頁

日本累計確診11152例單日死亡數創新高

日本新冠確診病例達10806例--今日熱點--國際--首頁

數據鬧烏龍？智利將新冠死者計入“治癒者”，輿論不滿

青島上週新房成交2415套成交量下滑近2成

21國考溫州共報名344人，9個崗位無人報考-截止16日9時

這個統計很有意思。

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？