高分論文分析方法—判別分析原理及R語言實現

畢業零距離

2018-07-30 11:36:38

判別分析做的好的話能提高論文質量，挖掘數據最大的價值，為論文加分。判別分析（discriminat analysis）他要解決的問題是在一些已知研究對象已經用某種方法分成若干類的情況下，確定新的樣品屬於已知類別中的哪一類。如已知健康人和冠心病人的血壓、血脂等資料，以此建立判別函數，對新樣品分類進行預測。在模式識別領域（比如人臉識別，艦艇識別等圖形圖像識別領域）中有非常廣泛的應用。判別分析在處理問題時，通常要給出一個衡量新樣品與各已知類別接近程度的描述統計模型，即判別函數，同時也需要指定一種判別規則，以判斷新樣品的歸屬。判別規則可以是確定性的也可以是統計性的分別對應Fisher判別和Bayes判別。今天明明同學給大家講講《判別分析原理及R語言實現》。

1、線性判別分析

提出:

最早由fisher（1936）提出，用於花卉分類上，將花卉的各種特徵（如花瓣長與寬，花萼長與寬等）利用線性組合方法變成單變量值，再以單值比較方法來判別事物間的差別。

示例：

以兩類判別為例說明。設有兩類樣品，分別為n1,n2個樣品，各測得p個指標，觀察值如下表所示。

可以預設線性判別函數為Y = a1X1+ a2X2+……+ apXp = a'X 。使得該判別函數能根據指標X1，X2，XP 之值區分各樣品歸屬哪一類。

步驟：

1、求Fisher線性判別函數（Fisher線性判別準則要求各類之間的變異儘可能地大，而各類內部的變異儘可能地小，變異用離均差平方和表示）

2、計算判別界值（求的ai後，代入判別函數式即得判別函數）

3、建立判別標準

下面舉例說明R語言實現過程。

例1：根據經驗，今天和昨天氣溫差x1和x2是預報明天下雨或不下雨的兩個重要因子，實驗記錄如下表格，試問，今天測得x1=8.1，x2=2.0，明天應該預報下雨還是晴天？

R語言中進行線性判別得函數為lda()

形式如下:

lda(formula , data，……)

formula和上次明明同學介紹的迴歸分析中的形式一樣。

Data為數據框。

1、首先把數據加載到R語言中，然後畫出數據散點圖，初步觀察數據分佈。

R語言代碼

原始數據散點圖

2、建立判別函數

R語言代碼

3、用訓練的判別函數對源數據進行檢測

R語言代碼

由結果可知，兩類中分別有一個判別錯誤，判對的共有18對。判對率為18/20=90%

4、構造混淆矩陣，求出判對率

R語言代碼

由這個結果也可以看出，判對率為90%。求出的判別函數為y=-0.1035x1+0.2248x2 。

畫出分類線為：

兩類判別分類線

5、對新數據進行預測

R語言代碼

由結果可以看出，當x1 = 8.1 ， x2 = 2.0 時，明天天氣分類為1，即明天天氣為下雨。

把新點添加到圖層，查看可視化效果，圖中箭頭指向的黑色點就是新點。也可以看出，該點落在有雨的類別中。

新點加入原始圖直觀觀察分類

2、距離判別分析

距離判別的基本思想：

根據已知分類的數據，分別計算各類的重心，即各組的均值。距離判別的準則是：對任給的一次觀測，若它與第i類的重心距離最近，就認為它來自第i類。通常採用馬氏距離進行判別。

判別標準：

設有兩總體G1、G2，從第一個總體中抽取n1個樣品，從第二個總體中抽取n2個樣品，對每個樣品測量P個指標。任取一個樣品實測指標為X =(x1，x2，…… ，xp)'。分別計算樣品X到總體G1、G2的距離D（X , G1）和D（X , G2）,按距離最近準則判別歸類。即：

在R語言中利用WeDiBaDis包可以實現加權馬氏距離判別分析。

下面舉例說明R語言實現過程。

從市場上隨機抽取了20中牌子的電視機進行調查。按照電視機的質量評分、功能評分、銷售價格以及銷售情況（共兩種，暢銷和滯銷）進行如下統計。

現有一新廠商來推銷其產品，質量評分8.0，功能評分7.5，售價65百元。該廠商的場景如何？

R語言實現過程：

1）載入數據，分析數據呈現方式

R語言代碼

質量和功能散點圖

質量和售價散點圖

功能和售價散點圖

2）、導入WeDiBaDis包，建立馬氏距離模型。使用WDBdisc ()函數建立模型。

WDBdisc函數結構為：

WDBdisc(data, datatype, classcol, new.ind, distance, type, method)

Data: 一個訓練數據矩陣或者訓練數據距離矩陣。

Datatype：如果數據是數據矩陣，則datatype = "m"，如果數據是距離矩陣，則datatype = "d"。

Classcol：分類變量所在的列，默認為第一列。

new.ind：為測試數據，可選參數，如果需要測試新數據的話需要加上。

distance: 判別分析採用的距離方法。默認為歐式距離。可選"correlation" , "Bhattacharyya", "Gower", "Mahalanobis", "BrayCurtis", "Orloci", "Hellinger"or "Prevosti"。

type: 如果距離為"Gower"距離，則需要該參數。該參數是一個列表。

Method：判別分析採用的方法，為"DB" 或者"WDB"，默認為"WDB"。

R語言代碼

判別結果

由此可見訓練結果可知，類別1有兩個判錯的，類別2有一個判錯的，判對率為85%。

新數據代入模型，判斷新類別的分類。

預測結果

由預測結果可知，新類別所屬分類為1，即新廠商推廣的產品為暢銷，新廠商前景比較樂觀。

3、二次判別分析

當多總體之間的協方差矩陣不相同時，距離判別函數為非線性形式，一般為二次函數。R語言中用MASS包裡的qda()函數來建立模型。

qda()函數書寫形式和lda一樣，這裡明明同學簡單略過。你們可以回頭看看線性判別函數lda()書寫。

本次還以距離判別的數據為例，用二次判別建立模型，看看模型判對率。

R語言代碼

結果如下：

二判別結果

原始數據和預測數據對比結果

判對率

由此可見，我們給定的20個樣本訓練數據訓練的模型全部判對。判對率為100%。由此可見應用二次判別比馬氏距離判別效果好。

4、 Bayes判別分析

前面講的幾種判別分析方法計算簡單，結果明確，比較實用。但是存在兩個缺點，

一是判別方法與總體各自出現的概率大小完全無關；二是判別方法與錯判後造成的損失無關，這些都不盡合理。Bayes判別則是很好的考慮了這兩個因素而提出的一種判別方法。

我們還以二次判別分析的例子用bayes建模。

1、假設先驗概率相等，即q1=q2=1/2，此時判別函數等價於fisher線性判別函數。

先驗概率相等的R語言代碼和判別結果

2、先驗概率不一樣，取q1=13/20 , q2=7/20，然後建立bayes判別函數

先驗概率不相等的R語言代碼和判別結果

由於我們樣本數據少的原因，本結果中無論是先驗概率一樣還是先驗概率不一樣的bayes判別都對本實驗數據完美的進行了判別。判別結果好過馬氏距離判別分析。

由於篇幅有限，本文關於各種判別函數的建立與推導並沒有寫出，希望大家自己查看資料學習。學習更多R語言數據分析使用技巧、EXCEL和PPT製作教程請查看歷史文章。

有任何問題可以私信明明同學，幫助你解決數據分析，PPT製作，論文做圖、以及高質量圖片處理的難處。

目錄：

1、線性判別分析

步驟：

下面舉例說明R語言實現過程。

2、距離判別分析

下面舉例說明R語言實現過程。

1）載入數據，分析數據呈現方式

2）、導入WeDiBaDis包，建立馬氏距離模型。使用WDBdisc ()函數建立模型。

3、二次判別分析

4、 Bayes判別分析

相關文章:

數據統計的理解和運用（二）t檢驗的應用

數據統計的理解和運用（一）思路篇

大佬新作dtplyr:當優秀的語法遇上牛批的速度

R爬蟲小白入門：Rvest爬鏈家網+分析（三）

R語言中文社區2018年終文章整理（作者篇）

一圖勝千言：用好圖表，好好說話

R語言——保存圖片

R語言——apply族的其他幾個兄弟

R語言實現基本統計分析之t檢驗

備受推崇的《R語言實戰》真的值得如此好評嗎？

「R語言實用技巧」類別變量的順序自定義設置

多元線性迴歸預測：餐館營業額與多因素實戰

R語言——公式還原到源數據

R語言——手工做個線性迴歸模型

R語言——廣義逆矩陣能怎麼用咧

R語言——畫曲線和網格線

Graphpad Prism 8.0繪製小提琴圖

2018大盤點｜R語言中文社區十大火爆文章

R語言——判斷向量是分類還是連續數值

R語言——數值預測的一些評價指標

教你不做實驗的發文章技巧：入門Meta分析

10.13 工作中人們常提到的數據預處理，說的到底是什麼？

社科文獻一周新書單（2018.8.27-8.31）

北京西城城管案件聚類分析算法

城管案件聚類分析——以北京西城爲例

聚類分析原理及R語言實現過程

Python之父憤然退位：再也無法忍受他們鄙視我的意見

獨家｜一文解析統計學在機器學習中的重要性（附學習資源）

ICML 2018｜騰訊AI Lab詳解16篇入選論文

暑期課程優惠！

異步社區本周半價電子書

文科僧學習大數據，我告訴你點祕密

TIOBE編程語言榜：C語言持續暴漲，有望趕超Java

學R，別再看那些古董級的中文書了

學者必備！8大免費又實用的科研利器，總有一款適合你！

大數據告訴你我國什麼地方是吃貨聚集地R語言代碼講解

大數據告訴你我國什麼地方吃貨最多，快來看看你們所在城市怎樣

數據分析課程大促銷

TCGA單元課解禁，回關鍵字得課件

金融數據分析師成長必修課，零基礎學習數據分析和金融風控建模

10.25 用R對PVD Rdson偏高的問題進行數據分析

R語言數據特徵分析——統計量分析

R語言數據挖掘實踐——社交網絡分析利器igraph

程式語言的選擇與窮或富裕之間的小祕密

R語言數據挖掘實踐——神經網絡代碼實戰

R語言3種數據分析方法，搬好板凳，記筆記了！

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度