高分論文分析方法—判別分析原理及R語言實現

2018-07-30 11:36:38 畢業零距離

判別分析做的好的話能提高論文質量，挖掘數據最大的價值，為論文加分。判別分析（discriminat analysis）他要解決的問題是在一些已知研究對象已經用某種方法分成若干類的情況下，確定新的樣品屬於已知類別中的哪一類。如已知健康人和冠心病人的血壓、血脂等資料，以此建立判別函數，對新樣品分類進行預測。在模式識別領域（比如人臉識別，艦艇識別等圖形圖像識別領域）中有非常廣泛的應用。判別分析在處理問題時，通常要給出一個衡量新樣品與各已知類別接近程度的描述統計模型，即判別函數，同時也需要指定一種判別規則，以判斷新樣品的歸屬。判別規則可以是確定性的也可以是統計性的分別對應Fisher判別和Bayes判別。今天明明同學給大家講講《判別分析原理及R語言實現》。

1、線性判別分析

提出:

最早由fisher（1936）提出，用於花卉分類上，將花卉的各種特徵（如花瓣長與寬，花萼長與寬等）利用線性組合方法變成單變量值，再以單值比較方法來判別事物間的差別。

示例：

以兩類判別為例說明。設有兩類樣品，分別為n1,n2個樣品，各測得p個指標，觀察值如下表所示。

可以預設線性判別函數為Y = a1X1+ a2X2+……+ apXp = a'X 。使得該判別函數能根據指標X1，X2，XP 之值區分各樣品歸屬哪一類。

步驟：

1、求Fisher線性判別函數（Fisher線性判別準則要求各類之間的變異儘可能地大，而各類內部的變異儘可能地小，變異用離均差平方和表示）

2、計算判別界值（求的ai後，代入判別函數式即得判別函數）

3、建立判別標準

下面舉例說明R語言實現過程。

例1：根據經驗，今天和昨天氣溫差x1和x2是預報明天下雨或不下雨的兩個重要因子，實驗記錄如下表格，試問，今天測得x1=8.1，x2=2.0，明天應該預報下雨還是晴天？

R語言中進行線性判別得函數為lda()

形式如下:

lda(formula , data，……)

formula和上次明明同學介紹的迴歸分析中的形式一樣。

Data為數據框。

1、首先把數據加載到R語言中，然後畫出數據散點圖，初步觀察數據分佈。

R語言代碼

原始數據散點圖

2、建立判別函數

R語言代碼

3、用訓練的判別函數對源數據進行檢測

R語言代碼

由結果可知，兩類中分別有一個判別錯誤，判對的共有18對。判對率為18/20=90%

4、構造混淆矩陣，求出判對率

R語言代碼

由這個結果也可以看出，判對率為90%。求出的判別函數為y=-0.1035x1+0.2248x2 。

畫出分類線為：

兩類判別分類線

5、對新數據進行預測

R語言代碼

由結果可以看出，當x1 = 8.1 ， x2 = 2.0 時，明天天氣分類為1，即明天天氣為下雨。

把新點添加到圖層，查看可視化效果，圖中箭頭指向的黑色點就是新點。也可以看出，該點落在有雨的類別中。

新點加入原始圖直觀觀察分類

2、距離判別分析

距離判別的基本思想：

根據已知分類的數據，分別計算各類的重心，即各組的均值。距離判別的準則是：對任給的一次觀測，若它與第i類的重心距離最近，就認為它來自第i類。通常採用馬氏距離進行判別。

判別標準：

設有兩總體G1、G2，從第一個總體中抽取n1個樣品，從第二個總體中抽取n2個樣品，對每個樣品測量P個指標。任取一個樣品實測指標為X =(x1，x2，…… ，xp)'。分別計算樣品X到總體G1、G2的距離D（X , G1）和D（X , G2）,按距離最近準則判別歸類。即：

在R語言中利用WeDiBaDis包可以實現加權馬氏距離判別分析。

下面舉例說明R語言實現過程。

從市場上隨機抽取了20中牌子的電視機進行調查。按照電視機的質量評分、功能評分、銷售價格以及銷售情況（共兩種，暢銷和滯銷）進行如下統計。

現有一新廠商來推銷其產品，質量評分8.0，功能評分7.5，售價65百元。該廠商的場景如何？

R語言實現過程：

1）載入數據，分析數據呈現方式

R語言代碼

質量和功能散點圖

質量和售價散點圖

功能和售價散點圖

2）、導入WeDiBaDis包，建立馬氏距離模型。使用WDBdisc ()函數建立模型。

WDBdisc函數結構為：

WDBdisc(data, datatype, classcol, new.ind, distance, type, method)

Data: 一個訓練數據矩陣或者訓練數據距離矩陣。

Datatype：如果數據是數據矩陣，則datatype = "m"，如果數據是距離矩陣，則datatype = "d"。

Classcol：分類變量所在的列，默認為第一列。

new.ind：為測試數據，可選參數，如果需要測試新數據的話需要加上。

distance: 判別分析採用的距離方法。默認為歐式距離。可選"correlation" , "Bhattacharyya", "Gower", "Mahalanobis", "BrayCurtis", "Orloci", "Hellinger"or "Prevosti"。

type: 如果距離為"Gower"距離，則需要該參數。該參數是一個列表。

Method：判別分析採用的方法，為"DB" 或者"WDB"，默認為"WDB"。

R語言代碼

判別結果

由此可見訓練結果可知，類別1有兩個判錯的，類別2有一個判錯的，判對率為85%。

新數據代入模型，判斷新類別的分類。

預測結果

由預測結果可知，新類別所屬分類為1，即新廠商推廣的產品為暢銷，新廠商前景比較樂觀。

3、二次判別分析

當多總體之間的協方差矩陣不相同時，距離判別函數為非線性形式，一般為二次函數。R語言中用MASS包裡的qda()函數來建立模型。

qda()函數書寫形式和lda一樣，這裡明明同學簡單略過。你們可以回頭看看線性判別函數lda()書寫。

本次還以距離判別的數據為例，用二次判別建立模型，看看模型判對率。

R語言代碼

結果如下：

二判別結果

原始數據和預測數據對比結果

判對率

由此可見，我們給定的20個樣本訓練數據訓練的模型全部判對。判對率為100%。由此可見應用二次判別比馬氏距離判別效果好。

4、 Bayes判別分析

前面講的幾種判別分析方法計算簡單，結果明確，比較實用。但是存在兩個缺點，

一是判別方法與總體各自出現的概率大小完全無關；二是判別方法與錯判後造成的損失無關，這些都不盡合理。Bayes判別則是很好的考慮了這兩個因素而提出的一種判別方法。

我們還以二次判別分析的例子用bayes建模。

1、假設先驗概率相等，即q1=q2=1/2，此時判別函數等價於fisher線性判別函數。

先驗概率相等的R語言代碼和判別結果

2、先驗概率不一樣，取q1=13/20 , q2=7/20，然後建立bayes判別函數

先驗概率不相等的R語言代碼和判別結果

由於我們樣本數據少的原因，本結果中無論是先驗概率一樣還是先驗概率不一樣的bayes判別都對本實驗數據完美的進行了判別。判別結果好過馬氏距離判別分析。

由於篇幅有限，本文關於各種判別函數的建立與推導並沒有寫出，希望大家自己查看資料學習。學習更多R語言數據分析使用技巧、EXCEL和PPT製作教程請查看歷史文章。

有任何問題可以私信明明同學，幫助你解決數據分析，PPT製作，論文做圖、以及高質量圖片處理的難處。

分享到:

閱讀更多 畢業零距離 的文章

關鍵字: XP 已知論文

數據統計的理解和運用（二）t檢驗的應用

數據統計的理解和運用（一）思路篇

大佬新作dtplyr:當優秀的語法遇上牛批的速度

R爬蟲小白入門：Rvest爬鏈家網+分析（三）

R語言中文社區2018年終文章整理（作者篇）

一圖勝千言：用好圖表，好好說話

R語言——保存圖片

R語言——apply族的其他幾個兄弟

R語言實現基本統計分析之t檢驗

備受推崇的《R語言實戰》真的值得如此好評嗎？

「R語言實用技巧」類別變量的順序自定義設置

多元線性迴歸預測：餐館營業額與多因素實戰

R語言——公式還原到源數據

R語言——手工做個線性迴歸模型

R語言——廣義逆矩陣能怎麼用咧

R語言——畫曲線和網格線

Graphpad Prism 8.0繪製小提琴圖

2018大盤點｜R語言中文社區十大火爆文章

R語言——判斷向量是分類還是連續數值

R語言——數值預測的一些評價指標

教你不做實驗的發文章技巧：入門Meta分析

10.13 工作中人們常提到的數據預處理，說的到底是什麼？

社科文獻一周新書單（2018.8.27-8.31）

北京西城城管案件聚類分析算法

城管案件聚類分析——以北京西城爲例

聚類分析原理及R語言實現過程

Python之父憤然退位：再也無法忍受他們鄙視我的意見

獨家｜一文解析統計學在機器學習中的重要性（附學習資源）

ICML 2018｜騰訊AI Lab詳解16篇入選論文

暑期課程優惠！

異步社區本周半價電子書

文科僧學習大數據，我告訴你點祕密

TIOBE編程語言榜：C語言持續暴漲，有望趕超Java

學R，別再看那些古董級的中文書了

學者必備！8大免費又實用的科研利器，總有一款適合你！

大數據告訴你我國什麼地方是吃貨聚集地R語言代碼講解

大數據告訴你我國什麼地方吃貨最多，快來看看你們所在城市怎樣

數據分析課程大促銷

TCGA單元課解禁，回關鍵字得課件

金融數據分析師成長必修課，零基礎學習數據分析和金融風控建模

10.25 用R對PVD Rdson偏高的問題進行數據分析

R語言數據特徵分析——統計量分析

R語言數據挖掘實踐——社交網絡分析利器igraph

程式語言的選擇與窮或富裕之間的小祕密

R語言數據挖掘實踐——神經網絡代碼實戰

R語言3種數據分析方法，搬好板凳，記筆記了！

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

轉念一想，這種看似不正常的狀態才是正常的，隨著時間的推移，很多過去迷迷糊糊的人慢慢就看清了，是進是退跟著內心走就好，別管什麼善始善終，不要被這種論調道德綁架，過段時間，你覺得可以，再回來就行，開關在你自己手裡，一秒鐘就能完成進退。

出海奮鬥是有膽識後浪的更優選項

東南亞11國，除去東帝汶，其他10國組成東盟。東南亞有多熱，從很多國際資本的快速湧入都有目共睹。養老產業：泰國、越南、菲律賓、馬來西亞、印尼都是大受歐美日韓退休人士歡迎的亞洲養老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

“非常戰疫

為珠峰“量身高”，為啥要人上去？

6日，2020珠峰高程測量行動測量登山隊舉行出發儀式，30多名計劃登頂的測量登山隊員當日從海拔5200米的珠峰登山大本營向更高海拔出發，計劃抓住近日的天氣窗口，擇日登頂測量。如果成功，這將成為我國專業測繪人員首次登頂珠峰測高。

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

湖南省作為中國中南地區的一個省份，經濟強勁，地位獨特，有著十足的發展後勁。湖南經濟總量在全國排名第九。湖南也是華夏文明的發祥地，境內的炎帝陵，成為華夏兒女尋根祭祖的重要場所。南嶽衡山就在湖南衡陽。湖南張家界景區成為馳名中外的旅遊景點。湖南湘西鳳凰古鎮成為中國馳名十大古鎮之一。

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

《新週刊》創刊於1996年8月18日，由南方出版傳媒股份有限公司主管、主辦，以“中國最新銳的生活方式週刊”為定位，推出過一系列極具影響力的專題報道，是中國期刊市場最具代表性和影響力的雜誌之一，享有“話題策源地”的美譽。

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

每一個大項目其實都會面臨一個問題，那就是生態環境，因為所涉及的範圍實在太廣了，所以需要考慮的問題都是多方面的，三峽就是我國早期的一個超大體量的工程，而三峽所涉及的問題也很多。三峽其實一直都是我國的驕傲，但是關於三峽的質疑聲，其實也一點都不少，特別是關於三峽環境方面的質疑聲。

後疫情時代的五個營銷啟示

現象級白酒——李渡高粱酒，作為沉浸式/場景化營銷的開創者，早在幾年前就使用互聯網工具助力，疫情爆發後一系列的操作自然遊刃有餘了，銷量同比增加170%，線上銷量更是增加400%。

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了金子一直是我們中國人比較喜歡投資的一個東西，黃金飾品也是中國女性非常喜歡購買的東西，大家都知道，金子具有保值的功能，所以很多人既喜歡在銀行購買金條用於投資，又喜歡去一些金店購買黃金飾品。

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了大家都會知道，每到夏天，我們的沿海地區都是一個多風多雨的季節，這時候我們出門也是需要隨時帶上雨具，避免突然有暴風雨這些天氣的出現。

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了每次一到假期，就非常害怕到達火車站，可以說是基本上都是人山人海的感覺。很多人會為了方便去選擇去乘坐動車和高鐵。現在我們無論是出差還是去旅遊也都是會選擇去坐動車，又快又方便，主要還會很舒服。

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

這是肖戰春節後，經歷過這麼多事後首次參加採訪。視頻中他依然是面帶微笑，依舊是少年的樣子。但是眼裡到這故事，說話也變得小心謹慎，談吐措辭也是越來越嚴謹了。

秦山核電應急行動水平優化項目招標公告

從中國電力集採招標網（www.dljczb.

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

從中國電力集採招標網（www.dljczb.

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

從中國電力集採招標網（www.dljczb.

縣域社區團購，在平臺發展上有哪些優勢？

社區團購的迅速發展，已經不再侷限於各大城市中的小區。漸漸的擴大範圍，發展到一些城市邊緣的縣城鄉鎮。像是興盛優選、十薈團、食享會、考拉精選、美家買菜等月流水上億的社區團購頭部企業，都很重視下沉市場的佈局和開拓。

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

戲曲是以古代故事以及現代經典故事為題材的藝術表演，也是歷史悠久的綜合舞臺藝術樣式，表演戲曲難度很高，但戲曲人才依舊人才輩出，說起在戲曲圈中的佼佼者，陳百玲必是其一。

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

這是一幅白菜圖，由4字組成的，1秒看出4個字的智商都很高！你看出來了嗎？

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

這福圖上的圖你能猜對幾個？全猜對眼力非凡，猜對3個眼力160，猜對3個是近視眼！你能猜對幾個字？

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

熊熊火焰中藏了4個字，看出3個算達標，全看出眼力200！你能全部看出來嗎？

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

民以食為天。

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

這幅美女圖中藏了5個漢字，你能不能看出來是哪幾個漢字呢？全部看出來的眼力超群！

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

作為比特幣愛好者，Izabella的父母在她出生當日於《泰晤士報》刊登了一則附帶比特幣地址的小廣告，希望廣大讀者能夠捐出小部分比特幣給他們女兒作為大學教育基金。

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

孫鬆峰：幸福生活唱出來

河南市場安全網訊（www.hnscjgw.com）

衡水：守護一湖碧水打造生態之城

長城網衡水訊（記者張梅勝

英國小夥第一次體驗中國網吧，就被電腦屏幕嚇到直言：這是個啥

網吧其實不管是對於哪個國家的人來說，都是極具吸引力的，而在中國對於八九四年的年輕人和學生來說，網吧簡直就是快樂源泉，但是也是老師家長中的眼中釘，肉中刺。相信很多人小時候可能都有過被家長從網吧裡揪出來的不甚美好的回憶。

微商到底多能吹牛！哈哈哈哈哈千萬別屏蔽，每天都是快樂源泉

雖然有的時候在朋友圈裡有很多微商不停的發朋友圈，讓大家覺得有些困擾和煩悶，有一種私生活被侵擾的感覺。但是不要忙著屏蔽他們，有的時候這些總是吹得天花亂墜的微商也能給人們帶來快樂的源泉。

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程測量登山隊伍出發儀式正式舉行，30多名隊員當日從海拔5200米的登山大本營向更高海拔出發，開啟珠峰衝頂測量。隊員們力爭抓住近日的天氣窗口，擇日登頂測量。如果成功，這將是我國專業測繪人員首次登頂珠峰測高。

“十大沂蒙工匠”齊玉祥：鋼花璀璨照亮青春之路

一支焊槍、一面防護罩，鋼花白晝繁星，在刺耳的噪聲中點亮四壁，焊工齊玉祥用13年的青春，打磨出了人生最璀璨的鋼花。2007年，齊玉祥畢業後進入山東華源鍋爐有限公司工作。剛進公司沒多久，由於工作需要，他被分配到了焊接崗位。

日本的丈母孃，賣萌發嗲也是蠻有技術的

國內這點估計是比不過了

消費水平最高的5座城市，北上廣深均在列，另一座你知道是哪嗎？

我們都知道在地大物博的中國，擁有很多城市，而它們之間的等級劃分也都是不同的，等級越高，往往消費就會越高，那麼說起國內消費水平最高的幾座城市，夥伴們都知道是哪裡嗎？接下來就讓小編帶大家去了解一下吧，看看有沒有你心中的那個。

德國愛他美怎麼樣？"斷貨王"愛他美值得買嗎？

哈哈。每次都會用iGepir 姐姐推薦來的，小寶從6個月混養喝起，現在快1歲半了，一直喝愛他美，不上火，購入量大，也算全心全意支持國際媽咪了

廣東有望合併的3座城市：合併成功後，將誕生一座千萬人口的城市

相信大家都知道，目前廣東是中國經濟實力最強的城市，哪怕是國內富有的浙江和江蘇，在經濟上也被廣東牢牢按住。你要知道廣東可是中國唯一有一線城市的省份，而且還是兩座。光靠這一點就能讓全國所有的省份羨慕，但比較遺憾的是，廣東的經濟發展似乎並不平衡。

國外奶粉怎麼樣？去哪買靠譜？線下實體店一定比網店安全嗎？

之前買的一直是國際媽咪的海外倉，但是疫情的緣故怕被吧斷糧所以在海外倉直郵了一箱又在自貿倉補了一箱，反正奶粉是消耗品，不擔心吃不完hhh。自貿倉物流速遞還是很快的，重慶保稅區發貨，4天到達。

四川潛力大的城市：還是重要的恐龍化石產地，被譽為“恐龍之鄉”

對此有的網友說:很多人可能不知道，其實我們自貢還有飛機制造，汽車製造，新能源汽車，及新能源電池研發與製造產業，雖然剛起步，但未來可期!

00後，吾輩當自強

當記者採訪她時，她說了一句讓人永生難忘的話:“其實我們並不是什麼逆行者，只不過是一些普通人在堅守自己的使命。

“我來！”

十天，我應該可以讀完一本《百年孤獨》，應該可以學會用吉他彈一首歌，還應該可以追完一部電視劇《慶餘年》。

東北唯一新一線城市：被譽為“東方魯爾”，經濟卻不如省內地級市

眾所周知這幾年東北的經濟，確實沒有以前增長得那麼快了。原因相信大家也很清楚，簡單點說就是南方更適合發展經濟。因此中國的經濟重心向南移動，所以在未來的幾年甚至幾十年裡面，中國南方的經濟都會比北方強。特別是廣東省跟浙江省的經濟水平，目前已經超越世界上大部分國家了。

人生有尺，做人有度

“救命錢”變“唐僧肉” 扶貧最後一公里處“蠅貪”頻現！

家境殷實的90後海歸女為何“沉迷”偷快遞？

青春洋溢，不加過分修飾，真實的少女感，你喜歡嗎？

4名網友預謀綁架一董事長，匯合後劇情突變……

江蘇的第二個“蘇州”，並非南京和無錫，而是這座低調的城市

說起蘇州的大名，相信是無人不知，無人不曉的，作為我國名副其實的最強地級市，蘇州近些年屬實為人們帶來了很大驚喜，甚至在經濟發展上也已經遠超省會南京，而今天小編要為大家帶來的則是江蘇境內的“第二個蘇州”，發展潛力巨大，並非南京和無錫，而是這座十分低調的城市。

高分論文分析方法—判別分析原理及R語言實現

目錄：

1、線性判別分析

步驟：

下面舉例說明R語言實現過程。

2、距離判別分析

下面舉例說明R語言實現過程。

1）載入數據，分析數據呈現方式

2）、導入WeDiBaDis包，建立馬氏距離模型。使用WDBdisc ()函數建立模型。

3、二次判別分析

4、 Bayes判別分析

相關文章: