非平衡數據集 focal loss 多類分類

2019-04-24 10:21:44 雷鋒網

本文為 AI 研習社編譯的技術博客，原標題：

Multi-class classification with focal loss for imbalanced datasets

作者 | Chengwei Zhang

翻譯 | 汪鵬校對 | 斯蒂芬·二狗子

審核 | Pita 整理 | 立魚王

原文鏈接：

https://medium.com/swlh/multi-class-classification-with-focal-loss-for-imbalanced-datasets-c478700e65f5

焦點損失函數 Focal Loss（2017年何凱明大佬的論文）被提出用於密集物體檢測任務。它可以訓練高精度的密集物體探測器，哪怕前景和背景之間比例為1：1000（譯者注：facal loss 就是為了解決目標檢測中類別樣本比例嚴重失衡的問題）。本教程將向您展示如何在給定的高度不平衡的數據集的情況下，應用焦點損失函數來訓練一個多分類模型。

背景

讓我們首先了解類別不平衡數據集的一般的處理方法，然後再學習 focal loss 的解決方式。

在多分類問題中，類別平衡的數據集的目標標籤是均勻分佈的。若某類目標的樣本相比其他類在數量上佔據極大優勢，則可以將該數據集視為不平衡的數據集。這種不平衡將導致兩個問題：

訓練效率低下，因為大多數樣本都是簡單的目標，這些樣本在訓練中提供給模型不太有用的信息；
簡單的樣本數量上的極大優勢會搞垮訓練，使模型性能退化。

一種常見的解決方案是執行某種形式的困難樣本挖掘，實現方式就是在訓練時選取困難樣本或使用更復雜的採樣，以及重新對樣本加權等方案。

對具體圖像分類問題，對數據增強技術方案變更，以便為樣本不足的類創建增強的數據。

焦點損失函數旨在通過降低內部加權（簡單樣本）來解決類別不平衡問題，這樣即使簡單樣本的數量很大，但它們對總損失的貢獻卻很小。也就是說，該函數側重於用困難樣本稀疏的數據集來訓練。

將 Focal Loss 應用於欺詐檢測任務

為了演示，我們將會使用 Kaggle上的欺詐檢測數據集構建一個分類器，這個數據及具有極端的類不平衡問題，它包含總共6354407個正常樣本和8213個欺詐案例，兩者比例約為733：1。對這種高度不平衡的數據集的分類問題，若某模型簡單猜測所有輸入樣本為“正常”就可以達到733 /（733 + 1）= 99.86％的準確度，這顯然是不合理。因此，我們需要的是這個模型能夠正確檢測出欺詐案例。

為了證明focal loss 比傳統技術更有效，讓我們建立一個簡單地使用類別權重 class_weight訓練的基準模型，告訴模型“更多地關注”來自代表性不足的欺詐樣本。

基準模型

基準模型的準確率達到了99.87％，略好於通過採取“簡單路線”去猜測所有情況都為“正常”。

我們還繪製了混淆矩陣來展示模型在測試集上的分類性能。你可以看到總共有1140 + 480 = 1620 個樣本被錯誤分類。

混淆矩陣-基準模型

現在讓我們將focal loss應用於這個模型的訓練。你可以在下面看到如何在Keras框架下自定義焦點損失函數focal loss 。

焦點損失函數-模型

焦點損失函數focal loss 有兩個可調的參數。

焦點參數γ（gamma）平滑地調整簡單樣本被加權的速率。當γ= 0時， focal loss 效果與交叉熵函數相同，並且隨著 γ 增加，調製因子的影響同樣增加（γ = 2在實驗中表現的效果最好）。
α（alpha）：平衡focal loss ，相對於非 α 平衡形式可以略微提高它的準確度。

現在讓我們把訓練好的模型與之前的模型進行比較性能。雷鋒網雷鋒網雷鋒網

Focal Loss 模型：

精確度：99.94%
總錯誤分類測試集樣本：766 + 23 = 789，將錯誤數減少了一半。

混淆矩陣-focal loss模型

結論及導讀

在這個快速教程中，我們為你的知識庫引入了一個新的工具來處理高度不平衡的數據集 — Focal Loss。並通過一個具體的例子展示瞭如何在Keras 的 API 中定義 focal loss進而改善你的分類模型。

你可以在我的GitHub上找到這篇文章的完整源代碼。

有關focal loss的詳細情況，可去查閱論文https://arxiv.org/abs/1708.02002。

最初發表於www.dlology.com.

想要繼續查看該篇文章相關鏈接和參考文獻？

點擊【非平衡數據集 focal loss 多類分類】即可訪問：

https://ai.yanxishe.com/page/TextTranslation/1646

AI研習社今日推薦：2019 最新斯坦福 CS224nNLP 課程

自然語言處理（NLP）是信息時代最重要的技術之一，也是人工智能的關鍵部分。NLP的應用無處不在，因為人們幾乎用語言進行交流：網絡搜索，廣告，電子郵件，客戶服務，語言翻譯，醫學報告等。近年來，深度學習方法在許多不同的NLP任務中獲得了非常高的性能，使用單個端到端神經模型，不需要傳統的，任務特定的特徵工程。在本課程中，學生將深入瞭解NLP深度學習的前沿研究。

課程鏈接：https://ai.yanxishe.com/page/groupDetail/59

分享到:

閱讀更多 雷鋒網 的文章

關鍵字: 人工智能平衡自然語言處理

常有泵基礎知識講解，泵的分類，泵的結構講解

詳解高校分類

潔淨室等級標準、分類、基本構成等知識概要

“垃圾男”分類

勁浪(Focal) Diablo Utopia Colour Evo書架喇叭

垃圾要分類，你是什麼垃圾？

健完身下樓倒垃圾，垃圾要分類，做一個好市民

導線的分類、載流量及連接方式詳解

初中化學試題分類考點8——水的組成含解析

電鎖器聯鎖的概念、原理、分類

體質的分類

第22章第1節生物的分類

專業技術職稱分類表

02.24 專業技術職稱分類表

中國大學專業分類表

防火塗料的分類

起重機（行吊）的分類

聲音的分類

11.21 雙電源自動切換電路！4種雙電源自動切換電路圖接法、分類

感冒也分類？要對症下藥

最近很火的渣男分類

漫趣說健康第三集垃圾分類

30頁PPT徹底搞懂UPS原理、分類、運維及電池維護技巧

壁紙｜動畫人物分類分的沒毛病吧

高壓斷路器的型號、分類、技術參數及油

C 運算符分類

2017 NIPS如何在多人圖片中檢測出每個人的人體關節點

Focal 816v新音響進駐我家，現場直拍

熔斷器——簡介、分類、選用原則

聯合航空不提國名改用「貨幣」分類

做自控技術，必須了解低壓接地方式、分類！

08.23 有關有機物燃燒的題型分類解析

垃圾分類—讓臭氣遠離我們的生活

場效應管——分類、結構以及原理

垃圾分類你學會了嗎？

星形細胞瘤分類及影像診斷

羊病最全分類表

07.02 大叔做魚療睡著了，醒來後卻被店老闆要求賠償萬元

電風扇界的一股清流，果然和其他庸脂俗粉都不一樣呢！

這些十大懸索橋有你去過的嗎？中國的懸索橋你知道有哪些嗎？

智能手環概念、分類，你瞭解多少？

隕石：分類，特徵等

06.15 中國最舒服的城市夏天最高28℃ 來了就不想離開

中國最舒服的城市夏天最高28℃ 來了就不想離開

06.14 和平村著力推進垃圾分類工作

玉林狗肉節即將來臨，百萬愛狗人士聯名要求停辦狗肉節

語文知識園中國全部的成語「分類」都在我這裡（值得收藏）

危化品專題—危險化學品分類及注意事項

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

轉念一想，這種看似不正常的狀態才是正常的，隨著時間的推移，很多過去迷迷糊糊的人慢慢就看清了，是進是退跟著內心走就好，別管什麼善始善終，不要被這種論調道德綁架，過段時間，你覺得可以，再回來就行，開關在你自己手裡，一秒鐘就能完成進退。

出海奮鬥是有膽識後浪的更優選項

東南亞11國，除去東帝汶，其他10國組成東盟。東南亞有多熱，從很多國際資本的快速湧入都有目共睹。養老產業：泰國、越南、菲律賓、馬來西亞、印尼都是大受歐美日韓退休人士歡迎的亞洲養老目的地。

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

“非常戰疫

為珠峰“量身高”，為啥要人上去？

6日，2020珠峰高程測量行動測量登山隊舉行出發儀式，30多名計劃登頂的測量登山隊員當日從海拔5200米的珠峰登山大本營向更高海拔出發，計劃抓住近日的天氣窗口，擇日登頂測量。如果成功，這將成為我國專業測繪人員首次登頂珠峰測高。

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

湖南省作為中國中南地區的一個省份，經濟強勁，地位獨特，有著十足的發展後勁。湖南經濟總量在全國排名第九。湖南也是華夏文明的發祥地，境內的炎帝陵，成為華夏兒女尋根祭祖的重要場所。南嶽衡山就在湖南衡陽。湖南張家界景區成為馳名中外的旅遊景點。湖南湘西鳳凰古鎮成為中國馳名十大古鎮之一。

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

《新週刊》創刊於1996年8月18日，由南方出版傳媒股份有限公司主管、主辦，以“中國最新銳的生活方式週刊”為定位，推出過一系列極具影響力的專題報道，是中國期刊市場最具代表性和影響力的雜誌之一，享有“話題策源地”的美譽。

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

每一個大項目其實都會面臨一個問題，那就是生態環境，因為所涉及的範圍實在太廣了，所以需要考慮的問題都是多方面的，三峽就是我國早期的一個超大體量的工程，而三峽所涉及的問題也很多。三峽其實一直都是我國的驕傲，但是關於三峽的質疑聲，其實也一點都不少，特別是關於三峽環境方面的質疑聲。

後疫情時代的五個營銷啟示

現象級白酒——李渡高粱酒，作為沉浸式/場景化營銷的開創者，早在幾年前就使用互聯網工具助力，疫情爆發後一系列的操作自然遊刃有餘了，銷量同比增加170%，線上銷量更是增加400%。

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了金子一直是我們中國人比較喜歡投資的一個東西，黃金飾品也是中國女性非常喜歡購買的東西，大家都知道，金子具有保值的功能，所以很多人既喜歡在銀行購買金條用於投資，又喜歡去一些金店購買黃金飾品。

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了大家都會知道，每到夏天，我們的沿海地區都是一個多風多雨的季節，這時候我們出門也是需要隨時帶上雨具，避免突然有暴風雨這些天氣的出現。

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了每次一到假期，就非常害怕到達火車站，可以說是基本上都是人山人海的感覺。很多人會為了方便去選擇去乘坐動車和高鐵。現在我們無論是出差還是去旅遊也都是會選擇去坐動車，又快又方便，主要還會很舒服。

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

這是肖戰春節後，經歷過這麼多事後首次參加採訪。視頻中他依然是面帶微笑，依舊是少年的樣子。但是眼裡到這故事，說話也變得小心謹慎，談吐措辭也是越來越嚴謹了。

秦山核電應急行動水平優化項目招標公告

從中國電力集採招標網（www.dljczb.

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

從中國電力集採招標網（www.dljczb.

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

從中國電力集採招標網（www.dljczb.

縣域社區團購，在平臺發展上有哪些優勢？

社區團購的迅速發展，已經不再侷限於各大城市中的小區。漸漸的擴大範圍，發展到一些城市邊緣的縣城鄉鎮。像是興盛優選、十薈團、食享會、考拉精選、美家買菜等月流水上億的社區團購頭部企業，都很重視下沉市場的佈局和開拓。

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

戲曲是以古代故事以及現代經典故事為題材的藝術表演，也是歷史悠久的綜合舞臺藝術樣式，表演戲曲難度很高，但戲曲人才依舊人才輩出，說起在戲曲圈中的佼佼者，陳百玲必是其一。

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

這是一幅白菜圖，由4字組成的，1秒看出4個字的智商都很高！你看出來了嗎？

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

這福圖上的圖你能猜對幾個？全猜對眼力非凡，猜對3個眼力160，猜對3個是近視眼！你能猜對幾個字？

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

熊熊火焰中藏了4個字，看出3個算達標，全看出眼力200！你能全部看出來嗎？

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

民以食為天。

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

這幅美女圖中藏了5個漢字，你能不能看出來是哪幾個漢字呢？全部看出來的眼力超群！

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

作為比特幣愛好者，Izabella的父母在她出生當日於《泰晤士報》刊登了一則附帶比特幣地址的小廣告，希望廣大讀者能夠捐出小部分比特幣給他們女兒作為大學教育基金。

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

孫鬆峰：幸福生活唱出來

河南市場安全網訊（www.hnscjgw.com）

衡水：守護一湖碧水打造生態之城

長城網衡水訊（記者張梅勝

英國小夥第一次體驗中國網吧，就被電腦屏幕嚇到直言：這是個啥

網吧其實不管是對於哪個國家的人來說，都是極具吸引力的，而在中國對於八九四年的年輕人和學生來說，網吧簡直就是快樂源泉，但是也是老師家長中的眼中釘，肉中刺。相信很多人小時候可能都有過被家長從網吧裡揪出來的不甚美好的回憶。

微商到底多能吹牛！哈哈哈哈哈千萬別屏蔽，每天都是快樂源泉

雖然有的時候在朋友圈裡有很多微商不停的發朋友圈，讓大家覺得有些困擾和煩悶，有一種私生活被侵擾的感覺。但是不要忙著屏蔽他們，有的時候這些總是吹得天花亂墜的微商也能給人們帶來快樂的源泉。

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度

5月6日，2020珠峰高程測量登山隊伍出發儀式正式舉行，30多名隊員當日從海拔5200米的登山大本營向更高海拔出發，開啟珠峰衝頂測量。隊員們力爭抓住近日的天氣窗口，擇日登頂測量。如果成功，這將是我國專業測繪人員首次登頂珠峰測高。

“十大沂蒙工匠”齊玉祥：鋼花璀璨照亮青春之路

一支焊槍、一面防護罩，鋼花白晝繁星，在刺耳的噪聲中點亮四壁，焊工齊玉祥用13年的青春，打磨出了人生最璀璨的鋼花。2007年，齊玉祥畢業後進入山東華源鍋爐有限公司工作。剛進公司沒多久，由於工作需要，他被分配到了焊接崗位。

日本的丈母孃，賣萌發嗲也是蠻有技術的

國內這點估計是比不過了

消費水平最高的5座城市，北上廣深均在列，另一座你知道是哪嗎？

我們都知道在地大物博的中國，擁有很多城市，而它們之間的等級劃分也都是不同的，等級越高，往往消費就會越高，那麼說起國內消費水平最高的幾座城市，夥伴們都知道是哪裡嗎？接下來就讓小編帶大家去了解一下吧，看看有沒有你心中的那個。

德國愛他美怎麼樣？"斷貨王"愛他美值得買嗎？

哈哈。每次都會用iGepir 姐姐推薦來的，小寶從6個月混養喝起，現在快1歲半了，一直喝愛他美，不上火，購入量大，也算全心全意支持國際媽咪了

廣東有望合併的3座城市：合併成功後，將誕生一座千萬人口的城市

相信大家都知道，目前廣東是中國經濟實力最強的城市，哪怕是國內富有的浙江和江蘇，在經濟上也被廣東牢牢按住。你要知道廣東可是中國唯一有一線城市的省份，而且還是兩座。光靠這一點就能讓全國所有的省份羨慕，但比較遺憾的是，廣東的經濟發展似乎並不平衡。

國外奶粉怎麼樣？去哪買靠譜？線下實體店一定比網店安全嗎？

之前買的一直是國際媽咪的海外倉，但是疫情的緣故怕被吧斷糧所以在海外倉直郵了一箱又在自貿倉補了一箱，反正奶粉是消耗品，不擔心吃不完hhh。自貿倉物流速遞還是很快的，重慶保稅區發貨，4天到達。

四川潛力大的城市：還是重要的恐龍化石產地，被譽為“恐龍之鄉”

對此有的網友說:很多人可能不知道，其實我們自貢還有飛機制造，汽車製造，新能源汽車，及新能源電池研發與製造產業，雖然剛起步，但未來可期!

00後，吾輩當自強

當記者採訪她時，她說了一句讓人永生難忘的話:“其實我們並不是什麼逆行者，只不過是一些普通人在堅守自己的使命。

“我來！”

十天，我應該可以讀完一本《百年孤獨》，應該可以學會用吉他彈一首歌，還應該可以追完一部電視劇《慶餘年》。

東北唯一新一線城市：被譽為“東方魯爾”，經濟卻不如省內地級市

眾所周知這幾年東北的經濟，確實沒有以前增長得那麼快了。原因相信大家也很清楚，簡單點說就是南方更適合發展經濟。因此中國的經濟重心向南移動，所以在未來的幾年甚至幾十年裡面，中國南方的經濟都會比北方強。特別是廣東省跟浙江省的經濟水平，目前已經超越世界上大部分國家了。

人生有尺，做人有度

“救命錢”變“唐僧肉” 扶貧最後一公里處“蠅貪”頻現！

家境殷實的90後海歸女為何“沉迷”偷快遞？

青春洋溢，不加過分修飾，真實的少女感，你喜歡嗎？

4名網友預謀綁架一董事長，匯合後劇情突變……

江蘇的第二個“蘇州”，並非南京和無錫，而是這座低調的城市

說起蘇州的大名，相信是無人不知，無人不曉的，作為我國名副其實的最強地級市，蘇州近些年屬實為人們帶來了很大驚喜，甚至在經濟發展上也已經遠超省會南京，而今天小編要為大家帶來的則是江蘇境內的“第二個蘇州”，發展潛力巨大，並非南京和無錫，而是這座十分低調的城市。

非平衡數據集 focal loss 多類分類

背景

將 Focal Loss 應用於欺詐檢測任務

結論及導讀

相關文章:

常有泵基礎知識講解，泵的分類，泵的結構講解

詳解高校分類

潔淨室等級標準、分類、基本構成等知識概要

“垃圾男”分類

勁浪(Focal) Diablo Utopia Colour Evo書架喇叭

垃圾要分類，你是什麼垃圾？

健完身下樓倒垃圾，垃圾要分類，做一個好市民

導線的分類、載流量及連接方式詳解

初中化學試題分類考點8——水的組成含解析

電鎖器聯鎖的概念、原理、分類

體質的分類

第22章第1節 生物的分類

專業技術職稱分類表

02.24 專業技術職稱分類表

中國大學專業分類表

防火塗料的分類

起重機（行吊）的分類

聲音的分類

11.21 雙電源自動切換電路！4種雙電源自動切換電路圖接法、分類

感冒也分類？要對症下藥

最近很火的渣男分類

漫趣說健康 第三集 垃圾分類

30頁PPT徹底搞懂UPS原理、分類、運維及電池維護技巧

壁紙｜動畫人物分類 分的沒毛病吧

高壓斷路器的型號、分類、技術參數及油

C 運算符分類

2017 NIPS如何在多人圖片中檢測出每個人的人體關節點

Focal 816v新音響進駐我家，現場直拍

熔斷器——簡介、分類、選用原則

聯合航空不提國名改用「貨幣」分類

做自控技術，必須了解低壓接地方式、分類！

08.23 有關有機物燃燒的題型分類解析

垃圾分類—讓臭氣遠離我們的生活

場效應管——分類、結構以及原理

垃圾分類 你學會了嗎？

星形細胞瘤分類及影像診斷

羊病最全分類表

07.02 大叔做魚療睡著了，醒來後卻被店老闆要求賠償萬元

電風扇界的一股清流，果然和其他庸脂俗粉都不一樣呢！

這些十大懸索橋有你去過的嗎？中國的懸索橋你知道有哪些嗎？

智能手環概念、分類，你瞭解多少？

隕石：分類，特徵等

06.15 中國最舒服的城市 夏天最高28℃ 來了就不想離開

中國最舒服的城市 夏天最高28℃ 來了就不想離開

06.14 和平村著力推進垃圾分類工作

玉林狗肉節即將來臨，百萬愛狗人士聯名要求停辦狗肉節

語文知識園中國全部的成語「分類」都在我這裡（值得收藏）

危化品專題—危險化學品分類及注意事項

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

第22章第1節生物的分類

漫趣說健康第三集垃圾分類

壁紙｜動畫人物分類分的沒毛病吧

垃圾分類你學會了嗎？

06.15 中國最舒服的城市夏天最高28℃ 來了就不想離開

中國最舒服的城市夏天最高28℃ 來了就不想離開

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度