09.15 「週末AI課堂」理解損失函數（理論篇）機器學習你會遇到的“坑”

2018-09-15 22:38:28 讀芯術

數學準備

連續隨機變量的期望：假設X是連續的隨機變量，f(X)是其概率密度函數，那麼X的期望是：

0-1損失函數：當f(x)=y時，等於1，當f(x)≠y時，等於0。

性能度量與損失函數

機器學習的三要素就是：表示，評估和優化。正如我們在《非參數模型》中提到的：

機器學習分為表示、評估和優化。表示指的是將樣本空間映射到一個合適的特徵空間，一般地，我們更青睞於這樣的表示是低維度的，是更加稀疏交互的，同時也希望是相互獨立的。而評估指的是模型在數據上表現的量化形式，我們選取合適的函數來表示什麼樣子的模型是好的，性能度量就是評估。在前兩步都完成了以後，最後要做的就是優化，就是對評估函數進行求解，找出最合適的解，來確定最終的模型。

所謂的性能度量（performance measure）就是關於真實值和預測值的關係，真實值與預測值越接近，或者說真實的分佈與預測分佈越接近，性能越好。對於迴歸問題，我們可以選用均方誤差（mean squared error），絕對誤差（absolute Loss），決定係數（coefficient of determination ）以及Huber Loss來度量模型的性能，對於分類問題，我們可以用準確率，錯誤率，或者得到混淆矩陣，進一步得到查準率（precision）、查全率（recall）以及P-R曲線和ROC曲線。

我們可以很容易想到，損失函數（Loss function）也是這樣一回事情，真實值與預測值差別越大，Loss越大，我們的優化的目標就是減小Loss。從評估的角度來說，損失函數和性能度量所起到的作用是相同的，那麼我們為什麼既要有損失函數，也有要性能評估呢？事實上，常見的均方誤差：

既可以被當作性能度量，同時也是迴歸問題的損失函數。但在更多的問題中，我們會發現，我們往往會為了減小模型的錯誤率，並不直接優化錯誤率，而是會優化另一個函數，比如在logistic迴歸中，我們會優化對數似然，在SVM中，我們會優化hinge loss，在adaboost中會優化指數損失。

期望風險與經驗風險

以二分類問題為例，我們的錯誤率，也就是0-1損失函數，可以定義為:

如果我們的模型f攜帶參數θ，那麼我們的任務可以是找到最佳的θ：

但這樣的函數並不是連續的，因為參數的變化會反映到錯誤率上，而錯誤率的變化不可能是連續的，當我們預測對樣本每增加一個，錯誤率就會躍變1/m，如果我們採用梯度下降或者牛頓法去優化，就會利用到它的一階導數甚至二階導數，會發現導數根本不存在。

所以損失函數一定要是連續的，這是尋找損失函數的第一個條件。此外，根本性的問題在於，我們想優化的根本不是經驗風險，所謂的經驗風險，如同上式，是定義在訓練集上的樣本上損失；我們真正想優化的是期望風險，定義在全部樣本（包含測試集）的損失，用期望來表示：

將其拆開就是：

但是概率分佈P(x,y)未知的話，我們連期望風險都無法計算，更無法將其最小化。但我們使用的數據越多，根據大數定律，期望風險也就越接近於經驗風險，注意到，我們的聯合分佈還可以寫為：

聯合分佈可以被拆為先驗概率和條件概率。但是當我們可以假設模型的概率分佈時，比如線性迴歸假設了高斯分佈，logistic迴歸假設了伯努利分佈，我們就可以利用極大似然估計來逼近期望風險，這也叫做一致性（consistency ），這個是我們尋找損失的函數第二個條件。

如果是連續的凸函數，在0處可導，且導數小於零，就具備與0-1損失函數的一致性，我們把這些損失函數叫做替代損失（Surrogate loss），值得注意的是，這是我們選用凸函數的最重要的原因，雖然凸函數具備局部最小值就是全局最小值的性質，但主要是為了計算上的便利，而非本質意義上的。

如圖，除去Perceptron Loss（我們會在後續的深度學習中講解）,其餘的Loss function均可以給出0-1損失的上界，也就是說，在優化替代損失的時候，也就優化了原本的損失函數。

結構風險與正則化

我們在《貝葉斯的迴歸模型》中曾經把嶺迴歸的正則化項歸結於高斯先驗，把LASSO的正則化項歸結於拉普拉斯先驗，那麼從損失函數的構造角度來看，所謂正則化項，描述的其實是模型的複雜度，模型的複雜度越高，過擬合的風險也就越大，所謂的結構風險就是指模型本身結構的複雜度。添加結構風險的Loss Function一般形式就是：

結構風險加上經驗風險，是在數據量有限的情況下，為了更好的近似期望風險的策略，這一策略的本質意義是，是希望在模型擬合數據能力和複雜度之間取得平衡，擬合數據相同的模型，我們偏向於複雜度低的模型，複雜度相同的模型，我們偏向於擬合得好的模型。雖然我們早就知道了正則化，但從這樣的思路去理解正則話會使得我們在神經網絡這樣解釋能力極差的模型中，也可以添加相應對連接權重的正則化項：

讀芯君開扒

課堂TIPS

• 有人認為，凸函數在統計學習中最好的性質就是局部最優即全局最優，這樣算法就不用擔心其會陷入局部最優而非全局最優，但在神經網絡這樣極其複雜的參數空間中，我們有充足的理由不去過分擔心全局最優的問題。從這個意義上來說，尋找一致性的連續的損失函數才是最關鍵的問題。

• 對於某些模型，結構風險天然就被包含在了模型之中，比如SVM，它的結構風險項是劃分超平面間隔的大小。

• 有的人認為，什麼模型就只能用什麼損失函數，因為其他的損失函數，書上沒有講過，這樣的看法是片面的，logistic迴歸這樣一種廣義的線性模型也可以用平方損失函數，只是平方損失並不會滿足一致性，得到的結果無法改善原來的損失。

我們一起探討AI落地的最後一公里

分享到:

閱讀更多 讀芯術 的文章

關鍵字: 數學人工智能真實

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

09.15 「週末AI課堂」理解損失函數（理論篇）機器學習你會遇到的“坑”

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

為什麼車子越開越肉？

為什麼有些人對“兩桶油”有這麼大的意見？

珠海航展怎麼沒有殲31？

有人說暖風不耗油，為什麼有的車開了暖風后油耗突然增多？

我國殲10B驗證的矢量推力技術與蘇35的矢量推力技術，哪個更先進？

徐根寶稱武磊現在還算不上球星，希望老天讓我培養出一位中場核心，對此你怎麼看？

CBA第八輪，廣東隊最後時刻領先福建隊10分，杜潤旺最後一球該不該投？你怎麼看？

歐冠小組賽第4輪全部結束，積分榜和射手榜有什麼變化？各小組的出線形勢如何？

錦州有什麼好吃的？

北京有哪些名副其實的百年老餐館？

武漢一對男女站在鐵軌上爭吵逼停3輛火車，3名火車司機相繼下車勸架，對此你怎麼看？

CBA第八輪，深圳隊主場迎戰福建隊的挑戰，你更看好誰？為什麼？

騰訊體育11月6日報道，有人說王仕鵬在新疆對山東的比賽中，極力偏袒新疆的解說，你怎麼看？

如果油價十個工作日內降到39.9美元，國內油價將會怎樣？

當年郝海東曾說：“只要有范志毅在，我就不去國家隊報到”，郝範到底有什麼矛盾？

巴特勒3+1倒地，羅斯從最遠處跑去把巴特勒拉起來，你如何評價羅斯這個舉動？

出租車是我拿錢買的，有交通局開票據公章，合同規定車輛歸乙方所有，怎麼變成公司的？

在中國，講客家話的人多嗎？這些人主要居住在哪些地方呢？

全民養老金按照鄉鎮、縣市和省會分別發放300、600和900可行嗎？為什麼？

古代四川為何多叛亂？

如何評價電影《白色虎式》？白色虎式真的存在嗎？

為什麼單位給繳費社保，在社保局沒有交易記錄，有哪些原因？

貴州省銅仁市發生過哪些著名的歷史事件？

如何預測2018年12月的豬價？

如果二戰期間的日軍與德軍直接PK會是什麼結果？

世界俱樂部排名出爐：尤文取代皇馬登頂榜首，球迷稱C羅又要背鍋，你怎麼看？

名記曝今年中超或僅降一隊，集訓隊明年踢中超擴軍成18隊，你怎麼看？

火腿是怎樣做的呢？怎樣吃才是最好吃的呢？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪