機器學習-數學知識大全_科技 _ 頭條網

常見函數

常函數:

一次函數:

二次函數:

冪函數:

指數函數:

，a的取值範圍為: a>0&a≠1

對數函數:

, a的取值範圍為: a>0&a≠1

對數的運算

指數的運算

導數

一個函數在某一點的導數描述了這個函數在這一點附近的變化率，也可以認為是函數在某一點的導數就是該函數所代表的曲線在這一點的切線斜率。導數值越大，表示函數在該點處的變化越大。定義：當函數y=f(x)在自變量x=x0上產生一個增量Δx時，函數輸出值的增量Δy和自變量增量Δx之間的比值在Δx趨近與0的時候存在極限值a，那麼a即為函數在x0處的導數值。

常見的導函數

偏導數

在一個多變量的函數中，偏導數就是關於其中一個變量的導數而保持其它變量恆定不變。假定二元函數z=f(x,y)，點(x0,y0)是其定義域內的一個點，將y固定在y0上，而x在x0上增量Δx，相應的函數z有增量Δz=f(x0+Δx, y0) - f(x0,y0)；Δz和Δx的比值當Δx的值趨近於0的時候，如果極限存在，那麼此極限值稱為函數z=f(x,y)在處對x的偏導數(partial derivative)

z=x2+xy2 在（2,1）處的對x的偏導數=？

梯度

梯度：梯度是一個向量，表示某一函數在該點處的方向導數沿著該方向取的最大值，即函數在該點處沿著該方向變化最快，變化率最大(即該梯度向量的模)

泰勒公式

Taylor(泰勒)公式是用一個函數在某點的信息描述其附近取值的公式。如果函數足夠平滑，在已知函數在某一點的各階導數值的情況下，Taylor公式可以利用這些導數值來做係數構建一個多項式近似函數在這一點的鄰域中的值。

若函數f(x)在包含x0的某個閉區間[a,b]上具有n階函數，且在開區間(a,b)上具有n+1階函數，則對閉區間[a,b]上任意一點x，有Taylor公式如下：

簡言之：利用x0點的導數信息來近似逼近該點鄰域的原函數。

Taylor公式的應用

古典概率

概率是以假設為基礎的，即假定隨機現象所發生的事件是有限的、互不相容的，而且每個基本事件發生的可能性相等。一般來講，如果在全部可能出現的基本事件範圍內構成事件A的基本事件有a個，不構成事件A的有b個，那麼事件A出現的概率為：

概率體現的是隨機事件A發生可能的大小度量(數值)

聯合概率

表示兩個事件共同發生的概率，事件A和事件B的共同概率記作：P(AB)、P(A,B) 或者P(A∩B)，讀作“事件A和事件B同時發生的概率”

條件概率

事件A在另外一個事件B已經發生的條件下的發生概率叫做條件概率，表示為P(A|B)，讀作 “在B條件下A發生的概率“ ，一般情況下 P(A|B)≠P(A)，而且條件概率具有三個特性：

非負性,可列性,可加性

將條件概率公式由兩個事件推廣到任意有窮多個事件時，可以得到如下公式，假設A1，A2，....，An為n個任意事件(n≥2)，而且P(A1A2 ...An )>0，則：

全概率公式

樣本空間Ω有一組事件A1、A2 ...An , 如果事件組滿足下列兩個條件，那麼事件組稱為樣本空間的一個劃分：

設事件{Aj}是樣本空間Ω的一個劃分，且P(Ai)>0，那麼對於任意事件B，全概率公式為:

貝葉斯公式

設A1、A2 ...An是樣本空間Ω的一個劃分，如果對任意事件B而言，有P(B)>0，那麼：

貝葉斯的推導

期望

期望(mean)：也就是均值，是概率加權下的“平均值” ，是每次可能結果的概率乘以其結果的總和，反映的實隨機變量平均取值大小。常用符號μ表示：

連續性數據:

離散性數據:

假設C為一個常數，X和Y實兩個隨機變量，那麼期望有一下性質：

方差

方差(variance)是衡量隨機變量或一組數據時離散程度的度量，是用來度量隨機變量和其數學期望之間的偏離程度。即方差是衡量數據原數據和期望/均值相差的度量值。

假設C為一個常數，X和Y實兩個隨機變量，那麼方差有一下性質

標準差

標準差(Standard Deviation)是離均值平方的算術平均數的平方根，用符號σ表示，其實標準差就是方差的算術平方根。

標準差和方差都是測量離散趨勢的最重要、最常見的指標。標準差和方差的不同點在於，標準差和變量的計算單位是相同的，比方差清楚，因此在很多分析的時候使用的是標準差。

協方差

協方差常用於衡量兩個變量的總體誤差；當兩個變量相同的情況下，協方差其實就是方差。

如果X和Y是統計獨立的，那麼二者之間的協方差為零。但是如果協方差為零，那麼X和Y是不相關的。

假設C為一個常數，X和Y實兩個隨機變量，那麼協方差有性質如下所示：

協方差是兩個隨機變量具有相同方向變化趨勢的度量：

若Cov(X,Y) > 0, 則X和Y的變化趨勢相同；

若Cov(X,Y) < 0, 則X和Y的變化趨勢相反；

若Cov(X,Y) = 0，則X和Y不相關，也就是變化沒有什麼相關性

協方差矩陣

對於n個隨機向量(X1 ,X2 ,X3 ....Xn ), 任意兩個元素Xi和Xj都可以得到一個協方差，從而形成一個n*n的矩陣，該矩陣就叫做協方差矩陣，協方差矩陣為對稱矩陣。

大數定理

大數定律的意義：隨著樣本容量n的增加，樣本平均數將接近於總體平均數(期望 μ)，所以在統計推斷中，一般都會使用樣本平均數估計總體平均數的值。

也就是我們會使用一部分樣本的平均值來代替整體樣本的期望/均值，出現偏差的可能是存在的，但是當n足夠大的時候，偏差的可能性是非常小的，當n無限大的時候，這種可能性的概率基本為0。

大數定律的主要作用就是為使用頻率來估計概率提供了理論支持；為使用部分數據來近似的模擬構建全部數據的特徵提供了理論支持。

中心極限定理

中心極限定理就是一般在同分布的情況下，抽樣樣本值的規範和在總體數量趨於無窮時的極限分佈近似於正態分佈

隨機的拋六面的骰子，計算三次的點數的和, 三次點數的和其實就是一個事件A，現在問事件A 發生的概率以及事件A 所屬的分佈是什麼?

最大似然估計

最大似然法(Maximum Likelihood Estimation, MLE)也稱為最大概似估計、極大似然估計，是一種具有理論性的參數估計方法。基本思想是：當從模型總體隨機抽取n組樣本觀測值後，最合理的參數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大；一般步驟如下：

1. 寫出似然函數；

2. 對似然函數取對數，並整理；

3. 求導數；

4. 解似然方程

設總體分佈為f(x,θ), {Xn}為該總體採樣得到的樣本。因為隨機序列{Xn}獨立同分布，則它們的聯合密度函數為：

這裡θ被看做固定但是未知的參數，反過來，因為樣本已經存在，可以看做{Xn} 是固定的，L(x,θ)是關於θ的函數，即似然函數；求參數θ的值，使得似然函數取最大值，這種方法叫做最大似然估計法。

若給定一組樣本{Xn}，已知隨機樣本符合高斯分佈N(μ,σ^2)，試估計σ和μ的值

分佈的概率函數：

最大似然函數的乘積：

對數似然：

化簡：

要求似然函數l(x)最大，即l(x)求極值即可，將似然函數對參數μ和σ分別求偏導數：

向量的計算

設兩向量為：

向量的加法/減法滿足平行四邊形法則和三角形法則

數乘：實數λ和向量a的叉乘乘積還是一個向量，記作λa，且|λa|=λ|a|；數乘的幾何意義是將向量a進行伸長或者壓縮操作

向量的運算

設兩向量為：

並且a和b之間的夾角為:θ

數量積：兩個向量的數量積(內積、點積)是一個數量/實數，記作

向量積：兩個向量的向量積(外積、叉積)是一個向量，記作

；向量積即兩個不共線非零向量所在平面的一組法向量。

矩陣的直觀表示

數域F中m*n個數排成m行n列，並括以圓括弧(或方括弧)的數表示成為數域F上的矩陣，通常用大寫字母記作A或者Am*n，有時也記作 A=(aij)m*n(i=1,2…,m;j=1,2,…n)，其中aij表示矩陣A的第i行的第j列元素，當F為實數域R時，A叫做實矩陣，當F為複數域C時，A叫做復矩陣。

矩陣的加減法

矩陣的加法與減法要求進行操作的兩個矩陣A和B具有相同的階，假設A為m*n階矩陣，B為m*n階矩陣，那麼C=A B也是m*n階的矩陣，並且矩陣C的元素滿足：

矩陣與數的乘法

數乘：將數λ與矩陣A相乘，就是將數λ與矩陣A中的每一個元素相乘，記作λA；結果C=λA，並且C中的元素滿足

數乘：

假設A為m*n階矩陣，x為n*1的列向量，則Ax為m*1的列向量，記作

矩陣的乘法

僅當第一個矩陣A的列數和第二個矩陣B的行數相等時才能夠定義，假設A為m*s階矩陣，B為s*n階矩陣，那麼C=A*B是 m*n階矩陣，並且矩陣C中的元素滿足

乘法的前提：左列==右行

由於這個python庫裡面有廣播機制，所以用一個m*n的矩陣可以和n個元素列矩陣做乘積：

<code>In [1]: import numpy as np

In [2]: a = np.array([[1,2],[2,3],[4,5]])

In [3]: a
Out[3]:
array([[1, 2],
[2, 3],
[4, 5]])

In [4]: b = np.array([[1,2],[2,2]])

In [5]: a.dot(b)
Out[5]:
array([[ 5, 6],
[ 8, 10],
[14, 18]])/<code>

廣播機制

<code>from numpy import *
import numpy as np
# 創建隨機矩陣：
np.random.rand(2,2) #注意沒有多餘的()
# 創建隨機矩陣：
np.random.random((2,2)) #注意有多餘的()
# 創建3*3的0-10之間的隨機整數矩陣：
np.random.randint(10,size=(3,3))
# 創建2-8之間的隨機整數矩陣：
np.random.randint(2,8,size=[2,5])
# 創建正態分佈矩陣：

np.random.normal(mean,stdev,size), 如，np.random.normal(1,0.1,(3,4))
給出均值為mean，標準差為stdev的高斯隨機數，size矩陣shape
# 創建標準正態分佈矩陣：
np.random.randn(d0, d1, ..., dn) ,如np.random.randn(3,4)/<code>

逆矩陣

逆矩陣:如果 A 是一個m x m 矩陣, 並且如果它有逆矩陣。矩陣與其逆陣的乘積等於單位陣：

不是所有的矩陣都有逆矩陣沒有逆矩陣的矩陣稱為“奇異矩陣” 或“退化矩陣”。

轉置矩陣

行變列,列變行

特徵值分解(QR分解)

SVD分解

奇異值分解(Singular Value Decomposition)是一種重要的矩陣分解方法，可以看做是對稱方陣在任意矩陣上的推廣

假設A為一個m*n階實矩陣，則存在一個分解使得：

通常將奇異值由大到小排列，這樣Σ便能由A唯一確定了。

向量的導數(極其重要)

標量對向量的導數

A為n*n的矩陣，|A|為A的行列式，計算

常見函數

對數的運算

指數的運算

導數

常見的導函數

偏導數

泰勒公式

Taylor公式的應用

古典概率

聯合概率

條件概率

全概率公式

貝葉斯公式

貝葉斯的推導

期望

方差

標準差

協方差

協方差矩陣

大數定理

中心極限定理

最大似然估計

向量的計算

向量的運算

矩陣的直觀表示

矩陣的加減法

矩陣與數的乘法

矩陣的乘法

廣播機制

逆矩陣

轉置矩陣

行變列,列變行

特徵值分解(QR分解)

SVD分解

向量的導數(極其重要)

標量對向量的導數

相關文章:

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！