常見函數
常函數:
一次函數:
二次函數:
冪函數:
指數函數:
,a的取值範圍為: a>0&a≠1
對數函數:
, a的取值範圍為: a>0&a≠1
對數的運算
指數的運算
導數
一個函數在某一點的導數描述了這個函數在這一點附近的變化率,也可以認為是函數在某一點的導數就是該函數所代表的曲線在這一點的切線斜率。導數值越大,表示函數在該點處的變化越大。定義:當函數y=f(x)在自變量x=x0上產生一個增量Δx時,函數輸出值的增量Δy和自變量增量Δx之間的比值在Δx趨近與0的時候存在極限值a,那麼a即為函數在x0處的導數值。
常見的導函數
偏導數
在一個多變量的函數中,偏導數就是關於其中一個變量的導數而保持其它變量恆定不變。假定二元函數z=f(x,y),點(x0,y0)是其定義域內的一個點,將y固定在y0上,而x在x0上增量Δx,相應的函數z有增量Δz=f(x0+Δx, y0) - f(x0,y0);Δz和Δx的比值當Δx的值趨近於0的時候,如果極限存在,那麼此極限值稱為函數z=f(x,y)在處對x的偏導數(partial derivative)
z=x2+xy2 在(2,1)處的對x的偏導數=?
梯度
梯度:梯度是一個向量,表示某一函數在該點處的方向導數沿著該方向取的最大值,即函數在該點處沿著該方向變化最快,變化率最大(即該梯度向量的模)
泰勒公式
Taylor(泰勒)公式是用一個函數在某點的信息描述其附近取值的公式。如果函數足夠平滑,在已知函數在某一點的各階導數值的情況下,Taylor公式可以利用這些導數值來做係數構建一個多項式近似函數在這一點的鄰域中的值。
若函數f(x)在包含x0的某個閉區間[a,b]上具有n階函數,且在開區間(a,b)上具有n+1階函數,則對閉區間[a,b]上任意一點x,有Taylor公式如下:
簡言之:利用x0點的導數信息來近似逼近該點鄰域的原函數。
Taylor公式的應用
古典概率
概率是以假設為基礎的,即假定隨機現象所發生的事件是有限的、互不相容的, 而且每個基本事件發生的可能性相等。一般來講,如果在全部可能出現的基本事 件範圍內構成事件A的基本事件有a個,不構成事件A的有b個,那麼事件A出現的 概率為:
概率體現的是隨機事件A發生可能的大小度量(數值)
聯合概率
表示兩個事件共同發生的概率,事件A和事件B的共同概率記作:P(AB)、P(A,B) 或者P(A∩B),讀作“事件A和事件B同時發生的概率”
條件概率
事件A在另外一個事件B已經發生的條件下的 發生概率叫做條件概率,表示為P(A|B),讀作 “在B條件下A發生的概率“ ,一般情況下 P(A|B)≠P(A),而且條件概率具有三個特性:
非負性,可列性,可加性
將條件概率公式由兩個事件推廣到任意有窮多個事件時,可以得到如下公式,假 設A1,A2,....,An為n個任意事件(n≥2),而且P(A1A2 ...An )>0,則:
全概率公式
樣本空間Ω有一組事件A1、A2 ...An , 如果事件組滿 足下列兩個條件,那麼事件組稱為樣本空間的一個 劃分:
設事件{Aj}是樣本空間Ω的一個劃分,且P(Ai)>0, 那麼對於任意事件B,全概率公式為:
貝葉斯公式
設A1、A2 ...An是樣本空間Ω的一個劃分,如果 對任意事件B而言,有P(B)>0,那麼:
貝葉斯的推導
期望
期望(mean):也就是均值,是概率加權下的“平均值” ,是每次可能結果的概率乘 以其結果的總和,反映的實隨機變量平均取值大小。常用符號μ表示 :
連續性數據:
離散性數據:
假設C為一個常數,X和Y實兩個隨機變量,那麼期望有一下性質:
方差
方差(variance)是衡量隨機變量或一組數據時離散程度的度量,是用來度量隨機 變量和其數學期望之間的偏離程度。即方差是衡量數據原數據和期望/均值相差的 度量值。
假設C為一個常數,X和Y實兩個隨機變量,那麼方差有一下性質
標準差
標準差(Standard Deviation)是離均值平方的算術平均數的平方根,用符號σ表示, 其實標準差就是方差的算術平方根。
標準差和方差都是測量離散趨勢的最重要、最常見的指標。標準差和方差的不同 點在於,標準差和變量的計算單位是相同的,比方差清楚,因此在很多分析的時 候使用的是標準差。
協方差
協方差常用於衡量兩個變量的總體誤差;當兩個變量相同的情況下,協方差其實 就是方差。
如果X和Y是統計獨立的,那麼二者之間的協方差為零。但是如果協方差為零, 那麼X和Y是不相關的。
假設C為一個常數,X和Y實兩個隨機變量,那麼協方差有性質如下所示:
協方差是兩個隨機變量具有相同方向變化趨勢的度量:
若Cov(X,Y) > 0, 則X和Y的變化趨勢相同;
若Cov(X,Y) < 0, 則X和Y的變化趨勢相反;
若Cov(X,Y) = 0,則X和Y不相關,也就是變化沒有什麼相關性
協方差矩陣
對於n個隨機向量(X1 ,X2 ,X3 ....Xn ), 任意兩個元素Xi和Xj都可以得到一個協方差, 從而形成一個n*n的矩陣,該矩陣就叫做協方差矩陣,協方差矩陣為對稱矩陣。
大數定理
大數定律的意義:隨著樣本容量n的增加,樣本平均數將接近於總體平均數(期望 μ),所以在統計推斷中,一般都會使用樣本平均數估計總體平均數的值。
也就是我們會使用一部分樣本的平均值來代替整體樣本的期望/均值,出現偏差 的可能是存在的,但是當n足夠大的時候,偏差的可能性是非常小的,當n無限大 的時候,這種可能性的概率基本為0。
大數定律的主要作用就是為使用頻率來估計概率提供了理論支持;為使用部分數 據來近似的模擬構建全部數據的特徵提供了理論支持。
中心極限定理
中心極限定理就是一般在同分布的情況下,抽樣樣本值的規範和在總體數量趨於 無窮時的極限分佈近似於正態分佈
隨機的拋六面的骰子, 計算三次的點數的和, 三 次點數的和其實就是一 個事件A,現在問事件A 發生的概率以及事件A 所屬的分佈是什麼?
最大似然估計
最大似然法(Maximum Likelihood Estimation, MLE)也稱為最大概似估計、 極大似然估計,是一種具有理論性的參數估計方法。基本思想是:當從模型總體 隨機抽取n組樣本觀測值後,最合理的參數估計量應該使得從模型中抽取該n組樣 本觀測值的概率最大;一般步驟如下:
1. 寫出似然函數;
2. 對似然函數取對數,並整理;
3. 求導數;
4. 解似然方程
設總體分佈為f(x,θ), {Xn}為該總體採樣得到的樣本。因為隨機序列{Xn}獨立同分 布,則它們的聯合密度函數為:
這裡θ被看做固定但是未知的參數,反過來,因為樣本已經存在,可以看做{Xn} 是固定的,L(x,θ)是關於θ的函數,即似然函數; 求參數θ的值,使得似然函數取最大值,這種方法叫做最大似然估計法。
若給定一組樣本{Xn},已知隨機樣本符合高斯分佈N(μ,σ^2),試估計σ和μ的值
分佈的概率函數:
最大似然函數的乘積:
對數似然:
化簡 :
要求似然函數l(x)最大,即l(x)求極值即可,將似然函數對參數μ和σ分別求偏導數:
向量的計算
設兩向量為:
向量的加法/減法滿足平行四邊形法則和三角形法則
數乘:實數λ和向量a的叉乘乘積還是一個向量,記作λa,且|λa|=λ|a|;數 乘的幾何意義是將向量a進行伸長或者壓縮操作
向量的運算
設兩向量為:
並且a和b之間的夾角為:θ
數量積:兩個向量的數量積(內積、點積)是一個數量/實數,記作
向量積:兩個向量的向量積(外積、叉積)是一個向量,記作
; 向量積即兩個不共線非零向量所在平面的一組法向量。
矩陣的直觀表示
數域F中m*n個數排成m行n列,並括以圓括弧(或方括弧)的數表示 成為數域F上的矩陣,通常用大寫字母記作A或者Am*n,有時也記作 A=(aij)m*n(i=1,2…,m;j=1,2,…n),其中aij表示矩陣A的第i行的第j列 元素,當F為實數域R時,A叫做實矩陣,當F為複數域C時,A叫做 復矩陣。
矩陣的加減法
矩陣的加法與減法要求進行操作的兩個矩陣A和B具有相同的階, 假設A為m*n階矩陣,B為m*n階矩陣,那麼C=A B也是m*n階的 矩陣,並且矩陣C的元素滿足:
矩陣與數的乘法
數乘:將數λ與矩陣A相乘,就是將數λ與矩陣A中的每一個元素相 乘,記作λA;結果C=λA,並且C中的元素滿足
數乘:
假設A為m*n階矩陣,x為n*1的列向量,則Ax為m*1的列向量,記 作
矩陣的乘法
僅當第一個矩陣A的列數和第二個矩陣B的行數相等時 才能夠定義,假設A為m*s階矩陣,B為s*n階矩陣,那麼C=A*B是 m*n階矩陣,並且矩陣C中的元素滿足
乘法的前提 :左列==右行
由於這個python庫裡面有廣播機制,所以用一個m*n的矩陣可以和n個元素列矩陣做乘積:
<code>In [1]: import numpy as np
In [2]: a = np.array([[1,2],[2,3],[4,5]])
In [3]: a
Out[3]:
array([[1, 2],
[2, 3],
[4, 5]])
In [4]: b = np.array([[1,2],[2,2]])
In [5]: a.dot(b)
Out[5]:
array([[ 5, 6],
[ 8, 10],
[14, 18]])/<code>
廣播機制
<code>from numpy import *
import numpy as np
# 創建隨機矩陣:
np.random.rand(2,2) #注意沒有多餘的()
# 創建隨機矩陣:
np.random.random((2,2)) #注意有多餘的()
# 創建3*3的0-10之間的隨機整數矩陣:
np.random.randint(10,size=(3,3))
# 創建2-8之間的隨機整數矩陣:
np.random.randint(2,8,size=[2,5])
# 創建正態分佈矩陣:
np.random.normal(mean,stdev,size), 如,np.random.normal(1,0.1,(3,4))
給出均值為mean,標準差為stdev的高斯隨機數,size矩陣shape
# 創建標準正態分佈矩陣:
np.random.randn(d0, d1, ..., dn) ,如np.random.randn(3,4)/<code>
逆矩陣
逆矩陣:如果 A 是一個m x m 矩陣, 並且如果它有逆矩陣。矩陣與其逆陣的乘積等於單位陣:
不是所有的矩陣都有逆矩陣沒有逆矩陣的矩陣稱為“奇異矩陣” 或“退化矩陣”。
轉置矩陣
行變列,列變行
特徵值分解(QR分解)
SVD分解
奇異值分解(Singular Value Decomposition)是一種重要的矩陣分 解方法,可以看做是對稱方陣在任意矩陣上的推廣
假設A為一個m*n階實矩陣,則存在一個分解使得:
通常將奇異值由大到小排列,這樣Σ便能由A唯一確定了。
向量的導數(極其重要)
標量對向量的導數
A為n*n的矩陣,|A|為A的行列式,計算
"