從核密度估計圖中,我們可以得出以下結論:
如果只考慮從業年限這一評估因素,那麼我們可以說,當今基金市場上,男性基金管理人的資歷相對較高。50%的男性基金經理擁有十年以上的投資經驗,女性管理人資歷相對偏淺,多為投資經驗10年以下的新鮮小仙女。
我們會在本系列的後續推文中,進一步探究“基金經理的性別對基金業績的影響”,敬請期待。
一、核密度曲線
1核密度曲線是什麼?
核密度估計是在概率論中用來估計未知的密度函數,屬於非參數檢驗方法之一,由Rosenblatt(1955)和EmanuelParzen(1962)提出,又名Parzen窗(Parzenwindow)。
核估計實際上是直方圖估計的自然發展,直方圖密度估計是較為傳統的非參密度估計方法,通常的做法是:
(1)將數據值覆蓋的數據區間分成幾個子區間(一般是等間距的,區間長度稱為組距);
(2)在每個區間上畫一個矩形,它的寬度是組距,它的高度一般是是頻率/組距,這種情況下,每一矩形的面積恰是數據落入區間的頻率。
但是從上圖可以看出利用直方圖估計密度函數還是有不完美的地方:
(1)密度函數是不平滑的;
(2)密度函數受子區間寬度影響很大;組距太小,每組的頻數較少,由於隨機性的影響,由於隨機性的影響,鄰近區間上的頻數可能很大;組距過大,直方圖所反映的形態就不靈敏。
(3)當數據維數是1,2維情況下,直方圖的使用是很普遍的,但是在數據維數再增加時,這種方法就有侷限性了。
因此引入了核密度估計(kernel density estimation),採用平滑核時,估計出的概率密度函數也是平滑的,我們很多情況下都採用GaussianKernel.
但是,核密度估計就是完美的嗎?
答案是否定的。如下圖所示:
注:紅色的是正態分佈的概率密度曲線,藍色的是密度估計曲線。
從上圖可以看出:密度估計曲線與正態分佈的概率密度曲線還是有一定差別的。
我們想要獲得比較好的概率密度函數,h帶寬(bandwidth)的選擇就是個很大的問題,太大或者太小都能很大程度上影響p(x)結果。
通過選擇合適的帶寬,能在很大程度上分析變量的統計意義,如偏度小於0,直方圖偏右;是否近似服從正態分佈等等。
2KDE曲線的原理
核密度估計曲線是繪製數據分佈形狀的有力工具。
給定一個樣本,如何將相應的核密度估計圖繪製出來?原理其實很簡單。
我們以高斯核(也就是正態核)為例。
首先,以每個觀測數據為均值,並且設定一個你想要的方差值。我們可以建立多個小小的正態分佈,如下圖。橫軸是樣本分佈,縱軸是密度。
接下來,將這些正態分佈彙總,然後調整至積分等於1。
這樣就得到了我們需要的KDE圖:
細心的寶寶可能已經發現,使用KDE估計方法會出現邊界效應。換句話說,某些極端值在真實分佈中是不可能出現的,但是KDE估計出來的分佈會容許他們的存在。這一點在後文中會得到更深的體現。
3核密度估計的原理
核密度函數的原理說起來比較簡單:
如果某一個數a,它在觀察中出現了,我們就可以得出三個小結論:
1)這個數的概率密度很大。
2)它附近的數,概率密度也會比較大。
3)而那些遠離a的數,它們的概率密度應該比較小。
基於這種想法,針對樣本中的每一個數,我們都可以逐一去擬合我們想象中的那個概率密度。最後,對擬合出的多個概率密度函數進行彙總,得到我們的核密度估計函數。如果某些數是比較重要的,還可以選擇加權平均的方式。
基本思路有了,那麼KDE估計法中,具體是如何實現這個思路的?
假設樣本來自一個分佈函數f。我們現在感興趣的就是如何估計出這個分佈函數。
我們用到的估計器是以下公式:
其中的h是一個大於0的參數,稱作帶寬,bandwidth。如果想要獲得比較好的概率密度函數,帶寬h的選擇很重要。太大或者太小的帶寬都能很大程度上影響估計的結果。
K為核函數。你可以理解為,有一個均值為0的分佈,核函數K就是這個分佈的概率密度函數。
常見的核有六種。不同的核,對應的核表面函數是不一樣的,具體如下圖。多數情況下,我們選擇採用正態核(Gaussian)。
需要說明的一點是,核密度的估計並不是找到真正的分佈函數。
下面這幅圖有助於我們理解這一點:六條小的紅線代表著6個樣本數據點;藍線代表由此估計出的分佈函數f(x)。我們看到,估計出的f(x)是連續的,從某種程度上來說,就相當於在估計值之外的區域進行了插值處理。
由此,KDE估計的分佈函數與真實情況往往是有差別的。我們在前面提到的“邊界效應”也是很好的例證。
那我們怎麼看這個圖呢?
主要可以考慮與正態分佈相比,核密度圖是否存在尖峰厚尾特性。
4核密度估計的應用場景
KDE分析可用於股票、金融等風險預測,測量建築密度,獲取犯罪情況報告;還可用於“找出那些對動物棲息地造成影響的道路”;此外,我們熟悉的熱力圖其實也用到了核密度估計的方法。
注:此處核密度介紹較為簡略,欲知詳情,請與私募雲通相關人員聯繫。
二、利用Python實現KDE
1數據簡介
我們對數據庫中的5877位基金經理的投資經驗(單位:年)進行核密度估計,得出基金經理投資年限的分佈情況。
但是,為了讓研究更加有趣,我們決定按性別分組,分別進行KDE估計。然後對比看看:當今市場上,男女基金經理的投資經驗年限孰高孰低?是小仙女多,還是老司機多呢?
經過剔除空值等一系列數據清洗,我們得到的最終數據集的基本情況是:847條男性基金經理數據,以及82條女性基金經理數據。
2工具介紹
kdeplot工具最大的特點是可選參數很多,它支持六種核密度方法和多種帶寬模式。(seaborn官網裡有kdeplot函數的關鍵參數說明)
3具體實現
安裝等準備工作就緒,就可以開始進行操作:
1).導入所需工具,並連接SQL
2).從mysql讀取數據,同時剔除空值
3).數據處理:去掉文字單位"年"
4).畫出核密度估計圖
4核密度估計結果
兩組KDE估計結果分別如上圖所示。橫軸代表投資經驗年限(單位:年),縱軸代表密度。
其中,粉色曲線是女性基金經理的投資年限分佈,黑色曲線則代表男性。
從核密度估計圖中,我們可以得出以下結論:
(1)如果只考慮年限這一評估因素,那麼我們可以說,當今基金市場上,男性基金管理人的資歷相對較高。50%的男性基金經理擁有十年以上的投資經驗;
(2)而從粉色分佈來看,女性管理人資歷相對偏淺,多為投資經驗10年以下的新鮮小仙女。
但是這一結論並不一定完全正確。
其中的一個風險點是:目前市場中,男性基金經理居多。因此,兩組數據的數量相差懸殊(847vs 82)。這可能會對結果產生一定影響。
安心私募讓私募經營管理更安心
基於信,恆有安
安心私募基金服務中心(簡稱“安募”)是有安法務打造的專門為全國私募基金服務的綜合品牌。捆綁律師事務所,聯合會計師事務所,整合IT技術服務公司,圍繞制度構建、年度審核、產品申報、入會、公司年檢、員工註冊、培訓、合規管理、適當性管理、信息披露、非標產品創設等,服務於私募機構合規總監及相關工作人員,為私募基金提供各項綜合服務。
閱讀更多 安心私募 的文章