老司機占半壁江山?——男女基金管理人投資年限的核密度估計

從核密度估計圖中,我們可以得出以下結論:

如果只考慮從業年限這一評估因素,那麼我們可以說,當今基金市場上,男性基金管理人的資歷相對較高。50%的男性基金經理擁有十年以上的投資經驗,女性管理人資歷相對偏淺,多為投資經驗10年以下的新鮮小仙女。

我們會在本系列的後續推文中,進一步探究“基金經理的性別對基金業績的影響”,敬請期待。

一、核密度曲線

1核密度曲線是什麼?

核密度估計是在概率論中用來估計未知的密度函數,屬於非參數檢驗方法之一,由Rosenblatt(1955)和EmanuelParzen(1962)提出,又名Parzen窗(Parzenwindow)。

核估計實際上是直方圖估計的自然發展,直方圖密度估計是較為傳統的非參密度估計方法,通常的做法是:

(1)將數據值覆蓋的數據區間分成幾個子區間(一般是等間距的,區間長度稱為組距);

(2)在每個區間上畫一個矩形,它的寬度是組距,它的高度一般是是頻率/組距,這種情況下,每一矩形的面積恰是數據落入區間的頻率。

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

但是從上圖可以看出利用直方圖估計密度函數還是有不完美的地方:

(1)密度函數是不平滑的;

(2)密度函數受子區間寬度影響很大;組距太小,每組的頻數較少,由於隨機性的影響,由於隨機性的影響,鄰近區間上的頻數可能很大;組距過大,直方圖所反映的形態就不靈敏。

(3)當數據維數是1,2維情況下,直方圖的使用是很普遍的,但是在數據維數再增加時,這種方法就有侷限性了。

因此引入了核密度估計(kernel density estimation),採用平滑核時,估計出的概率密度函數也是平滑的,我們很多情況下都採用GaussianKernel.

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

但是,核密度估計就是完美的嗎?

答案是否定的。如下圖所示:

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

注:紅色的是正態分佈的概率密度曲線,藍色的是密度估計曲線。

從上圖可以看出:密度估計曲線與正態分佈的概率密度曲線還是有一定差別的。

我們想要獲得比較好的概率密度函數,h帶寬(bandwidth)的選擇就是個很大的問題,太大或者太小都能很大程度上影響p(x)結果。

通過選擇合適的帶寬,能在很大程度上分析變量的統計意義,如偏度小於0,直方圖偏右;是否近似服從正態分佈等等。

2KDE曲線的原理

核密度估計曲線是繪製數據分佈形狀的有力工具。

給定一個樣本,如何將相應的核密度估計圖繪製出來?原理其實很簡單。

我們以高斯核(也就是正態核)為例。

首先,以每個觀測數據為均值,並且設定一個你想要的方差值。我們可以建立多個小小的正態分佈,如下圖。橫軸是樣本分佈,縱軸是密度。

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

接下來,將這些正態分佈彙總,然後調整至積分等於1。

這樣就得到了我們需要的KDE圖:

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

細心的寶寶可能已經發現,使用KDE估計方法會出現邊界效應。換句話說,某些極端值在真實分佈中是不可能出現的,但是KDE估計出來的分佈會容許他們的存在。這一點在後文中會得到更深的體現。

3核密度估計的原理

核密度函數的原理說起來比較簡單:

如果某一個數a,它在觀察中出現了,我們就可以得出三個小結論:

1)這個數的概率密度很大。

2)它附近的數,概率密度也會比較大。

3)而那些遠離a的數,它們的概率密度應該比較小。

基於這種想法,針對樣本中的每一個數,我們都可以逐一去擬合我們想象中的那個概率密度。最後,對擬合出的多個概率密度函數進行彙總,得到我們的核密度估計函數。如果某些數是比較重要的,還可以選擇加權平均的方式。

基本思路有了,那麼KDE估計法中,具體是如何實現這個思路的?

假設樣本來自一個分佈函數f。我們現在感興趣的就是如何估計出這個分佈函數。

我們用到的估計器是以下公式:

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

其中的h是一個大於0的參數,稱作帶寬,bandwidth。如果想要獲得比較好的概率密度函數,帶寬h的選擇很重要。太大或者太小的帶寬都能很大程度上影響估計的結果。

K為核函數。你可以理解為,有一個均值為0的分佈,核函數K就是這個分佈的概率密度函數。

常見的核有六種。不同的核,對應的核表面函數是不一樣的,具體如下圖。多數情況下,我們選擇採用正態核(Gaussian)。

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

需要說明的一點是,核密度的估計並不是找到真正的分佈函數

下面這幅圖有助於我們理解這一點:六條小的紅線代表著6個樣本數據點;藍線代表由此估計出的分佈函數f(x)。我們看到,估計出的f(x)是連續的,從某種程度上來說,就相當於在估計值之外的區域進行了插值處理。

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

由此,KDE估計的分佈函數與真實情況往往是有差別的。我們在前面提到的“邊界效應”也是很好的例證。

那我們怎麼看這個圖呢?

主要可以考慮與正態分佈相比,核密度圖是否存在尖峰厚尾特性。

4核密度估計的應用場景

KDE分析可用於股票、金融等風險預測,測量建築密度,獲取犯罪情況報告;還可用於“找出那些對動物棲息地造成影響的道路”;此外,我們熟悉的熱力圖其實也用到了核密度估計的方法。

注:此處核密度介紹較為簡略,欲知詳情,請與私募雲通相關人員聯繫。

二、利用Python實現KDE

1數據簡介

我們對數據庫中的5877位基金經理的投資經驗(單位:年)進行核密度估計,得出基金經理投資年限的分佈情況。

但是,為了讓研究更加有趣,我們決定按性別分組,分別進行KDE估計。然後對比看看:當今市場上,男女基金經理的投資經驗年限孰高孰低?是小仙女多,還是老司機多呢?

經過剔除空值等一系列數據清洗,我們得到的最終數據集的基本情況是:847條男性基金經理數據,以及82條女性基金經理數據。

2工具介紹

kdeplot工具最大的特點是可選參數很多,它支持六種核密度方法和多種帶寬模式。(seaborn官網裡有kdeplot函數的關鍵參數說明)

3具體實現

安裝等準備工作就緒,就可以開始進行操作:

1).導入所需工具,並連接SQL

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

2).從mysql讀取數據,同時剔除空值

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

3).數據處理:去掉文字單位"年"

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

4).畫出核密度估計圖

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

4核密度估計結果

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

兩組KDE估計結果分別如上圖所示。橫軸代表投資經驗年限(單位:年),縱軸代表密度。

其中,粉色曲線是女性基金經理的投資年限分佈,黑色曲線則代表男性。

從核密度估計圖中,我們可以得出以下結論:

(1)如果只考慮年限這一評估因素,那麼我們可以說,當今基金市場上,男性基金管理人的資歷相對較高。50%的男性基金經理擁有十年以上的投資經驗;

(2)而從粉色分佈來看,女性管理人資歷相對偏淺,多為投資經驗10年以下的新鮮小仙女。

但是這一結論並不一定完全正確。

其中的一個風險點是:目前市場中,男性基金經理居多。因此,兩組數據的數量相差懸殊(847vs 82)。這可能會對結果產生一定影響。

安心私募讓私募經營管理更安心

基於信,恆有安

老司機佔半壁江山?——男女基金管理人投資年限的核密度估計

安心私募基金服務中心(簡稱“安募”)是有安法務打造的專門為全國私募基金服務的綜合品牌。捆綁律師事務所,聯合會計師事務所,整合IT技術服務公司,圍繞制度構建、年度審核、產品申報、入會、公司年檢、員工註冊、培訓、合規管理、適當性管理、信息披露、非標產品創設等,服務於私募機構合規總監及相關工作人員,為私募基金提供各項綜合服務。


分享到:


相關文章: