本章還是關於數據科學的具體技術,與上篇不同的是,前面主要談了數據可視化,指標類型以及挑選供應商時的問題等等。本篇會更關注具體應用,包括創建數據字典,隱形決策樹,nosql的哈希連接,以及分析橋第一定理。
一,數據字典:
在進行探索分析時,最有價值的工具就是數據字典,建立數據字典能確定高維數據集裡密集與稀疏部分,確定數據異常點及數據小差錯,能更好了解數據包含的內容,明確後續值得挖掘的部分。
數據字典是一個有3列或4列的表。第1列是標籤,指一個變量名;2列標籤的對應值;3列是頻率統計,衡量值出現的次數;還可以添加第4列,註明標籤對應的維度,標明變量的個數。
通常,數據字典包含所有維度1和2且頻頻大於某個閾值如5的標籤,通常不包含維度是3或以上的,除非有比較高的頻率。例如:
標籤 值 頻率 維度
類別-關鍵詞 旅遊-東京 756 2
對於數據字典,首先要做的是按三維索引進行排序:先按第4列,然後按第1列,接著是第3列。然後再分析數據尋找模式。
關於建立數據字典:按順序查看數據集,講所有1維和2維的k-v作為哈希表的鍵保存下來,並將這些標籤/值對應的頻率+1;如果哈希表變得很大,則應停止程序運行,將哈希表保存到文件中,在內存中清楚哈希表變量。然後創建一個新的哈希表,從停止的地方繼續,最後忽略那些頻率太小的記錄,將哈希表合併。
二,隱性決策樹HDT:
實際應用於海量交易數據打分。 隱性決策樹混合了健壯邏輯迴歸和成百上千個小決策樹,相比於邏輯迴歸和決策樹,它更健壯,易解釋,無須剪枝,無須節點分裂準則。
HDT屬於統計與數據挖掘方法,可用於處理數據量很大,非線性,變量強相關的問題。
HDT的潛在應用領域:
- 欺詐及垃圾信息檢測
- 網絡分析(關鍵詞打分/競價;點擊欺詐檢測;交易打分;網站/廣告評分;協同過濾;相關性算法)
- 文本挖掘(打分及排序;侵權及垃圾信息檢測;情感分析)
三,與模型無關的置信區間:
尋找易計算,分佈無關,精確到小數點的置信區間值。
比如,想預測某個參數p方法:
- 將觀測值劃分為N個隨機區間
- 為每個隨機區間計算一個估計值
- 對估計值排序,從p_1(最小)到p_n(最大)
- 假設p_k是參數p的置信區間最低值,k小於n/2
- 假設p_(n-k+1)是參數p的置信區間最大值
- 那麼[p_k,p_(n-k+1)]是參數p的非參數置信區間
- 置信度是2k/(n+1)
通常,通過嘗試多個k值,可以插值出任意置信水平的置信區間值。
分析橋第一定理:簡而言之,就是數據不需要任何統計分佈,才能使得置信區間有效。
四,隨機數:
隨機數廣泛應用於許多統計應用和蒙特卡洛模擬算法之中。不過許多人還是依賴有缺陷的技術來生成隨機數,典型的是調用rand()函數,這類函數是會有周期的。
所以,高質量的隨機性就成了隨機數生成器的核心,這裡有個簡單而先進的思路,就是基於某個無理數的小數部分來模擬生成隨機數,如pi。這樣的生成器是擁有無限週期的,也就是不會循環,因為它的基礎是無理數。
五,解決問題的4個辦法:
對於數據科學家而言,總有幾個辦法可以解決任何問題。
- 擁有超強直覺能力的業務分析師的直觀法
- 軟件工程師的蒙特卡洛模擬法:利用高質量的良好的隨機數生成器
- 統計學家的統計建模方法:基於泊松過程和厄蘭分佈
- 計算機科學家的大數據方法
六,因果關係和相關性:
相關性並不意味著因果關係。在任何情況下,使用直接因果關係的預測有助於減少模型中的方差和得到更多有效的解決辦法。
檢測因果關係:
- 區分相關性和巧合的唯一方法,對照實驗
- 使用貝葉斯網絡分析
- 在時間序列的問題上,可以嘗試運行VAR模型,然後做Granger因果分析測試。
七,數據科學項目的生命週期:
- 辨別問題所在
- 確定可用數據源
- 如需要,確定額外數據源
- 進行統計分析
- 確保正確的實施和開發
- 成果交流
- 維護系統
八,預測模型的錯誤:
按照前面的步驟分析時,還需要避免一些陷阱。
數據預處理階段的錯誤:
- 將ID字段作為自變量
- 使用非同步的變量
- 允許重複的記錄
- 在過小的群體上建模
- 未考慮異常值和缺失值
- 將兩個編碼稍不同的表格關聯到一個域
- 使用混合字段
- 可視化程度太低
建模錯誤包括:
- 沒有考慮足夠多的變量
- 沒有手工添加一些額外的變量
- 選擇錯誤的Y因變量
- 沒有足夠的Y因變量響應
- 在錯誤的群體上建立模型
- 只使用一個衡量方法去判斷一個模型的質量
從儘可能多的變量開始,把範圍縮小到一個有效的子集,是個有效途徑 ,但切勿過渡擬合。
邏輯迴歸是統計科學的核心利器之一,適用於二進制或概率的響應值的問題,邏輯迴歸在臨床試驗,評分模型和欺詐檢測中十分受歡迎。
九,實驗設計:以臨床試驗為例子--測試戒除酒癮的策略。
- 定指標:喝酒的時間間隔;喝酒的持續時間;喝酒的強度
- 把患者分群,進行治理:想喝醉的(生活正常的酗酒者;生活紊亂的酗酒者;生活正常的飲酒障礙者;生活紊亂的飲酒障礙者);不想喝醉的(生活正常的酗酒者;生活紊亂的酗酒者;生活正常的飲酒障礙者;生活紊亂的飲酒障礙者)
- 私人定製的治理:使用馬爾可夫鏈模型來創建一個8X8轉換概率矩陣,評估未來6個月中,患者從一類轉到另一類的概率。可以在馬爾科夫鏈中添加治癒和死亡兩項重要狀態。
分析即服務和應用程序接口:利用現代網絡平臺提供分析解決方案。
十,數據專題:
- 當數據庫改變時,保存好數值:數據的保存是非常重要的,還要兼顧不同來源不同時期的數據的統合
- 優化網絡爬蟲:使用雲計算;在每個服務器上並行運行;縮短超時閾值從2秒到0.5秒;設定數據最大值的閾值,如不超過24kb;建立不爬取的黑名單;不要重複訪問同一頁面。
- 哈希連接:效率高,尤其處理稀疏數據時
- 用於模擬簇的簡單源代碼:涉及具體代碼,在此不表,有興趣的可以自行翻閱。
- 分析橋第二定理:用在隨機排列問題。一個隨機排列的非獨立數據構成一個獨立數據序列
- 分析橋第三定理:用於證明一個新定義的相關性的值在-1到1之間
閱讀更多 文話教育 的文章