讀書筆記：數據天才·數據科學家修煉之道05

文話教育

2018-07-28 14:13:39

本章還是關於數據科學的具體技術，與上篇不同的是，前面主要談了數據可視化，指標類型以及挑選供應商時的問題等等。本篇會更關注具體應用，包括創建數據字典，隱形決策樹，nosql的哈希連接，以及分析橋第一定理。

一，數據字典：

在進行探索分析時，最有價值的工具就是數據字典，建立數據字典能確定高維數據集裡密集與稀疏部分，確定數據異常點及數據小差錯，能更好了解數據包含的內容，明確後續值得挖掘的部分。

數據字典是一個有3列或4列的表。第1列是標籤，指一個變量名；2列標籤的對應值；3列是頻率統計，衡量值出現的次數；還可以添加第4列，註明標籤對應的維度，標明變量的個數。

通常，數據字典包含所有維度1和2且頻頻大於某個閾值如5的標籤，通常不包含維度是3或以上的，除非有比較高的頻率。例如：

標籤值頻率維度

類別-關鍵詞旅遊-東京 756 2

對於數據字典，首先要做的是按三維索引進行排序：先按第4列，然後按第1列，接著是第3列。然後再分析數據尋找模式。

關於建立數據字典：按順序查看數據集，講所有1維和2維的k-v作為哈希表的鍵保存下來，並將這些標籤/值對應的頻率+1；如果哈希表變得很大，則應停止程序運行，將哈希表保存到文件中，在內存中清楚哈希表變量。然後創建一個新的哈希表，從停止的地方繼續，最後忽略那些頻率太小的記錄，將哈希表合併。

二，隱性決策樹HDT：

實際應用於海量交易數據打分。隱性決策樹混合了健壯邏輯迴歸和成百上千個小決策樹，相比於邏輯迴歸和決策樹，它更健壯，易解釋，無須剪枝，無須節點分裂準則。

HDT屬於統計與數據挖掘方法，可用於處理數據量很大，非線性，變量強相關的問題。

HDT的潛在應用領域：

欺詐及垃圾信息檢測網絡分析（關鍵詞打分/競價；點擊欺詐檢測；交易打分；網站/廣告評分；協同過濾；相關性算法）文本挖掘（打分及排序；侵權及垃圾信息檢測；情感分析）

三，與模型無關的置信區間：

尋找易計算，分佈無關，精確到小數點的置信區間值。

比如，想預測某個參數p方法：

將觀測值劃分為N個隨機區間為每個隨機區間計算一個估計值對估計值排序，從p_1(最小)到p_n(最大)假設p_k是參數p的置信區間最低值，k小於n/2假設p_(n-k+1)是參數p的置信區間最大值那麼[p_k,p_(n-k+1)]是參數p的非參數置信區間置信度是2k/(n+1)

通常，通過嘗試多個k值，可以插值出任意置信水平的置信區間值。

分析橋第一定理：簡而言之，就是數據不需要任何統計分佈，才能使得置信區間有效。

四，隨機數：

隨機數廣泛應用於許多統計應用和蒙特卡洛模擬算法之中。不過許多人還是依賴有缺陷的技術來生成隨機數，典型的是調用rand()函數，這類函數是會有周期的。

所以，高質量的隨機性就成了隨機數生成器的核心，這裡有個簡單而先進的思路，就是基於某個無理數的小數部分來模擬生成隨機數，如pi。這樣的生成器是擁有無限週期的，也就是不會循環，因為它的基礎是無理數。

五，解決問題的4個辦法：

對於數據科學家而言，總有幾個辦法可以解決任何問題。

擁有超強直覺能力的業務分析師的直觀法軟件工程師的蒙特卡洛模擬法：利用高質量的良好的隨機數生成器統計學家的統計建模方法：基於泊松過程和厄蘭分佈計算機科學家的大數據方法

六，因果關係和相關性：

相關性並不意味著因果關係。在任何情況下，使用直接因果關係的預測有助於減少模型中的方差和得到更多有效的解決辦法。

檢測因果關係：

區分相關性和巧合的唯一方法，對照實驗使用貝葉斯網絡分析在時間序列的問題上，可以嘗試運行VAR模型，然後做Granger因果分析測試。

七，數據科學項目的生命週期：

辨別問題所在確定可用數據源如需要，確定額外數據源進行統計分析確保正確的實施和開發成果交流維護系統

八，預測模型的錯誤：

按照前面的步驟分析時，還需要避免一些陷阱。

數據預處理階段的錯誤：

將ID字段作為自變量使用非同步的變量允許重複的記錄在過小的群體上建模未考慮異常值和缺失值將兩個編碼稍不同的表格關聯到一個域使用混合字段可視化程度太低

建模錯誤包括：

沒有考慮足夠多的變量沒有手工添加一些額外的變量選擇錯誤的Y因變量沒有足夠的Y因變量響應在錯誤的群體上建立模型只使用一個衡量方法去判斷一個模型的質量

從儘可能多的變量開始，把範圍縮小到一個有效的子集，是個有效途徑，但切勿過渡擬合。

邏輯迴歸是統計科學的核心利器之一，適用於二進制或概率的響應值的問題，邏輯迴歸在臨床試驗，評分模型和欺詐檢測中十分受歡迎。

九，實驗設計：以臨床試驗為例子--測試戒除酒癮的策略。

定指標：喝酒的時間間隔；喝酒的持續時間；喝酒的強度把患者分群，進行治理：想喝醉的（生活正常的酗酒者；生活紊亂的酗酒者；生活正常的飲酒障礙者；生活紊亂的飲酒障礙者）；不想喝醉的（生活正常的酗酒者；生活紊亂的酗酒者；生活正常的飲酒障礙者；生活紊亂的飲酒障礙者）私人定製的治理：使用馬爾可夫鏈模型來創建一個8X8轉換概率矩陣，評估未來6個月中，患者從一類轉到另一類的概率。可以在馬爾科夫鏈中添加治癒和死亡兩項重要狀態。

分析即服務和應用程序接口：利用現代網絡平臺提供分析解決方案。

十，數據專題：

當數據庫改變時，保存好數值：數據的保存是非常重要的，還要兼顧不同來源不同時期的數據的統合優化網絡爬蟲：使用雲計算；在每個服務器上並行運行；縮短超時閾值從2秒到0.5秒；設定數據最大值的閾值，如不超過24kb；建立不爬取的黑名單；不要重複訪問同一頁面。哈希連接：效率高，尤其處理稀疏數據時用於模擬簇的簡單源代碼：涉及具體代碼，在此不表，有興趣的可以自行翻閱。分析橋第二定理：用在隨機排列問題。一個隨機排列的非獨立數據構成一個獨立數據序列分析橋第三定理：用於證明一個新定義的相關性的值在-1到1之間

大樂透031期開獎結果：01 02 05 15 21+04 05

網貸逾期日記04.05

[05]小仙女式壁紙

05 PS常用規格尺寸

《弱傳播》05

首層3房兩廳一廚一車庫，地基尺寸10.05*17.72米！

流水帳11.05

國家地理付費App每日精選2018-10-05

《中小企業徵收拆遷關停維權成果十論》05：從不予安置到整體安置

問卷與量表分析：「05」學術論文中三線表的做法

張強特大象棋布局定式中炮過河車對屏風馬「05」紅五九炮型

每日一圖｜2018.07.05

「百人百天」第四周成績匯報

每日一圖｜2018.05.26

05.30 2018.05.30全國各地今日最新豬價信息

2018-05-30全國豬價（萬里綠色一點紅）

波場TRON進展週報2018.05.19-2018.05.25

05.29 2018.05.29全國各地今日最新豬價信息

2018-05-29全國豬價（來也匆匆去也匆匆）

相關文章:

大樂透031期開獎結果：01 02 05 15 21+04 05

網貸逾期日記04.05

[05]小仙女式壁紙

05 PS常用規格尺寸

《弱傳播》05

首層3房兩廳一廚一車庫，地基尺寸10.05*17.72米！

流水帳11.05

國家地理付費App每日精選2018-10-05

《中小企業徵收拆遷關停維權成果十論》05：從不予安置到整體安置

問卷與量表分析：「05」學術論文中三線表的做法

張強特大象棋布局定式中炮過河車對屏風馬「05」紅五九炮型

每日一圖｜2018.07.05

「百人百天」第四周成績匯報

每日一圖｜2018.05.26

05.30 2018.05.30全國各地今日最新豬價信息

2018-05-30全國豬價（萬里綠色一點紅）

波場TRON進展週報2018.05.19-2018.05.25

05.29 2018.05.29全國各地今日最新豬價信息

2018-05-29全國豬價（來也匆匆去也匆匆）

第一航運物流網運價（2018-05-29）

2018-05-27全國豬價（全國漲勢不斷）

05.26 每日一圖｜2018.05.22

2018-05-23全國豬價（漲勢勢不可擋）

第一航運物流網運價（2018-05-22）

2018-05-22全國豬價（瘋狂變紅全面漲起）

2018-05-19全國豬價（多地繼續上漲）

周口天氣2018.05.18

05.17 每日一圖｜2018.05.17

05.17 「百人百天」第二週成績彙報

05.16 每日一圖｜2018.05.16

05.15佳軟推薦：充滿挑戰虛擬世界5款App

搶鮮｜西農校內新媒體平臺綜合影響力排行榜「05.06-05.12」

第一航運物流網運價（2018-05-15）

05.14 今日豬價 05 14

周口天氣2018.05.13

小富雲圖（2018.05.07）

全產業鏈高速公路2018.05.07

「月運勢」05.01~05.31 金牛座需要陪伴，天秤有不錯的桃花運！

04.30 武漢百人茶會早知道 2018 05 05

排列35第18106期 鐵碼：05

04.23 武漢百人茶會早知道 2018 05 05

武漢百人茶會早知道 2018 05 05

UC002合同陷阱-05 打消客戶驗收階段的疑慮

20170514 INS 05

05.06 20170505 INS 05

沈巍先生雜談（358）說好的快手不倒，陪伴到老呢？個個都是戲精

出海奮鬥是有膽識後浪的更優選項

甲有5套房，不上班，收房租；乙有1套房，上班賺工資；丙租房子.

每逢佳節被相親，單身青年看這裡！

為珠峰“量身高”，為啥要人上去？

我省獲國家局通報表揚

湖南名字最尷尬的城市，90%的人都會想歪，當地人：思想有問題！

超六成前浪點贊《後浪》，全球白手起家90後富豪人均財富190億

再不來一場精緻野餐，我就要被開除中產籍了

工程師我只服中國，曾經放生到三峽的1萬條魚，如今怎麼樣了？

後疫情時代的五個營銷啟示

丘北縣雙龍營鎮人民政府普者黑村委會、矣則村委會太陽能路燈採購安裝項目競爭性談判公告

為什麼重量相同的金子，銀行賣得比金店還便宜？看完漲知識了

打雷的時候，到底要不要拔掉插頭，關閉電路呢？看完漲知識了

乘坐火車時，把車票弄丟了怎麼處理？看完可算知道了

肖戰視頻專訪：眼裡帶著故事，請不要聽說他，這一次，請他說

秦山核電應急行動水平優化項目招標公告

巴基斯坦SK水電站消防及火災報警系統設備採購招標招標公告

中煤能源新疆鴻新煤業葦子溝煤礦瓦斯抽採機械設備採購招標公告

縣域社區團購，在平臺發展上有哪些優勢？

和王為念離婚，與“假奶奶”常香玉對簿公堂，55歲小香玉生活如詩

眼力測試：由4字組成的白菜，1秒看出4個字的智商都很高

看圖猜字：這個不簡單，你能猜對幾個？全猜對眼力非凡

眼力測試：火焰中藏了4個字，看出3個算達標，全看出眼力200

小米硬剛德國雙立人，400年非洲灌木做家用砧板，不發黴砍不壞

眼力測試：美女圖中藏了5個漢字，全部看出來的眼力超群

最萌Hodler，剛出生就收到比特幣大學教育基金的寶寶

《瞭望大灣區》：全國中高風險區域今日“清零”

《晨會解讀》：中山證券投資顧問楊立華：連續上漲過後注意把握好操作節奏

孫鬆峰：幸福生活唱出來

衡水：守護一湖碧水 打造生態之城

英國小夥第一次體驗中國網吧，就被電腦屏幕嚇到直言：這是個啥

微商到底多能吹牛！哈哈哈哈哈千萬別屏蔽，每天都是快樂源泉

2020珠峰高程複測出發儀式今日舉行 小米10全程助力丈量世界新高度

排列35第18106期鐵碼：05

衡水：守護一湖碧水打造生態之城

2020珠峰高程複測出發儀式今日舉行小米10全程助力丈量世界新高度