讀書筆記:數據天才·數據科學家修煉之道04

讀書筆記:數據天才·數據科學家修煉之道04

本篇設計具體的數據科學技術。從選擇指標的細節開始,再到運用新的可視化技術表示複雜的,隨時間變化的空間過程。

一,新型指標:

識別有著強大預測能力的指標,是數據科學家的基本任務。一些不是KPI的指標仍需要確認和追蹤。大數據和快速集群式計算機已經可以追蹤和計算更復雜的指標,且可以一次性測試成千上萬的指標和生成複雜的複合指標。

以下複合指標列表可以作為你創造新指標的參考。

  • 優化數字營銷活動的指標,針對如在新新聞簡訊推廣應用:打開率;打開次數;打開2次以上的用戶;點擊率;每個郵箱客戶端細分的打開率;每個用戶段的細分打開率和點擊率;趨勢;退訂和流失率;垃圾郵件投訴;地理位置;語言;一週中每天和每個時間段的打開率;用戶分段;增長加速;低打開率;關鍵詞追蹤;寄信人字段;信息的大小;格式。
  • 欺詐檢測的指標,如隱藏決策數系統:極端事件;黑名單和白名單;推薦人統計;分析域名模式;關聯分析;信用卡字段不匹配;無用數據;電子郵件地址異常;交易時間;異常採購模式;重複的小額採購。
讀書筆記:數據天才·數據科學家修煉之道04

二,選擇合適的分析工具:

作為數據科學家,應當選用合適的工具,不必要重新造輪子。以下是一些需要詢問的重要問題和需要牢記的準則。

  • 選擇分析軟件的詢問:可以處理大數據嗎?價格?容易使用和提供GUI?可以進行批處理或可編程的模式下工作?具有漂亮的圖形功能?快速的計算高效的內存使用率?有良好的技術支持,培訓和文檔?能通過增加費用來提供附加組件或模塊?平臺獨立?與目前的客戶端兼容?支持外部編程語言擴展?學習曲線不太陡?容易升級?
  • 選擇可視化工具的詢問:如何定義和衡量圖表的質量?使用哪些工具能產生交互圖表或地圖?支持大數據可視化工具?可以通過API在批處理模式下訪問?能輕鬆製作數據視頻?更新數據,模型圖表會自動更新?能方便製作漂亮的表結構?能繪製力導向圖?能整合其他語言的圖形包?
  • 編程語言:python?R?SQL?Hadoop?
讀書筆記:數據天才·數據科學家修煉之道04

三,可視化:

  • 使用R生成數據視頻
  • 使用ActivePresenter生成視頻

四,三類指標:中心性,波動性,顛簸性

這裡先說一下,無模型的統計建模,是指不使用統計分佈或模型做推理,甚至預測或計算置信區間的方法。

中心性,波動性和顛簸性的關係:兩個不同的數據集可以有相同的中心性和波動性,但有不同的顛簸性。顛簸性與數據點如何排列有關,而中心性與波動性完全忽略了順序。此外,顛簸性整合數據點之間的依賴概念,而中心性和方差則沒有。

五,大數據的像關性和擬合度:

在大數據集,經常需要計算相關性,可是一些數據桶會包含異常值或無意義的數據,桶的大小也可能不同,此時需要一個相關性指標,滿足以下條件:

  1. 與樣本容量無關,允許比較不同大小的數據桶。
  2. 與傳統的相關性有相同的邊界以保證向後兼容。
  3. 比傳統相關性更具普適性。
  4. 對異常值不敏感,健壯。
  5. 更直觀更復合人類大腦感知相關性的方式。

六,計算複雜度:

函數q(n)是為處理大數據提出的新型統計指標的核心:用以測量新型的相關性或擬合度的一個非參數的,健壯的指標。雖然它基於秩統計量,但它對異常值的敏感性要遠小於當前的秩統計量的指標。

七,結構係數:

這個指標可以測量數據集中的結構或模式存在或不存在。目的是測量兩變量之間的關聯強度。它適用於非數值數據,檢測的不是函數性關係,可以用於傳統的,數值的,二元的觀測值,這種結構係數沒有假設基礎域的形狀,比目前指標更通用,而且完全是數據驅動的。

結構係數表示為w:滿足如下算法:

  1. 一個包含n個點的數據集,假設n個點為n個向量(x,y)
  2. 對於每對點{(x1,y1),(x2,y2)},計算出兩點距離d,在更一般的情況下,可測量兩個關鍵詞之間距離的近似值。
  3. 整理所有距離d,根據n個點,計算距離的分佈。
  4. 留一法,每次刪除一個點,並基於n-1個點,計算n個新的距離分部。
  5. 然後比較用n個點計算的n個分佈和n-1個點計算的n個分佈。
  6. 重複迭代,n-2個點,n-3,n-4個點 。。。。
  7. 假設不存在模式,通過模擬識別行為。

八,確定簇的數量:

簇是個模糊的概念,在許多應用中有一個明確的簇的最佳數量,這裡介紹一種確定簇的方法:

  1. 創建一個包含以下行的二維表:簇的編號在#1行,簇對方差的解釋比率在#2行
  2. 計算第3個差異
  3. 計算第3個差異的最大值,以確定簇的數量

最後還有網絡拓撲映射和數據加密的內容,太過於接近網絡工程和具體代碼實現,這裡不做記錄。


分享到:


相關文章: