數據科學方法論

1.業務理解

每個項目,無論其規模大小,都從業務理解開始,這為成功解決業務問題奠定了基礎。需要分析解決方案,並且通過從業務角度定義問題、項目目標和解決方案需求,以在此階段發揮關鍵作用。和後面9個階段相比, 這一階段至關重要。

2.分析方法

在明確說明業務問題之後,數據科學家可以定義解決方法來解決它。這樣做涉及在統計和機器學習技術的背景下表達問題,以便數據科學家可以識別適合於實現期望結果的技術。

3.數據需求

分析方法的選擇決定了對數據的需求,因為要使用的分析方法需要特定的數據內容,格式和表示方法,這些都需要在業務領域專家的指導下完成。

數據科學方法論

4.數據收集

數據科學家識別並收集與問題域相關的數據資源結構,非結構化和半結構化。在遇到數據收集方面的差距時,數據科學家可能需要修改數據要求並收集更多數據。

5.數據理解

描述性統計和可視化技術可以幫助數據科學家理解數據內容,評估數據質量並發現對數據的初步見解。重新審視上一步的數據收集可能是彌合理解上的差距所必需的。

6.數據準備

數據準備階段包括用於構建將在建模階段使用的數據集的所有活動。包括數據清理,組合來自多個來源的數據以及將數據轉換為更有用的變量。此外,特徵工程和文本分析可用於導出新的結構化變量,豐富預測變量集並提高模型的準確性。

數據準備階段是最耗時的。這個過程有可能佔到整個項目時間的90%,通常也會是70%。但是,如果數據資源得到良好的管理,良好的集成和清理,從分析 – 而不僅僅是倉存儲 – 的角度來看,它可以降低50%。自動化數據準備的一些步驟可能會進一步降低百分比:電信營銷團隊的成員曾告訴我,團隊以這種方式將創建和部署促銷所需的平均時間從三個月減少到三週。

7.建模

從準備好的數據集的第一版開始,數據科學家使用訓練集 – 歷史數據,其中感興趣的結果是已知的 – 使用已經描述的分析方法開發預測或描述模型。建模過程是高度迭代的。

8.評估

數據科學家評估模型的質量,並檢查它是否完全和適當地解決了業務問題。這樣做需要使用預測模型的測試集來計算各種診斷測量以及其他輸出,例如表格和圖形。

數據科學方法論

9.部署

在已經開發出業務發起人批准的令人滿意的模型之後,將其部署到生產環境或類似的測試環境中。這種部署通常最初限制為允許評估其性能。將模型部署到運營業務流程通常涉及多個團隊,技能和技術。

10.反饋

該方法的流程說明了問題解決過程的迭代性質。模型不應該創建一次,然後部署並保持不變。相反,通過反饋,改進和重新部署,模型應該不斷適應條件進行改進。在項目過程中,需要模型及其背後的工作持續為項目提供價值,改進解決方案。

通過從實施的模型中收集結果,組織可以獲得有關模型性能的反饋,並觀察它如何影響其部署環境。分析此反饋使數據科學家能夠改進模型,提高其準確性,從而提高其實用性。

如果作為整個過程的一部分進行,這個經常被忽視的階段可以產生大量額外的好處。

數據科學方法論


分享到:


相關文章: