數據並不是越多越好，機器學習是一個反覆改進的過程…… 不信你問亞馬遜科技頭條網

2019-02-26 08:24:53 Python部落

在UNC的一次演講中，我有機會參加亞馬遜的兩位機器學習專家的演講。 Ed Banti是Core AI亞馬遜軟件開發總監，Pat Bajari是亞馬遜的核心AI副總裁兼首席經濟師。他們二人都分享了他們在亞馬遜時對人工智能解決方案合作的見解，並與北卡羅來納大學Carroll Hall的一群學生和教師進行了交談（我曾就讀的研究生院！）

在公司招聘人員對亞馬遜價值觀（包括臭名昭著的飛輪效應）的概述之後，Ed談到了數據分析如何影響飛輪的幾個部分，包括在客戶面前獲得正確的產品，獲得正確的數量，以及確保客戶滿意。他還就人工智能在學習過程中的實際情況做了一些非常有趣的評論，並不總是意味著第一次就把它弄好了。實際上，聽Ed談論機器學習程序中出現的“出錯的主要類型”是非常有趣的：

一個模型現在正在生產環境中運行，但沒有產生與實驗中所證明的相同的結果（或者在相同的準確度水平上）...沒有人知道為什麼
輸入數據混亂，不完整或沒有按時出現，導致模型訓練延遲（請注意，這是我在之前的博客中已經貶低的主題，即強調數據治理作為AI和機器學習基礎的關鍵性質）
模型修復或改進卡在了同樣的重寫循環中，從而延遲了重要變化的部署
模型是離線訓練的，現在正部署在某個生產系統中，而沒辦法再進行訓練或監控。
最終，由於看到他們的工作轉化為影響的速度緩慢而使研究受阻，並且工程師們對自己的工作不那麼有主導權。

Ed指出亞馬遜過去曾犯過所有這些錯誤（還有更多），機器學習程序員的一個重要經驗法則是擁有一套強大的“護欄”，包括標準化單一框架，創建環境反映生產環境的實驗，定義模型必須符合的標準接口，以及封裝抽象實驗和生產環境的系統。

Pat隨後談到了他在華盛頓大學與一些研究生一起創辦的最近一份白皮書的成果。作為一名學術轉型的高管，帕特是一位經驗豐富的應用學術計量經濟學家，專門從事實證產業組織。在亞馬遜，他的團隊將計量經濟學，軟件開發和機器學習應用於數據驅動的決策。在本次講座中，他談到了“數據對企業績效的影響”，並指出隨著企業獲取更多數據，他們可以生成更好的模型，覆蓋更多的亞馬遜用戶，從而產生更多數據，並參考亞馬遜飛輪效應。

在這項研究中，亞馬遜專注於36個產品線，存儲有5年的每週數據，並將預測與實際情況進行比較。他的團隊有興趣瞭解預測錯誤是否隨著更多數據的收集而變化，並且在討論數據變得“大”時意味著更加準確。他首先注意到，亞馬遜曾經使用單一的預測模型來訂購他們所有的2500萬本書，其中涉及85％的庫存。一般來說，這種方法可能效果很好，但結果會有很多差異。他們的研究初步結果顯示如下：

更多的產品只有在預測過程最初開始時才有用
隨著產品數據的增長，獲益甚少
每個產品的更多觀察很重要
結果與漸近理論（中心極限定理）一致，該理論預測更多數據的獲益遞減。總的來說，結果顯示亞馬遜預測中沒有使用單一模型，使用具有潛在時間和產品效應的因子結構產生了優化結果，概括抽象出了一個標準的固定效應模型。
較高速度的數據不會提高精確度的百分比，反而使精度水平變差！

這些發現的含義非常重要，幷包含一些重要的經驗教訓，用於“大數據更好”營銷的雙曲線聲明。實際上，Pat推測結果似乎與天真的“數據反饋迴路”不一致，並且隨著產品數量的增加預測準確度是否會增加，這引起了人們的質疑。在對大量產品進行建模時，規模的不經濟性可以抵消精確度的微小改進，而努力應該集中在縱向觀察單個產品上。

他還總結了一些關於公司應該如何看待和投資機器學習技術的非常有趣的觀點。重要的是選擇一個指標來改進，即使它並不完美，但要將其用作衡量績效改進的基礎。帕特指出，改善和學習往往非常緩慢 - 有點像減肥計劃緩慢，你減肥的速度很慢。流程每季度可能僅提高20個基點，即每年提高80個基點。這不是很多，但十多年來，它確實有所作為。他還指出，科技公司通常由科學家經營，他們更願意採用新方法，改進博士論文技術。以“書呆子”為首的這些公司是早期採用者，而管理往往是機器學習模型開發和採用的最重要障礙。雲計算也允許技術的傳播，採用科學方法的公司，使用理性方法探索非理性問題，將是成功的。他最後的建議 - 學生應該對很多事情有廣泛的瞭解，但需要在一個領域非常深入。數據需要得到解釋！

英文原文：https://scm.ncsu.edu/scm-articles/article/more-data-is-not-better-and-machine-learning-is-a-grind-just-ask-amazon
譯者：趙四妹

分享到:

閱讀更多 Python部落 的文章

關鍵字: 人工智能北卡羅來納州大數據