Hive利用70萬人的勞動力來標記數據和訓練AI模型科技頭條網

2018-11-23 15:27:07 aios

數據集是人工智能（AI）的生命線 - 可以說，它們使模型成為可能。但是，沒有相應註釋的數據取決於正在運行的算法的類型（即，監督與無監督），或多或少是無用的。這就是為什麼像Scale這樣的樣品標籤創業公司籌集了數千萬美元，並吸引了優步和通用汽車等客戶。這就是為什麼Kevin Guo和Dmitriy Karpman共同創辦了Hive，這是一家使用由數十萬志願者提供的註釋數據來培訓特定領域AI模型的創業公司。

擁有近100名員工的Hive在從PayPal創始人Peter Thiel的創始人基金和其他人那裡籌集了超過3000萬美元的風險投資之前不久，推出了旗艦產品--Hive Data，Hive Predict和Hive Enterprise。

“我們建立了[Hive]，因為我們覺得雖然圍繞人工智能和深度學習有很多興奮，但我們沒有看到很多實際應用正在建設中，”郭在電話採訪中告訴VentureBeat。“有很多炒作，但他們真正要解決的問題似乎並不明顯。大多數這些都是有些工作的演示，但並不是真正的企業級。“

為此，Hive通過Hive Work（一個智能手機應用程序和網站）招募大部分人類數據貼標人，指導他們完成分類圖像和轉錄音頻等任務。作為交換，Hive發放了一小筆獎勵 - 每週數萬美元。（郭說它可以使用“激增定價”來確保在必要時更快的週轉時間，例如當Hive客戶有特定項目時。）

該戰略取得了成功。Hive在其貢獻者社區中的30多個國家/地區擁有近700,000名用戶，他們每天幫助處理大約一千萬個標籤，準確率達到99％。（這種準確性部分歸因於一個淘汰系統，它每隔一段時間就會進入“已知”任務，確保用戶不會對系統進行遊戲。）客戶通過提供數據標籤服務的Hive Data挖掘員工隊伍。針對多個垂直行業量身定製。

“獲取培訓數據來構建這些模型實際上非常非常重要。從某種意義上說，自動化的唯一方法就是招募大量的人力，這幾乎具有諷刺意味，“郭說。“你可以擁有最好的框架，但如果沒有良好的訓練數據，你將無法獲得良好的輸出。我把它比作一個人類的頭腦：你可以擁有最聰明的大腦，但如果你不教這個大腦貓狗之間的區別並展示它的好例子，它就永遠不會認識到貓與狗之間的區別。“

Hive Work的輸出還提供Hive Predict，為企業提供定製設計的計算機視覺模型，幫助企業實現業務流程自動化; Hive Enterprise，針對汽車，零售，安全和媒體等領域，提供從頭開始構建的專有數據的定製深度學習模型。Hive使用基於Google開源TensorFlow框架的後端，通過API或雲開發AI系統，或與集成合作夥伴合作設計內部部署解決方案。

到目前為止，憑藉其內部服務器和網絡基礎設施，Hive創建了機器學習模型，可識別活動，預測年齡和性別，對汽車進行分類，確定相機傳感器與感興趣主體之間的距離，甚至可以檢測爆炸等事件，電視節目中的槍聲，戰鬥和廣告。郭拒絕透露Hive的任何客戶的名字，但表示每個客戶每個月都要發出數千萬的API請求。

Hive的模型之一 - 徽標模型API - 當然會檢測徽標，但也會檢測它們顯示的產品或廣告以及它們可見的持續時間。Hive聲稱，與Google Vision Cloud的5％召回率和66％的精確度相比，它具有99％的召回率和98精度。

Hive每週增加100個徽標，目標是在2018年第四季度達到10,000。

“我們的質量標準遠遠高於其他所有人，”郭說。“我不希望[Hive]成為另一個真正過度的人工智能公司，它實際上無法構建技術，我認為這對整個空間來說並不好。”

分享到:

閱讀更多 aios 的文章

關鍵字: 集是人工智能 Hive