Hive利用70萬人的勞動力來標記數據和訓練AI模型

數據集是人工智能(AI)的生命線 - 可以說,它們使模型成為可能。但是,沒有相應註釋的數據取決於正在運行的算法的類型(即,監督與無監督),或多或少是無用的。這就是為什麼像Scale這樣的樣品標籤創業公司籌集了數千萬美元,並吸引了優步和通用汽車等客戶。這就是為什麼Kevin Guo和Dmitriy Karpman共同創辦了Hive,這是一家使用由數十萬志願者提供的註釋數據來培訓特定領域AI模型的創業公司。

Hive利用70萬人的勞動力來標記數據和訓練AI模型

擁有近100名員工的Hive在從PayPal創始人Peter Thiel的創始人基金和其他人那裡籌集了超過3000萬美元的風險投資之前不久,推出了旗艦產品--Hive Data,Hive Predict和Hive Enterprise。

“我們建立了[Hive],因為我們覺得雖然圍繞人工智能和深度學習有很多興奮,但我們沒有看到很多實際應用正在建設中,”郭在電話採訪中告訴VentureBeat。“有很多炒作,但他們真正要解決的問題似乎並不明顯。大多數這些都是有些工作的演示,但並不是真正的企業級。“

為此,Hive通過Hive Work(一個智能手機應用程序和網站)招募大部分人類數據貼標人,指導他們完成分類圖像和轉錄音頻等任務。作為交換,Hive發放了一小筆獎勵 - 每週數萬美元。(郭說它可以使用“激增定價”來確保在必要時更快的週轉時間,例如當Hive客戶有特定項目時。)

該戰略取得了成功。Hive在其貢獻者社區中的30多個國家/地區擁有近700,000名用戶,他們每天幫助處理大約一千萬個標籤,準確率達到99%。(這種準確性部分歸因於一個淘汰系統,它每隔一段時間就會進入“已知”任務,確保用戶不會對系統進行遊戲。)客戶通過提供數據標籤服務的Hive Data挖掘員工隊伍。針對多個垂直行業量身定製。

“獲取培訓數據來構建這些模型實際上非常非常重要。從某種意義上說,自動化的唯一方法就是招募大量的人力,這幾乎具有諷刺意味,“郭說。“你可以擁有最好的框架,但如果沒有良好的訓練數據,你將無法獲得良好的輸出。我把它比作一個人類的頭腦:你可以擁有最聰明的大腦,但如果你不教這個大腦貓狗之間的區別並展示它的好例子,它就永遠不會認識到貓與狗之間的區別。“

Hive Work的輸出還提供Hive Predict,為企業提供定製設計的計算機視覺模型,幫助企業實現業務流程自動化; Hive Enterprise,針對汽車,零售,安全和媒體等領域,提供從頭開始構建的專有數據的定製深度學習模型。Hive使用基於Google開源TensorFlow框架的後端,通過API或雲開發AI系統,或與集成合作夥伴合作設計內部部署解決方案。

到目前為止,憑藉其內部服務器和網絡基礎設施,Hive創建了機器學習模型,可識別活動,預測年齡和性別,對汽車進行分類,確定相機傳感器與感興趣主體之間的距離,甚至可以檢測爆炸等事件,電視節目中的槍聲,戰鬥和廣告。郭拒絕透露Hive的任何客戶的名字,但表示每個客戶每個月都要發出數千萬的API請求。

Hive的模型之一 - 徽標模型API - 當然會檢測徽標,但也會檢測它們顯示的產品或廣告以及它們可見的持續時間。Hive聲稱,與Google Vision Cloud的5%召回率和66%的精確度相比,它具有99%的召回率和98精度。

Hive每週增加100個徽標,目標是在2018年第四季度達到10,000。

“我們的質量標準遠遠高於其他所有人,”郭說。“我不希望[Hive]成為另一個真正過度的人工智能公司,它實際上無法構建技術,我認為這對整個空間來說並不好。”


分享到:


相關文章: