人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

在人工智能飛速發展的時代,機器已經初步具備人的視覺、聽覺、語義識別的能力。同時如果要讓機器變得越來越“聰明”,需要大量優質的數據來提升機器學習的準確性。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

有標註的數據是人工智能的重要基礎

數據採集和數據標註,是這個過程中工作量最大的一環,需要大量人工採集數據,以及大量人工標註數據、反覆檢驗數據——這樣才可以提供最優質的數據給到機器做學習和訓練。

這是人工智能界,最不智能,但又最基礎的、最重要的一環。

京東眾智就是為了解決數據標註這個大難題:通過聚合擁有碎片化時間和線下時間的普通人,當然也包括殘障人士,為企業提供圖像、語音、文本、視頻的數據標註等和數據相關的服務。

京東眾智還有一群特殊的標註專家...

你瞭解殘障人士的收入麼?

有些人是失業狀態的,有些人有工作但收入較低。

截至2016年,全國已辦理殘疾人證的人數是3219萬餘人,登記就業的僅為896萬餘人,約70%的殘障人士長期處於失業狀態。

在京東金融的眾智平臺上,殘障數據標記全職專家平均月收入達到3800元以上。

不但為殘障人士提供了“足不出戶”的就業機會,還給他們的生活提供了保障。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

殘障數據標註專家給剛加入的殘障小夥伴培訓如何準確標記數據

“聾啞人雖然聽不到,但是他們的視覺或者嗅覺都很敏銳,讓他們來做圖像標註工作準確率很高”——京東眾智項目組同事這樣談到與殘障人士的合作。

具體是這樣標註數據的

以下是京東眾智自主設計的採集、標註數據的模板,大家感受一下:

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了


這是需要前期大量的人工去標記“說出的話”對應的“文字”,用人工的方式一點點修正語音和文字直接的誤差。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

在自動駕駛中,人工智能需要大量的路面數據,來計算和確定駕駛中最安全的路徑。

標註綠色區域是公路,也需要用人工的方式打點確定範圍。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

標註路面上行人的行走方向、行人特徵等也是路面駕駛需要的數據。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

標註車輛來確定是否違章、超速;標註行人進行人口流量分析、失蹤人口調查和罪犯追蹤等。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

標註人臉上的特徵,判斷是否為本人,才能開始做人臉上的應用:掃臉上下班打卡,掃臉開門,人臉支付等。

市面上,那麼多數據標註平臺

為什麼要選京東眾智?

1.好用的標註模板

上文展示的標註界面,是京東眾智自己研發的標註模板,做最貼近標註員採集員習慣的模板工具,上手簡單,下手如有神。

京東眾智會根據不同的數據需求,量身定做不同的模板,來完成精準的數據標註。

2.培養專業的標註專家

我們有培養標註專家的三個維度,保障我們的數據標註專家是有一定培訓過程的:

(1) 學習標註七步曲是:瞭解目標 - 學習規則 - 線上培訓、錄像學習 - 實際場景練習-達標考試-進行工作-糾錯講解、改錯。

(2)有完善的職稱等級制度,分為:素材收集員–專家–高級專家–講師。

(3)最好的激勵制度,即標註專家的收益和職稱息息相關。

所以,通過這套的機制的學習和訓練,不只是殘障人士,普通人也可以成為數據標註專家。

3.科學縝密的審核流程

為了讓每一個已標註的數據,做到高要求、高質量,京東眾智還有科學縝密的數據審核質檢流程,保證每一道關卡都是有效的。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

每一道科學縝密的數據審核質檢流程的反覆審核,採用三重組合、離散泳道式的數據流轉邏輯,保證每條數據都是精心調校而出。

4.京東眾智還有兩個殺手鐧

殺手鐧1——Pre-A.I

一個一邊做人工標註工作,一邊建模,讓機器隨著人工的標註,通過機器學習標註行為,慢慢跑贏人工標註,完成單獨標註工作。

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

過去60天才能完成的標註工作,在京東眾智平臺僅需一週左右的時間。

這個速度,目前在業界,只有京東眾智能做到。

殺手鐧2——D.C.S

銀行、金融機構、政府部門等擁有重要數據的機構,他們有海量的數據,但是處理數據採集和標註依然是大難題。

國家的數據,你的身份證,戶口本,銀行賬戶流水拿出來標註,這些數據的敏感性太高,如果全都交給某一個公司就更亂了;以及,有些公司擁有一些特別敏感的數據,但是數據是他們的核心競爭力,一旦洩露了他們很容易被市場取代...

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

綜合以上幾個原因,京東眾智開發了一個類似“黑匣子”一樣的工具,它能將數據標註工作和數據分離:

簡單來說,即數據在對方服務器上,京東眾智做標註工作,通過“眾智星”的前端和後端和平臺資源的打通,完成數據標註且不用擔心數據會被洩露。

5.2017.10~2018.2階段成果

人工智能界最不智能、最人工,但又最基礎的、最重要的一環來了

加入京東眾智


有獎互動:你對數據標註這個工種怎麼看?你覺得京東眾智平臺如何?


分享到:


相關文章: