在人工智能飛速發展的時代,機器已經初步具備人的視覺、聽覺、語義識別的能力。同時如果要讓機器變得越來越“聰明”,需要大量優質的數據來提升機器學習的準確性。
數據採集和數據標註,是這個過程中工作量最大的一環,需要大量人工採集數據,以及大量人工標註數據、反覆檢驗數據——這樣才可以提供最優質的數據給到機器做學習和訓練。
這是人工智能界,最不智能,但又最基礎的、最重要的一環。
京東眾智就是為了解決數據標註這個大難題:通過聚合擁有碎片化時間和線下時間的普通人,當然也包括殘障人士,為企業提供圖像、語音、文本、視頻的數據標註等和數據相關的服務。
京東眾智還有一群特殊的標註專家...
你瞭解殘障人士的收入麼?
有些人是失業狀態的,有些人有工作但收入較低。
截至2016年,全國已辦理殘疾人證的人數是3219萬餘人,登記就業的僅為896萬餘人,約70%的殘障人士長期處於失業狀態。
在京東金融的眾智平臺上,殘障數據標記全職專家平均月收入達到3800元以上。
不但為殘障人士提供了“足不出戶”的就業機會,還給他們的生活提供了保障。
“聾啞人雖然聽不到,但是他們的視覺或者嗅覺都很敏銳,讓他們來做圖像標註工作準確率很高”——京東眾智項目組同事這樣談到與殘障人士的合作。
具體是這樣標註數據的
以下是京東眾智自主設計的採集、標註數據的模板,大家感受一下:
這是需要前期大量的人工去標記“說出的話”對應的“文字”,用人工的方式一點點修正語音和文字直接的誤差。
在自動駕駛中,人工智能需要大量的路面數據,來計算和確定駕駛中最安全的路徑。
標註綠色區域是公路,也需要用人工的方式打點確定範圍。
標註路面上行人的行走方向、行人特徵等也是路面駕駛需要的數據。
標註車輛來確定是否違章、超速;標註行人進行人口流量分析、失蹤人口調查和罪犯追蹤等。
標註人臉上的特徵,判斷是否為本人,才能開始做人臉上的應用:掃臉上下班打卡,掃臉開門,人臉支付等。
市面上,那麼多數據標註平臺
為什麼要選京東眾智?
1.好用的標註模板
上文展示的標註界面,是京東眾智自己研發的標註模板,做最貼近標註員採集員習慣的模板工具,上手簡單,下手如有神。
京東眾智會根據不同的數據需求,量身定做不同的模板,來完成精準的數據標註。
2.培養專業的標註專家
我們有培養標註專家的三個維度,保障我們的數據標註專家是有一定培訓過程的:
(1) 學習標註七步曲是:瞭解目標 - 學習規則 - 線上培訓、錄像學習 - 實際場景練習-達標考試-進行工作-糾錯講解、改錯。
(2)有完善的職稱等級制度,分為:素材收集員–專家–高級專家–講師。
(3)最好的激勵制度,即標註專家的收益和職稱息息相關。
所以,通過這套的機制的學習和訓練,不只是殘障人士,普通人也可以成為數據標註專家。
3.科學縝密的審核流程
為了讓每一個已標註的數據,做到高要求、高質量,京東眾智還有科學縝密的數據審核質檢流程,保證每一道關卡都是有效的。
每一道科學縝密的數據審核質檢流程的反覆審核,採用三重組合、離散泳道式的數據流轉邏輯,保證每條數據都是精心調校而出。
4.京東眾智還有兩個殺手鐧
殺手鐧1——Pre-A.I
一個一邊做人工標註工作,一邊建模,讓機器隨著人工的標註,通過機器學習標註行為,慢慢跑贏人工標註,完成單獨標註工作。
過去60天才能完成的標註工作,在京東眾智平臺僅需一週左右的時間。
這個速度,目前在業界,只有京東眾智能做到。
殺手鐧2——D.C.S
銀行、金融機構、政府部門等擁有重要數據的機構,他們有海量的數據,但是處理數據採集和標註依然是大難題。
國家的數據,你的身份證,戶口本,銀行賬戶流水拿出來標註,這些數據的敏感性太高,如果全都交給某一個公司就更亂了;以及,有些公司擁有一些特別敏感的數據,但是數據是他們的核心競爭力,一旦洩露了他們很容易被市場取代...
綜合以上幾個原因,京東眾智開發了一個類似“黑匣子”一樣的工具,它能將數據標註工作和數據分離:
簡單來說,即數據在對方服務器上,京東眾智做標註工作,通過“眾智星”的前端和後端和平臺資源的打通,完成數據標註且不用擔心數據會被洩露。
5.2017.10~2018.2階段成果
加入京東眾智
有獎互動:你對數據標註這個工種怎麼看?你覺得京東眾智平臺如何?
閱讀更多 京東金融 的文章