數據標註:人工智能背後的“人工”力量

数据标注:人工智能背后的“人工”力量

數據標註員正在工作。受訪者供圖

新華社北京1月25日電(記者高杉 李宓)在北京北五環外的一座科技園內,22歲的張嵛森正坐在電腦前給屏幕上的一幅街景勾畫上彩色線框,框選出圖中的交通信號燈、路牌和路障。在他身邊,幾百臺型號不算新的電腦如網吧般排列,同事們大多與他年齡相仿,敲打著鍵盤,熟練地做著類似的工作。

張嵛森是一名數據標註員,生產大量可供計算機深度學習的訓練數據,使人工智能“學會”從人臉識別到車輛自動駕駛甚至更為複雜的任務。一位數據標註員每天可以進行幾千次標註操作。

北京倍賽數據平臺創始人杜霖說,數據是人工智能的基石,數據標註正是人工智能深度學習技術催生出來的新職業。

数据标注:人工智能背后的“人工”力量

倍賽數據北京工廠內的工作環境。受訪者供圖

數據是基石

生於1987年的杜霖看到了深度學習的興起趨勢,於2014年創建了倍賽數據平臺。這家公司目前已發展為中國數據標註行業的領先企業,客戶包括斯坦福大學、中國科學院、中國移動和商湯科技等。

“計算機深度學習技術的實質,是不斷增加人工智能識別一個物體時的維度,形成龐大的矩陣。這個矩陣構建的過程基於樣本數據的累積,也就是數據標註和機器學習的過程。”杜霖說。

在數據的基礎上,人工智能技術得以應用於各個領域,融入了人們的日常生活。人臉識別是人工智能最基礎的應用。打開抖音和美圖秀秀,人工智能識別到人臉五官,進行一個形態學的變換,這就是締造網紅美顏特效的生效過程。

汽車自動駕駛是人工智能較為高級的應用場景。計算機通過對信號燈、車道線、行人、車輛的識別和分類,規劃出適合的駕駛方案並時時做出調整。

杜霖曾試驗打造過一款智能冰箱。“我們改裝了一臺冰箱,用3萬多張圖片建立了一個可識別不同食品的數據體系,識別準確率達到了89.9%。前後6個半月的時間,有5個月用來和數據打交道。”杜霖說,這次嘗試讓他愈加認識到數據的重要性。

数据标注:人工智能背后的“人工”力量

數據標註員正在工作。受訪者供圖

人類的“臨門一腳”

去年,曾有業內人士預判,數據標註員這樣的職業很可能將被淘汰,人工智能技術發展中的數據標註、數據獲取、特徵提取、模型設計和訓練等環節有可能實現自動化或半自動化。

杜霖則認為,在10到15年內,受到技術的約束,行業的運行將維持與現階段相似的模式,“人工智能不會是未來的全部。未來將是人工智能與人類智能的結合,是人機耦合的時代。”

中國科技大學機器人實驗室主任陳小平說,到目前為止,所有人工智能技術都來自於監督學習,人腦在推理處理未知信息方面表現出色,人工智能仍然無法做到這一點,“比如人工智能或許可以識別不同品種的狗,但它很可能分辨不出毛絨玩具和動物的區別。”

“世界是很隨機的,”杜霖說,總會有計算機識別不出的特異數據出現,關鍵時刻,機器還是會需要人類的臨門一腳,“人機耦合的相關研發將是倍賽數據未來發展的重點。”

数据标注:人工智能背后的“人工”力量

數據標註類別示意圖。受訪者供圖

不再“野蠻生長”

在中國,人工智能正經歷著快速發展階段。2018年,人工智能再度被寫入政府工作報告,提出要加強新一代人工智能研發應用。同年教育部印發《高等學校人工智能創新行動計劃》,多所高校設立人工智能學院,投身人工智能人才培養與儲備的熱潮。

數據標註公司經歷過“野蠻生長”階段,行業內良莠不齊,但現階段市場已經淘汰了大批“作坊”式公司,行業的准入門檻大幅提升。冷卻後的數據標註行業已進入相對正規的良性發展階段。杜霖說:“幾年前,百萬級數據就可以支撐一家人臉識別公司的建立,現在沒有過千萬級的數據已無法起步。”

然而,數據標註行業因為勞動相對密集、重複性較強,被一些媒體比喻成人工智能產業工廠流水線上的低端環節。杜霖認為這是對數據標註和人工智能的誤讀。

杜霖說,數據標註員從事的是人工智能時代的信息處理工作。當技術的進步大幅提升了數據處理的效率,人的作用從原來的重複勞動變成了監督和輔助機器學習,“就像工業革命一樣,新技術在取代人力的同時也帶來了新的職業路徑”。


分享到:


相關文章: