數據標註產業:人工智能的背後——先人工,再智能(上篇)


關鍵詞:無人駕駛,數據產業,人工智能,機器學習,數據標註,數據工廠,數據民工

作者:金濃 丨新技術與城市發展研究中心

目錄

1、數據標註產業的誕生

2、從事數據標註產業的人

3、數據工廠的分佈

4、數據標註的未來

從無人駕駛到AlphaGo,傳統人工智能已經取得可觀的成就,AI是否會讓更多人失業也成為了討論焦點。在彭博全球商業論壇上,拉加德援引了國際貨幣基金組織即將發佈的一份報告中的數字:“包括 AI 在內的新興科技將讓全球30個國家和地區的2600萬份工作消失。”但是我們正在看到,AI的發展也催生了像數據標註這樣的新產業,這個產業的市場至少在最近幾年內還會存在增長空間。

數據標註產業的誕生:

源於統計學路徑下的機器學習

1. 目前,人工智能本質上是機器學習

人工智能(Artificial Intelligence)較早的定義,是由約翰·麥卡錫(JOHN MCCARTHY)在1956年的達特矛斯會議(DARTMOUTH CONFERENCE)上提出的:人工智能就是要讓機器的行為看起來就像是人所表現出的智能行為一樣。然而,人工智能如今還是一個主觀而模糊的概念,目前為止還沒有統一的理解。發展至現階段可分為通用人工智能(AGI,Artificial general intelligence)和傳統人工智能。

通用人工智能擁有像人一樣的能力,可以通過學習勝任人的任何工作。霍金和馬斯克認為的未來會成為人類終結者的人工智能是通用人工智能,甚至是更高級的強人工智能——不僅要具備人類的某些能力,還要有自我意識。但是目前對於通用人工智能的研究也並未取得突破性進展,AI毀滅人類更是一個“鬼故事”。

事實上,現在主流發展的傳統人工智能,是基於機器學習特別是深度學習的人工智能,並已成為統計分析的代名詞,而非一般意義的“智能”。因為統計學的歸納概括只能讓計算機在特定的任務上做得越來越好,但並不能產生一般的常識推理能力,類似於羅素雞。

機器學習的關鍵,在於數據規模及質量:

在機器學習系統中,算法本身只是系統的一部分,另一個部分是數據。目前的主流算法模型是“監督學習”,這種算法需要有標註的數據錄入模型,對模型訓練以優化模型的參數,訓練後的模型可以進行推斷,數據越多,機器學習的效果就越好。

擁有數據就像擁有礦產,是構建起競爭壁壘的關鍵,這是AI界最根本的競爭。業界的共識是“大量數據+普通模型”往往會比 “普通數據+高級模型”的效果要好。初期具備算法優勢的公司,會被後起具備數據優勢的公司所碾壓。

Google技術大牛Jeff Dean曾在公開課上展示過海量數據的訓練結果,如圖所示。橫軸代表數據規模,縱軸代表準確率,藍線是深度神經網絡算法,綠線是傳統訓練方法。可以看到,神經網絡算法中準確率和數據規模及質量持續成正比。

數據標註產業:人工智能的背後——先人工,再智能(上篇)

神經網絡算法中準確率和數據規模及質量持續成正比

2. 數據標註:有多少人工,就有多少智能

但數據多並不意味著質量高,沒有標註的數據可用性非常低。數據標註便是深度學習下的產物,常應用於文字識別、人臉技術、語義分析、自動駕駛、智能監控等領域,機器通過學習大量的標籤數據對特徵進行歸類,才能做到自主識別並進一步作決策。如美國加州科技大學校長秦志剛教授所說“數據標註是人工智能產業的基礎,是機器感知現實世界的起點。從某種程度上來說,沒有經過標註的數據就是無用數據。”

那麼數據是如何被標註的呢?數據標註之前首先要進行數據獲取,獲取途徑包括從公開數據集、爬蟲或專業數據採集等。其次要進行數據清洗,如去除無效的數據、整理成規整的格式,得到符合要求的數據。然後才能進行數據標註:算法研發人員會制定規則——如標註工具、方式,及輸出格式,並會在試標階段確定需求。數據標註員在標註數據過程中為了保密需求,通常會在指定的平臺上用指定的工具進行標註,且數據不能存儲在本地上。標註的數據類型包含圖片、文字、語音、視頻等,例如圖片常見的標註方式包括打出特徵標籤的分類標註、應用於人臉識別或物品識別的標框標註、應用於自動駕駛識別中的道路邊界區域標註,以及應用於人臉識別、骨骼識別等的描點標註等等。標註過的數據質量需要進行審查,審查維度包括正確率、精確度、完備性、一致性等,合格後的數據會重新傳送到客戶手中,然後,這些數據在經歷模型訓練、模型測試、反饋數據問題等過程後,會被應用到自動駕駛、AI安防、智能身份認證等新興應用領域。

數據標註產業:人工智能的背後——先人工,再智能(上篇)

連續使用標記數據來訓練模型,並不斷調整模型參數以獲得具有更高指數值的模型

此外數據標註對於準確度的要求非常高,例如在自動作出貸款決定的AI系統中,算法部分可能沒有偏見,對個體完全公平,但如果算法訪問的數據在標註上存在錯誤或偏見,在算法從數據中學習後,決定結果可能就做不到完全公平了——如果被用來作出決定的數據存在偏見,那麼決定本身就可能存在偏見。而標註數據的準確度從95%提升到96%,需要團隊多花費3倍的時間,由於一點細微的問題,整個訂單都要重新返工。因此,數據標註圈裡流傳著這樣一句話——有多少人工,就有多少智能。


從事數據標註產業的人

是專門的標註員,也是你和我

數據標註行業的發展與AI產業發展呈現一致性:2011年,中國AI行業的起步,數據標註的外包市場開啟,直到2015年行業發展真正開始,2016年下半年出現收縮,2017年,中國AI創業開始達到頂點,對數據標註的需求也迅速爆棚。根據智研諮詢的行業報告,2018年我國數據標註與審核行業規模達到52.55億元。根據Basic Finder的說法,人工智能公司的總支出中,目前有20%-30%用於數據。

數據標註行業內的數據標註機構主要有三類,一類是AI公司內部的標註部門,另外兩類是數據標註眾包平臺,以及專門做數據採標的公司。

第一種是指由公司自建內部團隊,來負責標註工具開發和完成大量數據標註任務,如小米、曠視、NVIDIA自動駕駛組等都有大量數據標註任務由公司內部完成。但大多數人工智能初創企業只有少數全職員工,為了集中精力研發,數據標註必須要外包出去。BAT及大型人工智能公司內部也無法完成所有的數據標註工作,例如曠視一年在數據上的支出有數千萬。此外學術機構,以及政府、銀行等都有數據標註外包需求。BAT和人工智能公司需求最大,學術機構次之,政府、銀行等目前需求較小但不斷增長,三類業務需求的比例為7:2:1。

第二種是眾包平臺,他們與需要數據標註的客戶建立合作關係後,把任務分發給互聯網用戶,這些人多為兼職,形成“需求公司——眾包平臺——多個互聯網用戶”的模式,國內眾包平臺包括百度眾測、京東眾智、數據堂等。

世界上第一個眾包平臺亞馬遜勞務眾包平臺(Amazon Mechanical Turk,簡稱am trunk)2005年出現於美國,最初是為了解決亞馬遜公司內需,後對外開放成為鏈接需求方、並面向個人的數據標註眾包平臺,平臺可抽成每單任務獎金的10%,截至2017年底,該平臺註冊用戶量達50萬。2007年李飛飛帶領團隊創建的世界最大圖像識別數據庫ImageNet,其超過1400萬被分類的圖片便是依賴於Amazon Mechanical Turk上5萬名用戶耗時兩年完成。

而有趣的是,Mechanical Turk(土耳其機器人)的名字早就劇透了人工智能訓練的本質——1769 年, 匈牙利機械師發明了一個“能戰敗人類”的自動化機器Mechanical Turk,84年間擊敗了很多挑戰者,包括拿破崙和本傑明·富蘭克林,實際上這根本不是自動化的機器,它在比賽時內部藏著一位國際象棋大師,如同坐在電腦後面為AI進行數據標註的人。

數據標註產業:人工智能的背後——先人工,再智能(上篇)

Racknitz繪製的土耳其人橫截面,展示了他認為操作員坐在裡面的方式

眾包模式的最大優點是勞動力成本相對較低,如Amazon Mechanical Turk上價格最低的任務僅為1美分。但是眾包模式最令人詬病的是質量不穩定、保密性差,因為從業人員以兼職為主。據“甲子光年”採訪,業內人士估計中國全職的“數據標註者”已達到10萬人,兼職人群的規模則接近100萬,因為許多互聯網用戶並未經過專業的訓練,且非長期從事數據標註工作,因此眾包模式普遍不被國內看好。

第三種是專門從事數據標註的企業或團隊,被稱為“數據工廠”,數據工廠裡的全職標註員常被比做“數據民工” 。“數據工廠”可直接與企業對接,或也可通過其他平臺與需求方對接,優點是標註人員穩定、可與甲方即時溝通,易把控數據質量,一對一傳遞也降低了數據洩露的可能性。目前也有一些是工廠+眾包模式的混合體,作為數據工廠可提供數據採集、數據標註、數據提取、數據校驗、數據清洗一系列服務,並有自己的平臺網站與需求方對接並提供眾包服務,如龍貓數據、BasicFinder。

但事實上,如果將人工智能行業的發展比作高樓大廈的搭建,我們每一個人都參與到了數據標註這一搬磚的過程中。日常當你進行網站上的二維碼認證時,就可能是在進行數據標註的“義務勞動”。目前應用最廣的驗證碼系統reCAPTCHA建立之初是為了驗證網絡請求是由真人發送的,但在2009年穀歌收購了reCAPTCHA之後,開始利用其集眾人之力進行數據標註,例如識別Google 街景中的門牌和路牌、請用戶“挑出所有xx的圖片”、或是給路牌勾邊等等,並在reCAPTCHA官網上直接挑明瞭這種積極利用人力資源免費眾包,構建機器學習數據集的模式。因此你我每個人實際上都參與到了深度學習數據量的累積標註,直至AI技術爆發的整個過程。

數據標註產業:人工智能的背後——先人工,再智能(上篇)

reCAPTCHA官網對於數據標註眾包的描述

圖片來源:recaptcha/intro/v3.html



分享到:


相關文章: