數據採集標註:AI產業落地的「價值」新高地

數據採集標註:AI產業落地的「價值」新高地

AI跑的越快,數據的加速度就越快。

出品/新摘商業評論

撰文/皮爺

1997年5月11日北京時間早晨4時50分,一臺名叫“深藍”的超級電腦在棋盤C4處落下最後一顆棋子,全世界都聽到了震撼世紀的叫殺聲──“將軍!”這場舉世矚目的“人機大戰”,終於以機器獲勝的結局降下了幃幕。

這也標誌著,AI終究是以不可抵擋之勢衝進了現代社會的舞臺。

如今,在距離5G技術真正落地就差臨門一腳的萬物互聯的當下,AI時代越來越成為一個可望並可及的時間節點,概念的喧囂和爭論終於在此刻即將被畫上一個收尾的句號。

從某種角度而言,它像一門“火箭”的生意,響徹雲霄卻又往往消匿於人們的視線之外,奇快無比但仍讓人不斷感知到它的運行軌跡。

但相比於流星劃過天際的加速度,外界更想看到的是AI背後的紋理和每一個加速被無限放大的“慢鏡頭”,這些背後的故事真實發生又肉眼可見。

而數據,正是解構AI的第一環。

一、AI數據「向陽而生」

350個小時,這是賈宇航給出的一個數字。

他是Testin有數的總經理,上面這組數字便是Testin有數項目經理的職前培訓時間,這300多個小時被拆解為多個模塊——AI基礎、作業管理、場景搭建、突發事件處理等等。

將這些拆解的模版拼接組合,便構成了一個完整的行業操作架構——AI數據採集標註服務,這是一個藏在AI高光影子裡的幕後產業。

數據採集標註:AI產業落地的「價值」新高地

一個明顯的信號是,在當下這個全民皆“AI”的時代裡,AI數據服務始終保持著向陽而生的進擊姿態,緩慢卻又不容置疑。

對於這個行業近幾年的發展,一組數據是最佳佐證:據艾瑞諮詢最新報告顯示,2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定製服務佔比86.2%,行業年複合增長率為23.5%,預計2025年市場規模將突破110億元。

你可以理解為,AI數據服務如同人工的“水電煤”,只有這些原料儲備充足,才能保證人工智能的大船順利航行。

和算法、算力一樣,數據同樣至關重要。“數據是人工智能的血液。當下是大數據基礎上的人工智能,是數據智能的深度學習時代,可以說誰掌握了數據,誰就有可能做好。”中科院自動化所研究員、視語科技創始人王金橋表示。

拆解來說,當下的人工智能也被稱作數據智能,在這個發展階段,神經網絡的層數越多,神經網絡越深,而需要用於訓練的數據量越大,這些都為這個行業帶來元源源不斷的活水。

具體的工作內容不難理解——用數據爬蟲抓取互聯網現存數據,並進行選取拉框,再或者根據用戶定製化的硬件以及場景需求,去完成數據的採集與多維度數據標註。

更可以看作,AI數據的採集與標註是以互聯網時代的其他技術手段為抓手,在如今AI+lOT+5G的時代裡,它站在巨人的肩膀上為人工智能提供最精準和最豐富的養料。

一個定論是,AI跑的越快,數據的加速度就越快。

二、中場戰事

但從某種角度來說,AI數據服務的中場已至。

隨著人工智能的逐漸落地,企業對於數據精度的要求也開始越來越高,更多粗放的企業已經不能滿足高質的要求。

“對於算法,數據已經不僅僅是充當飼料,同時也在逐漸充當嬰兒的奶粉,運動員的優質蛋白一樣,擁有了就可以更好的成長具備競爭力。”賈宇航表示。

但事實上,為算法提供足夠優質的嬰兒奶粉,並不是一件容易的事。

在數據採集標註服務中,尤其是數據標註,一度被外界描述為“血汗工廠”——在不少中國的三四線城市乃至山區,從事數據標註的人們遍佈其中,無數大量、廉價的標註工作填充著他們的閒餘時間,進而為人們帶來一定的報酬。

但就本質而言,這種機會正在越來越少,“隨著標註行業的持續推進,更多重複性的數據已經不需要再被標註,更多精細化的、專業化的數據和場景才是目前的剛需。”

摘掉廉價勞動力的帽子,不難發現數據AI數據服務行業正在發生著從量到質的本質變化。

一個最簡單的例子是,如果是人臉檢測,那麼利用人們的拉框標記就可以很快滿足需求。但隨著專業AI公司要求的提升,AI已經不再僅僅是做人臉檢測,而是視線追蹤、或是微表情檢測。很顯然,這類需求很難通過互聯網或者眾包用戶採集完成。

數據採集標註:AI產業落地的「價值」新高地

有不少前沿性的公司已經意識到這種改變,“Testin有數的辦法是自建數據採集基地,搭建專門的場景實驗室。目前,Testin有數已經有了200多人的研發與產品經理,以及近千人的數據標註團隊。”

不難看出,隨著人工智能逐步進入深水區,AI對於數據的需求正在以一種堅定而又緩慢的姿態改變,與之對應的也正是數據行業的重新洗牌。

賈宇航表示,現如今,一個完整的數據服務工作流程是由可行性評估到執行,到審核,再到交付四個環節組成。這中間,如何分工,審核與執行之間又該如何形成反饋閉環,怎樣能夠提升工作效率都是需要經驗摸索以及成本投入的。

細顆粒化的流程,專業可視化的操作模式再輔以定製化的數據場景,無不都在顯示這個“藏”在AI影子裡的產業正在迎來自己的中場戰事。

有人在改變,更有人在消亡。

三、數據服務的“摩斯密碼”

在消亡和新生的常態之中,對數據服務行業中,企業需要擁有自己依託於AI發展的“摩斯密碼”。

拆解來看,可以理解為三個不同的模塊。

首先是針對不同場景的數據採集。從某種意義上來說,根植於使用場景的需求正在逐步成為現實,即通過自行構建實驗場景來進行更為專業、高效的數據採集。

如Testin有數專門在橫店建了一個數據採集基地,根據客戶訂單需求,進行特定動作、表情的捕捉,以進行多角度多姿態的動作數據採集。

二是標註方面的人才。從某種角度來說,人才才是標註行業自身壁壘的最大支撐。對於普通的數據標註,簡單的拉框勾選定義即可完成工作,但更為專業的需求就需要從業人員對行業有足夠深入的理解和足夠豐富的標註經驗。

一個比喻較為恰當,如果將數據標註比作一臺手術,隨著手術規模的逐漸增大,主刀人的技術和經驗也必須提上同等的水平,只有這樣,才能獲取更為精準高質的數據。

最後是數據安全。對於這樣一個老生常談的話題,數據採集標註的企業更需要保持高度的敏感,從某種意義上,它更代表著企業的摘牌和操守,只有保持這個底線,才能永立於不敗之地。

“Testin有數不僅在硬件和操作系統上採取了加密措施,封死USB接口、採用內網瀏覽器端操作標註數據、保證所有參與工作的員工只能操作數據,不能獲取數據,且每次標註任務交付數據結果後,都會銷燬數據。”賈宇航這樣向我們介紹Testin有數的數據安全機制。

不能迴避的是,行業的另一面也確實存在企業數據粗製濫放的現象,不過可以看到,在當下日益規範的大趨勢下,良幣驅逐劣幣的現象正在發生。

數據採集標註:AI產業落地的「價值」新高地

偏“重”的場景化建設,更為專業的人才梯隊,數據的安全底線,只有具備這三個環節的全部屬性,企業才可以算是真正擁有了構建AI服務底層框架的“摩斯密碼”。

就當下來看,這是一項頗為長遠的工程。作為AI數據服務行業的領跑者,Testin有數等企業正在以自身為標杆不斷完善行業規範,構築數據服務行業的新未來。

在電影《西部世界》裡,只有你達到代表著鑰匙的迷宮正中心,才可能真正完成這個AI遊戲的通關。

可以看到,在人工智能不斷升溫的當下,需要更多優質的數據構建它的數據密碼,這是一個道阻且艱的過程,考驗的不僅是耐力,更是與時俱進的進化力,唯有如此,才能真正達到迷宮的正中心,取得鑰匙。

值得慶幸的是,有更多的像Testin有數這樣的企業站在AI的身後,用更為專業專注的態度來保障AI,真正做AI行業的挖井人。

有領跑者,更有AI行業不斷向前的動力加持,對於人工智能三要素之一的數據,它值得我們賦予更大的期待。


分享到:


相關文章: