03.04 AI商業化之爭:高質量NLP數據成“搶手貨”

如今調戲Siri已經成為網友們的固定節目。數據顯示,蘋果語音助手Siri大約每天會收到全國427000個問題,其中80%的問題都是:“你會說東北/四川/湖南話嗎?”“來段beatbox好嗎?”

AI商業化之爭:高質量NLP數據成“搶手貨”

不得不說,Siri真的為人類付出太多了。事實上,像Siri這樣的AI聊天機器人,生來並不是為了逗笑人們,而是作為一個虛擬AI助手,去幫助用戶解決生活中各種各樣的問題,比如天氣預報、吃飯訂餐、查詢新聞資訊、交通路線等等。

這背後,不乏有AI企業的深耕細作,同時也有眾多傳統企業智能化轉型,運用AI技術優化用戶體驗、增強企業協同效率等。

然而,由於AI聊天機器人背後的NLP(自然語言處理)技術太過艱深,打通了NLP技術的“任督六脈”,幾乎等同於擁有了人類的認知智能,因此至今沒有任何一個科技巨頭敢宣稱自己的AI產品擁有和人類一樣的語言和認知能力。

這也是為什麼儘管蘋果Siri、亞馬遜Alexa、谷歌Google Assistant、微軟Cortana等各種AI聊天機器人,每天都在孜孜不倦地改進自己的NLP技術能力,但是在和人類的對話中,依然會出現令人發笑、困惑、擔憂等多種結果的原因。

最近,亞馬遜Alexa再次爆出負面新聞,有用戶稱在使用Alexa期間,提問過有關心跳週期信息的問題,Alexa竟回應稱“心跳是人體中最糟糕的過程,人活著會導致自然資源的迅速枯竭同時會導致人口過剩”,並建議用戶刺死自己。

這種恐怖的對話,不禁讓人們想起了2016年微軟推出的一款AI聊天機器人Tay,上線不到一天的時間就被網友們教成了滿口髒話的“小孩”,在Twitter上大肆發佈各種胡言亂語的帖子,導致Tay在24小時內被迫下架。

如果一個“智能低下”、“胡言亂語”的AI被廣泛應用於商業化產品中,其後果可想而知,不僅是AI產品質量飽受質疑,還可能會釀成大禍。因此,提升AI產品的認知智能水平,即背後的NLP技術,成為現階段AI商業化競爭的關鍵點。

事實上,NLP作為AI技術中的一個重要分支,同樣依賴算力、算法、數據三因素。其中,算力基於IT基礎設施的發展,NLP算法基於深度學習的突破,在近年來都得到了較大的進展,但是作為NLP技術得以落地的“養料”——NLP數據,卻一直處於較為“粗糙”的狀態。

AI商業化之爭:高質量NLP數據成“搶手貨”

從草莽到高標準

NLP數據服務進入4.0時代

在人工智能時代,數據的重要性不言而喻。很多號稱擁有海量數據的公司,其實有的只是非結構化或未標註過的數據。數據標註,才是將數據轉化為AI商業價值的重要一環。

數據標註,即針對語音、圖像、文本等數據,通過貼標籤、做記號、標顏色或劃重點的方式,來標註出其中目標數據的不同點、相似點或類別。有了被標註過的數據,AI算法才能在其基礎上進行訓練和學習。同時,數據標註的質量越高,AI學習和產出的結果越精確,AI也就顯得越智能。

舉個例子,在生活中如果想要訂機票,人們會有很多種表達:“訂機票”;“有去上海的航班麼”;“要出差,幫我查下機票”;“查下航班,下週二出發去上海”......這些表達方式,有無窮多的組合,都代表“訂機票”的意圖。聽到這些表達的AI,要如何才能準確理解這些表達指的都是“訂機票”這件事?

如果沒有數據標註員對大量的句子進行標註,比如提煉出主題、標出實體、進行意圖分類、情感分類等等,給AI提供詳盡高質的“教材”,那麼AI即使有了算法和算力,也無法訓練出任何“智能”。

隨著近年來深度學習算法的興起,需要依賴於大量標註的數據基礎上才能發揮作用,業界對數據標註的需求量隨之暴增,因而提供數據標註服務成為AI領域一個熱門生意。

在全球知名的數據標註眾包平臺亞馬遜Mechanical Turk上,發佈者只需要填寫簡單的個人信息就可以開始工作,自行上傳標註任務。截至2011年1月,MechanicalTurk上的註冊工人數量已經達到了50萬。在2016年,有大約5%的美國人通過 MechanicalTurk賺錢,而這個數量已經超過了優步司機。

在中國,目前全國從事數據標註業務的公司約有幾百家,全職的數據標註從業者有約20萬人,兼職數據標註從業者有約100萬人。由於數據標註需求的井噴,為整個數據服務行業的發展按下了快進鍵。

據智研報告顯示,2018年,中國數據標註與審核行業的市場規模已達到52.55億元。在數據標註賽道中,不乏互聯網大廠的身影,更多的是瘋狂湧入的創業公司。在廉價勞動力迅速擴張的比拼中,數據粗放、混亂、複用的情況屢見不鮮,整個行業呈現出一派草莽的氣質。

然而,數據標註工作真的有想象中的那麼簡單嗎?良莠不齊的標註數據質量,真的能夠滿足AI算法迭代的要求嗎?

在AI商業化初期,AI算法對數據的精度要求不高,日常的AI訓練首先要求數據量大,數據標註質量要求相對不那麼嚴格。但是隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,企業對AI在商業化落地中的表現要求越來越高。為了保證AI算法的識別精度,數據標註的質量也就變得至關重要。

例如,在金融保險行業,早期對AI客服機器人的要求只停留在“用戶提問後,對其中的關鍵詞進行提取,並按照既定話術回答”。雖然最終回覆很多是驢唇不對馬嘴,或者根本無法回答用戶的問題,但是並不妨礙保險業務的正常開展,畢竟人工客服才是回答用戶提問的主力軍。

但是在互聯網金融業務競爭異常激烈的今天,越來越多的用戶習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,並影響用戶體驗,很大程度上決定了金融機構的競爭力。

如果說NLP標註數據的初期階段,能夠將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平,那麼向更高級認知智能進發的每一步,都要求質量更高、針對特定需求提供的NLP標註數據。

因此,雲測數據這種新的數據服務模式——以企業具體需求進行數據採集和標註的定製化、高質量數據服務由此誕生。

AI商業化之爭:高質量NLP數據成“搶手貨”

站在AI數據服務的發展歷史角度看,從數據1.0時代的互聯網沉積數據,到數據2.0時代的通用型數據產品,再到數據3.0時代的眾包數據服務,如今的高質量數據服務已經進入了數據4.0時代。

通過更加規範性的組織管理和質量控制,為人工智能迭代提供質量更高更可靠的數據服務,從而為現階段AI商業化競爭提供高質量的數據支撐。

“搶手”的高質量NLP數據

“稀缺”的數據服務商

事實上,越來越多的企業已經意識到了高質量NLP數據的重要性。當AI技術落地到金融、家居、醫療、教育、汽車、工業等各個行業,在AI商業化下誕生的客服機器人、智能音箱、智能問診等各種AI產品,都對AI技術和NLP數據提出了更高的要求。

AI商業化之爭:高質量NLP數據成“搶手貨”

尤其是行業頭部企業,為了保持自身的競爭優勢,哪怕只是在行業平均水平上提升1%-2%的AI認知智能的準確性,也必須追求更高質量的、符合業務需求的NLP數據。因此,在AI產業蓬勃發展、市場競爭愈發激烈的倒逼下,符合企業需求的高標準NLP數據服務已成為行業頭部企業的剛需。

然而,在洶湧的市場需求面前,供給側卻出現了短缺,市面上能夠提供這種高標準服務的公司屈指可數。究其原因在於,數據採標行業門檻雖低,但天花板很高,能做到頂尖並不容易。在這一新興領域,專精於定製化、場景化、高質量數據服務的雲測數據一路高歌猛進,成為國內AI數據標註領域的頭部企業。

雲測數據採用自建的數據場景實驗室和數據標註基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領域提供的數據採集、數據標註服務。在眾多毫無技術含量、以廉價勞動力構建的數據標註“血汗工廠”中,主打高質量服務的雲測數據顯得頗有些“另類”。

首先,為了產出更高質量的數據,雲測數據有一整套的標準化流程和方法論。

在項目前期,項目經理會與客戶反覆溝通,幫助客戶梳理更貼合實際情況的需求,達成一致後再逐漸引入標註和質檢人員,通過每天面對面的溝通和培訓,以確保每個人能夠理解並掌握標註有關技術,試標驗收合格後,再進行大批量的規模性標註。

AI商業化之爭:高質量NLP數據成“搶手貨”

在項目過程中,為了確保標註人員能夠做出正確的判斷,雲測數據有專門的培訓師,對每個行業細分領域的專業知識進行培訓,以及標註技能和業務流程的培訓。甚至員工之間開玩笑的說“經過金融保險行業知識培訓的標註員們,都能夠直接去賣保險“。

在數據標註作業提交後,雲測數據還有三層質檢環節,對於準確率達不到要求的數據會打回重新標註。在完成三層質檢後,還有抽檢環節,確保數據的高質量輸出。

其次,在人員作業素質上,雲測數據也顛覆了傳統數據標註行業的“混亂”氣質,對數據服務團隊的專業化能力有著嚴格要求。

以智能客服業務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現在不方便,你一會兒再打過來”等等,背後的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那麼,NLP數據標註就需要對這些對話背後的意圖進行標註和分類。

在雲測數據,以智能客服單個場景的意圖標註,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標註細分。

除了對NLP數據進行對話意圖、領域、槽位等進行判斷和標註,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子並給出正確的回答,這就要求NLP數據標註員對句子進行泛化,以不同的描述方式重組或擴充句式、標籤等,以提升AI對話的準確度。

AI商業化之爭:高質量NLP數據成“搶手貨”

值得注意的是,相比圖像、視頻等數據類型,NLP數據採標方式更為複雜。據云測數據總經理賈宇航介紹,圖像採標有很強的規則性,按照規範化的指導文檔工作即可。

但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理,客戶給出的需求文檔只是讓數據服務人員能夠理解,這件事情背後的目標和意義是什麼。在這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反覆溝通確認達成一致後,才能真正地去作業。

這對於數據服務人員的專業化能力、對業務場景的還原能力、作業協同能力,都有很高的要求。尤其在醫療、法律、教育、智能駕駛等高度專業化的領域中,標註人員並不是隨便找一個普通人員就可以做,標註人員需要非常專業,才能進行正確的數據標註與解讀。

為了保證整個數據團隊的專業能力,雲測數據在人才的選拔、培訓、考核、晉升上有著完善的機制,也對保證數據保質量產出有著十分積極的促進作用。

再次,在技術層面,雲測數據對軟硬件設施的持續投入,直接拉高了行業的進入門檻。

雲測數據自研的數據標註平臺會根據實際使用中的反饋,以每週甚至更快的頻率進行功能迭代,以技術結合更多的落地場景,不斷提升數據標註工具的技術含量。同時,雲測數據也致力於通過工程化開發來減輕數據標註中的重複勞動,提升業務效率。

最後,在企業客戶最為看重的數據安全和隱私方面,雲測數據也有自己的原則和技術保障。

第一,數據絕不復用,是雲測數據的核心原則。對於客戶定製的數據需求,交付後全部清刪,雲測數據既不會自己留底,也不會把定製數據複製給其他客戶,可以說雲測數據一直在花大力氣樹立數據安全和隱私的標杆,以負責的態度來服務客戶。

在賈宇航看來,讓企業擁有數據會成為企業核心的競爭壁壘,客戶找到雲測數據合作,一方面是信任,另一方面也是雲測數據能夠幫助客戶獲得相應的競爭性。

第二,為了保證絕對的數據安全,雲測數據與所有數據採集的用戶都簽訂數據授權協議,保證企業用於訓練的數據合法合規。同時,雲測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。

在數據服務市場,數據質量是硬指標,企業客戶會通過人工校驗、算法檢驗等多種方式去驗證數據採標的合格率和通過率。經得起市場考驗,才有活下去的機會。

按賈宇航的話說,“我們以企業服務的方式,為標註的精準度負責”。

在雲測數據服務的數百家企業中,既有各大頭部AI企業,也有各個行業的龍頭企業。這些企業在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數據服務商,最終找到了數據標註質量非常高的雲測數據,並保持著長期良好的合作。

事實上,除了數據採標的質量和安全,數據服務商的全品類服務能力,以及獨立第三方的身份,也是企業進行AI合作所考量的重要因素。像雲測數據這樣的服務商,不做算法,不涉及客戶業務,只提供專業的數據服務,讓企業客戶在合作時倍感放心。

從某種程度上說,如此苛刻的要求,也進一步導致了頂尖數據服務商的稀缺。

高標準數據服務處於爆發前夜

頭部服務商主導市場

如今,AI產業在政策紅利和藍海市場的雙重利好中迎來快速發展,其中NLP市場發展也進入了快車道。

據《中國人工智能發展報告2018》顯示,2017年中國人工智能智能市場規模高達237億元,其中自然語言處理市場49.77億元,佔比21%。預計到2020年,中國在人工智能的市場規模將接近500億元,自然語言處理領域也將是一個百億級的市場。

不難預料,為自然語言處理市場提供“養料”的NLP數據服務,同樣處於爆發前夜。目前,自然語言處理已經有了許多商業化應用,如:機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規模和市場需求下,高質量的NLP數據服務也將成為AI商業化發展的必然趨勢。

值得注意的是,雖然高質量NLP數據需求爆棚,但是在市場上,像雲測數據這類優質數據服務商會持續稀缺,供需不平衡很難在短期內解決。

從供給側看,高質量業務的競爭壁壘很高,由高素質人才、專業化流程和方法論構建出的軟實力,很難在短期內實現超越。看似業務模式很重的模式,實際上給擅長“輕裝上陣”、以平臺效應進入賽道的互聯網巨頭們,設下了短期內無法逾越的鴻溝。正如經緯的創始合夥人張穎所說:“所有輕公司以後都會做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。”

AI商業化之爭:高質量NLP數據成“搶手貨”

從需求側看,一方面,AI商業化對NLP數據的要求還在繼續提高,數據服務的業務操作會越來越複雜,無論是在數據採集的樣本多樣性、場景多樣性方面,還是在數據標註的數據精度、領域知識方面,數據服務商都面臨不斷升級的業務難度。對於後進者而言,沒有專業知識、技術和行業經驗的日復一日的積累,這種競爭差距只會越拉越大。

另一方面,由於AI算法需要源源不斷地輸入高質量的標註數據,好的數據服務業務粘性很高,以雲測數據為例,一個項目在建立合作之後,往往會帶來長達2-3年的持續合作,這就產生了馬太效應,強者恆強。

從供需雙方合作的現狀看,高質量、定製化數據服務是一個新興領域,供需雙方的合作模式還在升級和探索中。曾經習慣大包大攬、自建數據採標團隊的企業,如今也在逐漸轉向尋求專業的數據服務商合作。

在這一過程中,供需雙方會出現更加明確的分工,也會在市場競爭的淘洗中,沉澱出最為優質的服務商。而這種合作模式的探索,最先會從各行業的頭部企業和頭部服務商開始,逐漸在眾多中小型企業中形成“示範效應”。

“沒有好的數據,人工智能就沒有未來”,這句話已經成為業界共識。在巨大的AI商業化需求下,高質量的數據已成為AI業務競爭的關鍵,由此誕生的數據服務也將是未來最重要的趨勢之一。可以預見,高標準數據服務這一新興市場亟待爆發,從長期看必將經歷從荒蕪到繁榮、從亂象到規範的發展過程,繼而承載著AI技術進入更加智能的下一階段。


分享到:


相關文章: