[行業分析]2019年中國人工智能基礎數據服務研究報告

From: 艾瑞諮詢

核心摘要:

在經歷了一段時期的野蠻生長之後,人工智能基礎數據服務行業進入成長期,行業格局逐漸清晰。人工智能基礎數據服務方的上游是數據生產和外包提供者,下游是AI算法研發單位,人工智能基礎數據服務方通過數據處理能力和項目管理能力為其提供整體的數據資源服務,不過AI算法研發單位和AI中臺也可提供一些數據處理工具,產業上下游普遍存在交叉。

2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定製服務佔比86%,預計2025年市場規模將突破113億元。市場供給方主要由人工智能基礎數據服務供應商和算法研發單位自建或直接獲取外包標註團隊的形式組成,其中供應商是行業主要支撐力量。

數據安全、採標能力、數據質量、管理能力、服務能力等仍是需求方的痛點,需要人工智能基礎服務商有明確具體的安全管理流程、能夠深入理解算法標註需求、可提供精力集中且高質量的服務、能夠積極配合、快速響應需求方的要求。

隨著算法需求越來越旺盛,依賴人工標註不能滿足市場需求,因此增強數據處理平臺持續學習能力,由機器持續學習人工標註,提升預標註和自動標註能力對人工的替代率將成趨勢。遠期,越來越多的長尾、小概率事件所產生的數據需求增強,機器模擬或機器生成數據會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎數據服務商未來的護城河。

人工智能基礎數據服務行業概述

人工智能基礎數據服務定義

意指為AI算法訓練及優化提供數據採集和標註等形式的服務

人工智能基礎數據服務指為AI算法訓練及優化提供的數據採集、清洗、信息抽取、標註等服務,以採集和標註為主。人工智能概念爆發伊始,算法、算力、數據就作為最重要的三要素被人們樂道,進入落地階段,智能交互、人臉識別、無人駕駛等應用成為了最大的熱門,AI公司開始比拼技術與產業的結合能力,而數據作為AI算法的“燃料”,是實現這一能力的必要條件,因此,為機器學習算法訓練、優化提供數據採集、標註等服務的人工智能基礎數據服務成為了這一人工智能熱潮中必不可少的一環。如果說計算機工程師是AI的老師,那基礎數據服務就是老師手中的教材。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務發展歷程

行業進入成長期,行業格局逐漸清晰

伴隨國內人工智能熱潮爆發,大量的AI公司拿到融資,為了不斷提高算法精度,數據採標需求也空前爆發,一度催生了行業的繁榮。但早期的AI基礎數據服務門檻較低,玩家魚龍混雜,使行業標準模糊、服務質量參差不齊。隨著競爭加快,AI公司對訓練數據的質量要求也不斷提高,並且當產業落地成為主旋律,需求方對垂直場景的定製化數據採標需求成為主流,眾多小型AI基礎數據服務公司從數據質量和採標能力上達不到要求,或被淘汰,或依附大平臺,行業格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前機器輔助標註、人工主要標註的手段需要改進提升,增強數據處理平臺持續學習和自學習能力,增加機器能夠標註維度、提升機器處理數據的精度,由機器承擔主要標註工作將成為下一階段的行業重心。未來,越來越多的長尾、小概率事件所產生的數據需求增強,人機協作標註的模式性價比不足,機器模擬或機器生成數據會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎數據服務商未來的護城河。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務的行業價值

目前有監督的深度學習是主流,標註數據是其學習根本

人工智能是研究如何通過機器來模擬人類認知能力的科學,機器學習是現階段實現人工智能的主要手段。機器學習方法通常是從已知數據中學習規律或者判斷規則,建立預測模型,其中,深度學習可以通過對低層特徵的組合,形成更加抽象的高層屬性類別,自動從信息中學習有效的特徵並進行分類,而無需人為選取特徵。憑藉自動提取特徵、神經網絡結構、端到端學習等優勢,深度學習在圖像和語音領域學習效果最佳,是當今最熱門的算法架構。在實際應用中,深度學習算法多采用有監督學習模式,即需要標註數據對學習結果進行反饋,在大量數據訓練下,算法錯誤率能大大降低。現在的人臉識別、自動駕駛、語音交互等應用都採用這類方法訓練,對於各類標註數據有著海量需求,可以說數據資源決定了當今人工智能的高度。由於應用有監督學習的AI算法對於標註數據的需求遠大於現有的標註效率和投入預算,無監督或僅需要少量標註數據的弱監督學習、小樣本學習成為了科學家探索的方向,但目前無論從學習效果和使用邊界來看,均不能有效替代有監督學習,人工智能基礎數據服務將持續釋放其對於人工智能的基礎支撐價值。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務的主要產品形式

定製服務為主要服務形式,數據集產品集中於語音類賽道

目前,國內AI基礎數據服務主要為數據集產品和數據資源定製服務,數據集產品往往是AI基礎數據服務商根據自身積累產出的標準數據集,以語音數據集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優勢,客戶更多采用定製化服務,由客戶提出具體需求,數據服務商或直接對客戶提供的數據進行標註、或對數據進行採集並標註。大型的需求方,為保障數據的安全,往往提供Web形式的自有標註平臺給執行方,以此對整體項目進行把控,也有一些AI基礎數據服務商向客戶提供私有化平臺建設服務,或將自身平臺與甲方系統兼容;除以上兩種形式外,部分AI基礎數據服務商還向算法服務進行拓展,提供算法訓練、模型搭建等服務。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務的發展背景

人工智能經濟崛起為基礎數據服務提供長期向好的基本面

2010年語音識別和計算機視覺領域產生重大突破,國內開始萌生AI概念。到2015年,國內迎來人工智能創業熱潮,獨角獸不斷湧現,融資記錄被不斷打破。2012年-2019年8月人工智能領域共發生2787件投融資事件,總融資額達4740億元,人工智能成為最炙手可熱的融資熱點,百度、阿里、騰訊、京東、華為等科技企業也紛紛加註。2017年至今,產業落地成為AI行業的主流,人工智能賦能實體經濟保持高速發展態勢,涉及行業包括安防、金融、零售、交通、教育、醫療、營銷、工業、農業、企服等眾多領域。下游的爆發式增長為人工智能基礎數據服務的發展提供了長期向好的基本面。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

數據量呈指數式增長,非結構化數據的應用依賴於清洗標註

PC、互聯網、消費級移動設備的興起宣告了數據時代的來臨,物聯網的發展更使線下業務產生的大量數據被採集起來,數據量呈指數式增長,據IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結構化數據。過去計算機主要處理結構化數據,人工智能模型卻以處理非結構化數據見長,但“玉不琢不成器”,數據經過清洗與標註才能被喚醒價值,這就產生了源源不斷的清洗與標註需求。在我國,每年需要進行標註的語音數據超過200萬小時,圖片則有數億張。

[行業分析]2019年中國人工智能基礎數據服務研究報告


人工智能基礎數據服務市場現狀

人工智能基礎數據服務產業鏈

AI基礎數據服務方是行業核心環節

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務產業圖譜

產業上下游普遍存在交叉

AI基礎數據服務方的上游是數據生產和外包提供者,下游是AI算法研發單位,AI基礎數據服務方通過數據處理能力和項目管理能力為其提供整體的數據資源服務。 AI基礎數據服務方整體有兩大類,一種是具備自有的標註基地或全職標註團隊,這類企業也參與產業上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專注於數據產品的開發與項目執行。下游部分AI公司擁有自己的標註工具,也可通過AI中臺獲取一些通用標註工具,同時一些數據需求大的企業還孵化了自己的數據服務團隊。整體而言,產業上下游普遍存在交叉關係。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務行業投融資

融資規模集中於千萬量級,早期融資項目居多

從融資規模來看,人工智能基礎數據服務市場的融資多集中在千萬級別。從時間維度來看,2015年人工智能基礎數據服務商獲得的融資金額相對較高,標誌著行業初露頭角,受到資本的認可。從獲得融資的企業數量來看,目前獲得融資的玩家並不多,資本市場表現的活躍度不高。從融資輪次來看,大部分融資仍然集中於早期融資,目前上市的企業僅掛牌新三板的數據堂一家(不考慮科技公司內部孵化的基礎數據服務商)。人工智能基礎數據服務毛利率普遍較高,但為保持與人工智能市場前沿算法的匹配,需要投入大量研發成本進行數據處理平臺與工具的研發升級,因此對融資仍有較強依賴。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務行業商業模式

生產、獲客、部署合力驅動發展

人工智能基礎數據服務行業是典型的To B型業務,商業模式較為穩定。在生產方面,主要通過自建標註基地或標註團隊、搭建眾包平臺、採購供應商外包服務(BPO)等模式實現生產運營,大多企業主要採取眾包與外包模式,百度數據眾包、倍賽等企業自建標註基地或全職標註團隊,對於培訓較高素質工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學術會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應對客戶對數據安全、交付週期與成本的個性化需求。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務市場規模

2025年市場規模將突破百億,行業年複合增長率為23.5%

2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定製服務佔比86.2%,數據集產品佔比12.9%,其他數據資源應用服務佔比0.9%;行業年複合增長率為23.5%,預計2025年市場規模將突破110億元。從整體增速來看,行業發展較為穩健,下游人工智能行業持續發力將形成長期利好。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務細分結構

純標註服務為主體,由供應商提供服務佔79%

2018年中國人工智能基礎數據服務市場以語音、視覺、NLP領域的標註服務為主,同時提供採集與標註服務佔比較少,這是由於生數據由需求方提供的情況較多,但這並不意味著市場中數據採集需求弱,相反,人工智能技術落地後產生了大量新興垂直領域的數據需求,然而這些數據採集難度大,能夠提供相關採集工具和服務的供應商將獲取競爭優勢。市場供給方主要由企業自建或直接獲取外包團隊的形式以及供應商組成,又以供應商為行業主要支撐力量,佔比79%。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務市場格局

行業將提升至較高集中度,CR5佔26%市場份額

目前人工智能基礎數據服務行業CR5佔26%市場份額,行業集中度較為適中,既非寡佔型市場也非充分競爭市場,這一方面是由於百度數據眾包、海天瑞聲、數據堂等企業進入市場較早,積累了較多客戶資源,另一方面則是由於下游企業之前多采用公開數據集訓練模型,對數據的高精度要求由來尚短,受生態傳導效應滯後影響,市場門檻還不顯著,資金與研發實力較為薄弱的中小企業還有較強的發展土壤。然而未來,隨著下游企業發展壯大,直接使用外包團隊成本低廉、數據安全可控性強,一些基礎性需求將由下游企業自給自足,外部的數據服務商現有的存量市場面臨下降,因此必須承擔高難度、前沿獨特性任務,這就要求其自身投入高精度、專業化數據處理工具的研發和人工智能算法基礎研究,以把握客戶需求,開拓增量市場,因此資金與研發實力成為較高行業門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業務收縮,再者部分廠商如倍賽開始在業內併購,參考海外數據服務市場發展情況(海外行業巨頭Appen多次併購其他企業),併購也將成為市場趨勢,多種因素疊加影響下,行業集中度將提升。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務場景分析

視圖基礎數據服務市場現狀

人像與OCR數據是視圖基礎數據服務的主流

在不考慮自動駕駛的前提下,2018年視圖基礎數據服務市場達到6.6億元,人像與OCR數據是視圖基礎數據服務的主流,尤其人像數據佔市場的42.9%。OCR佔27%,其他的人體識別數據、商品識別數據、工業質檢數據、醫學影像數據及其他新場景數據等較為分散,合計佔市場30.1%。

[行業分析]2019年中國人工智能基礎數據服務研究報告

視圖基礎數據服務技術趨勢

針對算法研發方向判斷數據需求,挖掘增量市場

按照數據使用方向,可以劃分為新算法模型搭建與研發、在已有算法基礎上增加新模塊、解決方案交付過程中定製優化等三類,其中新算法模型搭建與研發和在已有算法基礎上增加新模塊類型的數據需求是可以根據相應機器視覺算法的前沿研發方向來判斷預測的。例如,就智慧城市場景而言,針對漢族的人臉識別和視頻結構化已較為成熟,在實際應用場景中還需針對少數民族和其他人種進行優化以提升整體算法準確率,此外,跨鏡追蹤成為場景研發熱點,相應的跨攝像頭數據如何標註對算法訓練也會產生較大影響,再及,深度相機可以幫計算機讀懂三維立體的監控視頻,還能夠較好地解決複雜光照條件下視圖數據採集的問題,也將在未來成為重要的研發方向,綜上,多民族、多人種數據、跨攝像頭數據、3D數據的採集與標註服務將為視圖基礎數據服務市場的發展帶來增量空間,OCR、手機、零售等其他領域也同理可針對算法研發方向挖掘增量市場。

[行業分析]2019年中國人工智能基礎數據服務研究報告

自動駕駛基礎數據服務應用場景

算法尚未成熟,對數據有長期需求,且缺口仍在

L3級別以上的自動駕駛系統主要有感知、定位、預測、決策和控制五部分,其對於計算機視覺技術的需求度遠高於ADAS,系統需要對雷達、攝像頭等傳感器採集的點雲和圖像數據進行抽取、處理和融合,構建車輛行駛環境,為預測和決策做依據,這對於算法的準確性和實時性有極大考驗。目前自動駕駛的視覺技術主要應用有監督的深度學習,是基於已知變量和因變量推導函數關係的算法模型,需要大量的標註數據對模型進行訓練和調優。在世界級無人駕駛大賽中,主辦方往往提供近億張圖片、數十萬張標註圖片供參賽團隊訓練使用;在路測或真實道路駕駛時,如人車混雜、分佈稠密、行為多變等複雜環境問題更需要海量的真實路況數據不斷對算法進行優化,才能保障無人駕駛車輛正常可用。如今國內自動駕駛飛速發展,AI公司、科技公司、高精地圖廠商、車廠等參與者眾多,該領域的數據採集和標註需求已經成為AI基礎數據服務的主要項目之一,且自動駕駛算法應用仍待優化,數據需求缺口仍在,市場遠未飽和。

[行業分析]2019年中國人工智能基礎數據服務研究報告

自動駕駛基礎數據服務市場現狀

2025年採標規模將超24億,科技公司和車廠是主要需求方

自動駕駛基礎數據主要是道路交通圖像、障礙物圖像、車輛行駛環境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主,2018年自動駕駛行業基礎數據服務規模為5.76億元,預計2025年將超24億元,三方規模佔比分別為49%、47.2%和3.8%,行業數據總任務量超一億張,2D圖像標註與3D點雲標註任務量基本為2:1。其中高精地圖廠商算法較為成熟,數據自動化標註程度可達90%左右,外包需求較少;以百度、圖森未來為代表的自動駕駛科技公司一直是該領域基礎數據服務的主要買方,平均各家算法訓練圖像數據累積需求在千萬級以上,隨著落地項目進程加快,將會有更多細分場景的需求產生;近幾年,汽車廠商在ADAS和自動駕駛方向的投入明顯,上汽、吉利等廠商年投入均可達數億元,對於數據的採集和標註需求也逐年增加,預計未來3年中,汽車廠商將成為需求主力。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

智能交互基礎數據服務市場現狀

遠場語音交互成為主流需求,中文類數據仍佔據市場核心

2018年語音交互相關數據服務市場規模達到13.5億元。語音交互主要分為近場交互、中場交互和遠場交互,以智能影音家居、可交互機器人和車機為代表的中遠場交互類數據服務需求合計佔到智能交互基礎數據服務的68%,成為當前智能交互基礎數據服務的主流需求,因此針對遠場語音交互的低噪聲環境服務具有較強發展潛力和議價能力。在服務語種上,中文(含方言)服務佔據71%的市場份額,外語種資源相對稀缺,採集和標註難度較大,成本相對更高,目前佔29%的市場份額。

[行業分析]2019年中國人工智能基礎數據服務研究報告
[行業分析]2019年中國人工智能基礎數據服務研究報告

智能交互基礎數據服務技術趨勢

實現跨語音識別、語義理解的複合數據標註

目前企業在智能交互系統的建設中,對單純的語音識別或合成方面技術能力相對較完善,而在上下文理解、多輪對話、情緒識別、模糊語義識別、意圖判斷等方面的研發痛點更強,根據智能交互系統算法的發展,迭代並設計符合算法需求的NLP數據產品,有助於從數據層面推動智能交互系統的發展。特別的,對話系統的效果對標註數據的質量和規模依賴性很強,但目前受標註數據和模型能力的雙重製約,對話流程還無法對語音、語義整個交互流程打通,而實現跨語音識別、語義理解的複合數據標註可以幫助減輕語音信息與文本信息之間的信息誤傳導,對整個對話流程效果增強能夠產生積極影響,將增加智能交互基礎數據服務探索的可能性。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務需求分析

人工智能基礎數據服務客戶定位

客戶分為AI公司、科技公司、科研機構、行業企業四類

從需求方來看,AI公司和科技公司佔主要份額,AI公司更聚焦於視覺、語音等某一類型的基礎數據服務,而科技公司結合集團優勢,向人工智能整體發力,不同部門會產生多類型數據需求,科研機構需求佔比較小。此外傳統意義上的行業企業,如汽車廠商、手機品牌商、安防廠商等傳統企業圍繞自身業務進行技術拓展,也開始產生AI基礎數據需求,並且量級逐漸增大,未來將釋放更多市場空間。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務核心需求類型

AI應用三大階段,對基礎數據服務產生差異化需求

企業應用人工智能算法要經歷研發、訓練和落地三個階段,不同階段對於AI基礎數據服務也有差異化需求。研發需求是新算法研發拓展時產生的數據需求,一般量級較大,初期多采用標準數據集產品訓練,中後期則需要專業的數據定製採標服務;訓練需求是通過標註數據對已有算法的準確率、魯棒性等能力進行優化,是市場中的主要需求,以定製化服務為主,對算法的準確性有較高要求;落地場景的業務需求中算法較為成熟,涉及的數據採集和標註更貼合具體業務,如飛機保養中的塗料識別數據等,對於標註能力和供應商主動提出優化意見的服務意識有較強要求。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務需求痛點

五大需求痛點決定AI基礎數據服務商的服務標準

目前需求方在選擇數據服務時往往會遇到數據安全、採標能力、數據質量、管理能力、服務能力等痛點。對於數據安全,需求方希望基礎數據服務商有明確具體的安全管理流程,對數據傳輸、存儲,以及結項後的數據銷燬等環節比較重視。在採標能力方面,需求方算法越來越貼近業務,希望數據服務商對於自動駕駛、工業等有一定門檻的領域有采集能力,並且能理解客戶意圖,配合標註,甚至可以提出標註建議;根據市場反應,大多數數據服務公司首次交付項目時,數據的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數據少、準確率高的公司更加青睞。對於執行效率,一般AI基礎數據服務商都能在項目週期內完成,但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質量地服務客戶,同時執行團隊的素養與信譽也是重要影響因素。服務意識是一項軟實力,需要AI基礎數據服務商能夠積極配合、快速響應需求方要求。

[行業分析]2019年中國人工智能基礎數據服務研究報告

人工智能基礎數據服務趨勢及建議

人工智能基礎數據服務發展建議

企業由被動執行向主動服務的意識躍遷

單純依據客戶各個項目的訴求進行數據採集和標註屬於被動執行,主觀能動性低、行業邊界有限,各家公司的產品和服務趨於同質化、競爭呈膠著狀態,制約著AI基礎數據服務的發展。通過對需求方的研究,發現除安全性、質量、效率等核心關注點之外,越來越多的需求方對數據服務公司產生了主動服務的需求,希望數據公司能夠更懂算法技術、更懂需求場景,甚至能參與到算法的研發中來,給出數據採標方面的優化建議,這也為數據服務商形成差異化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調研、諮詢、設計、採集、標註為一體的AI基礎數據整體解決辦法,將在收入和業務邊界上實現突破。

[行業分析]2019年中國人工智能基礎數據服務研究報告


分享到:


相關文章: