希爾貝殼:如何用技術創新顛覆傳統數據標註產業的“野蠻生長”

希尔贝壳:如何用技术创新颠覆传统数据标注产业的“野蛮生长”

【獵雲網北京】4月10日報道(文/呂夢)

數據是人工智能的基礎,但不是所有數據都有應用價值,採集回來的數據往往要經過清洗、標註才能為算法可用。與此同時,數據標註得越精準,對算法模型訓練的效果也就越好。

這些高質量數據誕生的背後,是一家家數據標註工廠的興起——它們大都位於河北、河南、山東等地區,倚靠相對低廉的勞動力支撐起AI產業鏈的重要一環。隨著我國人口紅利的逐漸消失,傳統標註工廠在“人工成本”方面的優勢正不斷被削弱。

針對數據標註在成本、效率、質量等方面的痛點,一家專注人工智能大數據技術創新的創業公司,決定通過技術創新來改變這個人工智能光環背後的“人工”產業。

希尔贝壳:如何用技术创新颠覆传统数据标注产业的“野蛮生长”

卜輝是這家公司的創始人,韓國高麗大學碩士畢業後一直從事語音識別方向的研究,對語音數據庫建設以及語音智能產品有著深入的研究。

彼時,基於2012年AlexNet在ImageNet大賽上一舉奪魁帶動的深度學習熱潮僅過去兩年,而那場轟動世界的AlphaGo人機大戰兩年後才向公眾展現它的驚人戰績。一切尚在蓄勢。

2017年,在算法、算力和數據的三輪驅動下,人工智能從概念走向實用。其中,算法被大量開源,而算力部分,GPU市場被英偉達壟斷,國內的創業公司大都是圍繞FPGA、ASIC等進行邊緣研發。

從這個邏輯來看,一旦創業公司無法在算法和算力部分拉開本質的區別,數據和應用場景就成為其價值最大化的重要依據。

期間,大量和語音識別相關的產品的問世,也讓卜輝意識到,數據的需求正不斷聚焦,尤其是當AI和場景結合之後,相比大量的基礎數據庫,與產品相匹配的場景數據的價值將越來越大。

因此,卜輝在決定從自己最擅長的“語音數據”市場切入,並在17年4月創辦了希爾貝殼。

開源全球最大中文語音數據庫

基於語音識別、聲紋識別、音頻檢索等語音相關技術,希爾貝殼成立之初就開源了178小時的AISHEll-1中文普通話精標語音數據集。同時搭載Kaldi語音識別系統做了一套開源方案,將有研發價值的數據貢獻到科研教育機構。

這個階段卜輝發現,高校學生在使用這套方案的同時,很多中小型企業也在利用它進行語音識別的方案和產品相關研究,但效果就偏弱了一些。

因此,在2018年6月23日Kaldi第三屆全國線下技術交流會上,作為聯合主辦方之一的希爾貝殼再次開源了目前全球最大的中文開源數據庫AISHEll-2,時長1000小時。這個開源項目不只侷限於數據,還包括Kaldi社區的基礎設施和配套的recipe應用。同時成立了AISHELL Foundation來共同推進語音數據和技術的不斷開源計劃。

據悉,AISHELL-2由1991名來自中國不同口音區域的發言人參與錄製,文本內容主要涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。並經過專業語音校對人員轉寫標註,通過了嚴格質量檢驗,數據庫文本正確率在98%以上,

在此之前,從未有一家公司開源這麼大的中文語音數據庫——這套方案不僅讓中小型企業享有語音識別開發的能力,同時還讓希爾貝殼收穫了全球最大的高校資源群體。

卜輝告訴獵雲網,目前申請AISHEll-2數據庫的高校數量全球已超過300所,企業近50家。其中對高校免費開放,企業則收取一定數額的費用。

清華大學語音與語言技術中心副主任王東認為,“希爾貝殼的開源數據具有很高的學術價值,我們做學術這麼久一直在數據上有瓶頸。AISHELL-1,AISHELL-2會像ImageNet在圖像領域的影響一樣,推動語音行業的發展”。

在卜輝看來,龐大的高校群體通過接觸到希爾貝殼的語音數據庫進入語音產業,這個意義非同一般,“很多高校不具備商業行為所以語音數據量十分缺乏,而這個量級的數據庫的開源能幫助學生進行更紮實的學習、研究,為語音行業的發展輸送了資源和人才”。

此外,對企業端來說,這套數據庫的開源也為那些對數據有迫切需求、卻無法進行單獨定製數據的中小型公司提供了搭建自己業務能力的機會。

以技術創新突圍傳統數據標註市場

卜輝坦言,整個18年,團隊都在不斷“證明”自己在AI語音數據方面的能力,並在進行語音能力和語音數據處理、融合方面的平臺研發。

而在18年底回顧行業時,他發現,技術成本的降價速度驚人,“比如一套通用AI系統相比一年前,價格基本折了三分之一,但是成就技術的數據並沒有貶值。相反,數據處理、採集和加工的人力成本越來越高”。

很長一段時間裡,數據標註拼的都是人工勞力。大部分業務需求的不穩定,迫使初創企業很少能完全自建具有規模的數據標註團隊,而是以“眾包”方式將項目外包給一些小的數據外包團隊。

隨著業務量的增大,行業所需的數據標註量也在急劇增長。為了不斷壓低成本,傳統的“眾包”模式在數據標註質量、效率和安全性上都無法得到有效保障。一層層“眾包”的利潤折損之下,是大量數據標註團隊的“野蠻生長”。

如何使人工成本降低的情況下提升數據質量,卜輝認為,應當基於一個強大的智能化工作平臺,通過完善技術和管理手段來提高數據質量的管控和質檢,將人從重複的標註工作中解放出來,做到智能化工作和管理,提高整個標註效率。

希爾貝殼研發了四套智能標註落地方案,即語音數據質量評測系統、語音自動轉寫系統、場景數據集測試系統和音頻檢索系統、智能化數據標註眾包大數據分析系統。實現從人工到技術,再讓技術助理人工完成高效的標註訓練。

除了在解決數據標註最後人工成本一公里的技術創新上,還擁有自建數據庫的能力,希爾貝殼還將根據不同應用場景定製更優質的數據庫,以提高深度學習的精度,精準解決產品需求。

“好的數據對AI應用很重要,數據有很多類型,希爾貝殼是站在技術落地的角度對數據進行分析,所以數據產品也很精準”,作為希爾貝殼的客戶之一,人工智能解決方案提供商roobo CTO雷宇認為,“在數據處理工藝上,希爾貝殼應用了很多前沿技術,這是區別於傳統數據公司最大的優勢之一”。

卜輝一直是“人工智能民主化”的倡導者,他表示,團隊接下來的方向,就是通過技術創新改變傳統數據標註產業的生存環境,通過積累的人工智能技術和創新賦能給更多行業從業者,在人工智能大數據行業的生產模式上實現新的突破。


分享到:


相關文章: