智源-MagicSpeechNet 家庭場景中文語音數據集挑戰賽 正式上線

2019 年 12 月,北京智源人工智能研究院聯合愛數智慧和數據評測平臺 Biendata,共同發佈了“智源 MagicSpeechNet 家庭場景中文語音數據集”,其中包含數百小時的真實家庭環境中的雙人對話,每段對話基於多種平臺進行錄製,並已完全轉錄和標註。

Biendata同步開放了“智源 — MagicSpeechNet 家庭場景語音數據集挑戰賽”(2019 年 12 月 — 次年 2 月),總獎金為10 萬元。參賽者需要使用比賽提供的數據訓練並優化模型。本次比賽由北京愛數智慧科技有限公司提供數據集。今年的“智源— MagicSpeechNet 家庭場景中文語音數據集挑戰賽”旨在提升模型在家庭環境的對話語音識別效果,比賽和數據複製下方鏈接查看,或點擊“閱讀原文”。

比賽地址:

https://www.biendata.com/competition/magicdata/

賽事背景

隨著互聯網、智能硬件的普及,智能音箱和語音助手已經深入人們的日常生活,極大地提高了生活的便利性。家居場景下的語音識別技術成為了企業和研究機構研發的一大重點。

從語音識別的角度出發,家庭場景具有較強的多樣性:不同的牆體和內裝材料以及房間大小和構造會導致房間的聲學參數的多樣化。與此同時,語音識別產品的載體具有極大的差異性:語音助手一般搭載於用戶的手機和智能音箱,不同的載體型號同樣會影響聲音信號的拾取和呈現。模型對於不同場景和不同設備的適應情況和識別效果極大地影響用戶體驗,考驗著研發者的專業實力。因此可以說,家庭場景是語音識別領域內最典型也最具挑戰的應用場景之一。

比賽任務

比賽希望優化語音識別的機器學習模型,可以根據真實家庭場景多設備多通道的錄音數據以及對應的標註文本,實現語音識別模型在家庭場景下的性能提升。比賽結果對於智能家居領域下AI語音交互產品的研發的深入普及具有不容忽視的影響力。

比賽分為初賽與複賽兩階段,初賽於2019年12月23日開啟,biendata 平臺同步發佈訓練集、開發集、測試集,並開放初賽提交。2020年2月1日,初賽報名和組隊時間截止。由於每日提交存在次數限制,請感興趣的選手儘量選擇提前參賽,以獲得更多驗證提交次數和優化模型的機會。

比賽數據

比賽數據分為訓練集、開發集和測試集三部分,具體規模信息如下表所示:

智源-MagicSpeechNet 家庭場景中文語音數據集挑戰賽 正式上線

在訓練集中,每段對話包括一個音頻文件(.wav)和對應的標註文件(.json),如音頻“MDT_F2F_001.wav”對應“MDT_F2F_001.json”。
在開發集中,每段對話有 5 個通道的同步錄音,包括 3 個遠講通道和 2 個近講通道。遠講通道包括由安卓平臺、iOS 平臺,錄音筆錄制的文件,如:

MDT_Conversation_001_Android.wav

MDT_Conversation_001_IOS.wav

MDT_Conversation_001_Recorder.wav

近講數據使用高保真麥克風錄製,根據不同講話人區分,如:

MDT_Conversation_001_SPK001.wav

MDT_Conversation_001_SPK002.wav

在開發集中的標註文件(.json)中,“start_time”表示該音頻片段的開始時間,“end_time”表示音頻片段的終止時間,“words”表示轉錄的文本,“speaker”表示音頻的講話人,“location”表示音頻錄製的地點,“room_info”表示錄製房間的信息,包括長、寬、高、混響時間(s),“devices_type”表示錄製設備信息,“session_id”表示音頻片段所在的整段音頻 ID。

智源-MagicSpeechNet 家庭場景中文語音數據集挑戰賽 正式上線

圖:開發集標註文件樣例

測試集數據為需要識別的音頻文件,每段音頻分為安卓平臺、iOS 平臺,錄音筆錄制的三個文件。為便於選手分割每段音頻,比賽提供了標明起始和結束時間點信息的 json 文件,選手需使用模型識別音頻中的對話,並根據 json 中對應的 uttid 提交相應的文本。

智源MagicSpeechNet 家庭場景中文語音數據集

智源 MagicSpeechNet 家庭場景中文語音數據集的語言材料來自於真實家居環境中的雙人對話。基於多種平臺進行錄製,並已完全轉錄和標註。相較於國內外同類多通道語音識別比賽,本比賽數據在數量、場景、聲音特性等方面具有以下優勢。

(1)大量的對話數據

國內的語音識別比賽基本使用朗讀類型的語音數據,而本比賽使用的數據為真實的對話數據。數據為完全真實場景的對話,說話人以放鬆和無腳本的方式,圍繞所選主題自由對話。相比基於對話數據的國際同類比賽,在數據量方面仍舊具有極大的優勢。同時,合理的說話人語音交疊更真實地體現日常家庭場景下的語音識別難度。

(2)場景真實多樣

本數據集採集於3個真實的家庭場景,說話人以放鬆和無腳本的方式,圍繞所選主題自由對話。不同的採集環境豐富了數據的多樣性,同時增強了比賽的難度。

(3)近講與多平臺遠講數據結合

每段對話有 5 個通道的同步錄音,包括 3 個遠講通道和2 個近講通道。遠講通道分別由多個型號的安卓手機,蘋果手機和錄音筆錄制,充分體現多平臺錄音數據的特性;近講數據使用高保真麥克風錄製,與說話人的嘴保持10 cm 的距離。

(4)豐富均衡的聲音特性

本數據集擁有豐富均衡的聲音特性。錄製本數據集的說話人來自中國大陸不同地域,存在一定的普通話口音。同時,說話人選自不同年齡段,性別均衡。

參賽方式

掃描下圖中的二維碼或點擊頁面頂部鏈接直達賽事頁面,註冊網站-下載數據,即可參賽。


智源-MagicSpeechNet 家庭場景中文語音數據集挑戰賽 正式上線


友情提示,因涉及到數據下載,強烈建議大家登錄 PC 頁面報名參加。


分享到:


相關文章: