Mozilla更新公共語音數據集 包含18種語言共1400小時

【CNMO新聞】Mozilla近日發佈了最新版本的Common Voice,這是它的開源語音數據轉錄集,目前包含超過1400個小時的語音樣本,由4.2萬名貢獻者提供18種語言,包括英語、法語、德語、荷蘭語、哈卡欽語、世界語、波斯語、巴斯克語、西班牙語、普通話、威爾士語和卡拜爾語。


Mozilla更新公共語音數據集 包含18種語言共1400小時


Common Voice

Mozilla稱,這是同類數據庫中最大的多語言數據庫之一,大大超過了8個月前向公眾開放的普通語音語料庫,該語料庫包含來自2萬名志願者的500小時(40萬段錄音)的英語錄音。該組織表示,通過共同語音網站和移動應用程序,70種語言的數據收集工作正在積極進行。

Mozilla表示,在未來的幾個月裡,他們將嘗試不同的方法,通過社區的努力和新的合作伙伴關係來提高數據的數量和質量。該公司表示,計劃利用部分錄音來開發支持語音的產品,最終的目標則是提供更多更好的語音數據以尋求構建和使用語音技術。

該公司表示:“Mozilla的目標是建立一個更加多樣化和創新的語音技術生態系統,公共語音網站是我們構建語音數據集的主要工具之一,這些數據集對語音交互技術非常有用。”


分享到:


相關文章: