人工智慧與「中國方言庫」一起挽救這些瀕臨消亡的語言

近日上海小學教材將“外婆”改成“姥姥”一事,引發了全國網友對於“方言保護”的爭論熱潮。新加坡《聯合早報》稱,此事反映出方言在全國範圍內的式微趨勢,許多歷史文化遺產面臨失傳的厄運。儘管國內外都啟動了多種語言的保護工程,但接受《環球時報》記者採訪的專家表示,大多數語言消亡的趨勢幾乎是不可避免的,但通過人工智能技術,至少我們有望把這些語言保存下來,從而記錄下它們所承載的文化。

方言作為地方文化的一種,是民族文化的有機組成部分,這些“南腔北調”傳承著不同地區的文化和歷史。那些生活中積累下來的生動傳神、接地氣的特有音調和詞彙,構成了方言妙趣的音韻。對於流動性越來越大的現代社會而言,方言更寄託著很多遊子的思鄉之情,聽起來特別有親切感,那些與生俱來的記憶,隨著鄉音歷歷在目。

但現實情況是,在全球化和信息高速傳遞的現代社會,無論是國際還是國內,包括方言在內的大多數語言都受到強勢主流語言的侵蝕甚至是飛速消亡。聯合國2017年的相關報告顯示,全球現有約6000種語言,預計到本世紀末將有90%的語言可能消亡。其中近500種語言的傳承者甚至少於10人,很可能會迅速滅亡。而其他語言,則由於學校、商業和電視上那些主流語言的壓倒性優勢排擠,也會逐漸消失滅絕。

同樣的情況也出現在中國。由於大量人口背井離鄉,使方言使用的場合和頻次大大降低,生存的空間不斷被擠壓。根據2015年啟動的中國語言資源保護工程提供的數據,在中國的130多種語言中,有68種使用人口在萬人以下,有48種使用人口在5000人以下,其中有25種使用人口不足千人,滿語、赫哲語、蘇龍語等使用人數不足百人。你還記得你的家鄉話怎麼說嗎?很多受訪者表示已經不會用地道的家鄉話來表達了。

致力於少數民族語言和方言保護近十年的科大訊飛多語種研究員祖漪清告訴《環球時報》記者,從整體趨勢而言,包括方言在內的大多數語言走向消亡是不可避免的。在全球化趨勢日益明顯的當代,語言作為交流工具,本身就在不斷向主流強勢語種靠攏。尤其是主流語言往往背靠更強大的經濟和文化實力,不但不斷侵蝕弱勢語言的“地盤”,而且創造新詞的功能更活躍。她舉例說,在科大訊飛的全國方言保護項目中發現,不僅是滿語這類瀕臨消亡的小語種存在困境,就連很多使用人群較多的方言同樣受到明顯侵蝕。例如由於北京方言和普通話很接近,要找出能說一口地道北京話的年輕人變得很難,很多北京方言的特有詞彙其實已經被普通話取代。

在信息化時代,文化交流的速度空前加快,也加速了強勢語言對其他語言或方言的入侵。祖漪清表示,即便是具有強大造詞能力的強勢語種的漢語,如今也會直接在各種中文交流場合使用NBA、Ipad等外來詞彙。

她惋惜地說,糟糕的是,由於很多少數民族語言和方言的使用人群只使用口語交流,極少使用文字,很多南方方言沒有合適漢字進行描寫。而口語採集比朗讀採集困難大很多。一旦相關語言消亡,它承載的那些獨特文化也就消失在歷史長河中。

為挽救這些瀕臨消亡的語言,各國都在爭分奪秒。澳大利亞政府上世紀70年代便規定在全國實現多語教育制;美國也出臺專門保護原著民語言的相關法案,支持原著民語言的項目。中國也先後出版了漢語方言地圖集、音檔及系列詞典,《中國的語言》及少數民族語言的詞典和參考語法等。中國語言資源保護工程更是規模宏大,計劃為每種語言記錄1000-3000個常用詞、數量有限句子和400分鐘的文化典藏。

祖漪清介紹說,正確利用人工智能技術,對於保存這些瀕臨滅亡的語言是十分必要的。科大訊飛的人工智能技術不但可以分析方言的孤立音節和孤立詞彙,還可對連續話語進行建模。基於語音合成、語音識別、翻譯技術經過人機協同分析,實現對一個語言的完整“複製”。對於沒有文字的語言,美國科學家進行的“語音羅塞塔”項目的思路也值得借鑑,即儘可能獲得被記錄語言的語音和主流語言文字的平行數據,並實現兩者之間的“翻譯”。

不過她也表示,由於現有的人工智能技術需要海量數據作為機器學習的內容支撐,但一些瀕危方言和語言的使用者中,真正能標準朗讀的人已經很少,甚至只有個位數,而且大都年年事已高,這使得語音的採集工作極為艱難且迫切。另一方面,中國方言,尤其是南方方言種類繁多,結構複雜,甚至存在“十里不同音”的情況。若想要保存這樣種類繁多的方言,還必須依靠全社會的支持。日前,科大訊飛對外啟動了“方言發音人”招募公益行動,邀請全民參與共建“中國方言庫”,用自己的聲音留下中華語言文化遺產,傳承傳統文化。


分享到:


相關文章: