12.21 王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

語言 AI 是人工智能皇冠上的明珠

如果用一句話概括搜狗一直在做的事情,那就是讓表達和獲取信息更簡單,而這兩件事情又都起源於一點——語言。過去,搜狗用搜索和輸入法以語言為核心幫助用戶做輸入和輸出。如今,這兩條線正在無限延伸,構成了搜狗的語言 AI 戰略。


其一,是以語言為核心的自然交互。王小川稱這是機器通過深度學習之後產生人的「感知」能力。

王小川在現場展示了搜狗新的降噪算法,傳統錄音硬件對於噪音的識別更多是通過麥克風矩陣來實現的,而今天搜狗的工程師通過對現實場景中 4 萬種真實噪音的學習,讓機器有了分辨噪音的能力。王小川表示這項降噪技術也將會應用在新一代的錄音筆中。

得益於在 OCR 識別、唇語識別和語音識別、語音合成、語音變聲多項技術上的積累,搜狗的自然交互能力已經逐漸實現了在 AI 錄音筆、合成主播等方面的實際商業使用。

其二,是在語言之上提取出跟語言的關聯關係,讓機器產生人的「認知」能力,王小川稱之為知識計算。搜狗在 GeekPark IF X 發佈了行業首創的多模態同傳,在聽的過程中,機器能夠實時閱讀 PPT,將它所看到的內容拓展成知識網絡,在聽和看的基礎上,又多了思考的一步。隨著知識計算能力的提升,搜狗未來將在知識性問答、醫療助診、智能助理等領域裡面注入更多 AI 能力。

在 GeekPark IF X 上,王小川分享了圍繞著 AI 戰略搜狗近期的探索和積累,以及他所構想的語言 AI 的未來。而他又將如何一步步駛向那個終點?

以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演講,經極客公園編輯整理:

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

張鵬說今天要談一下未來 10 年(2020-2030 年),還要求我帶來一些硬貨,談未來 10 年一定會談到 AI。

首先從我們最近發佈的一個硬貨開始,就是搜狗出品的 AI 錄音筆,錄音筆是今年上市的,我很高興這個錄音筆已經被市場接受了,極客公園基本上人手一支,不是我贈送的,是他們掏錢買的,同時也有了很多的復購率。

錄音筆是一個很小眾的市場,但是因為有了人工智能的加持,錄音筆變成今年電商中間的一個小爆款。搜狗 AI 錄音筆相對傳統錄音筆,不僅有麥克風的矩陣,同時還有 AI 降噪、實時轉寫文字、雲端的存儲和搜索、智能編輯、同聲傳譯等功能。所以,這個產品上線之後把整個市場改變了,像索尼、愛國者、紐曼都跟搜狗成立了一個聯盟,而搜狗成為了聯盟的盟主。

這個產品上線之前,整個錄音筆市場銷量逐年下滑,市場保有量只有 400 萬支,但是今年 3 月份的時候,搜狗上線錄音筆第一代產品,出現了一個奇怪的現象,主流電商平臺的錄音筆搜索量開始有了上升,到 12 月份我們發佈了第二代錄音筆,也得到了很多好評,所以搜狗開始一點點的變硬。這件事情就像之前手機從傳統走向智能一樣,而且有了 AI 能力的注入,會帶來一個新的改變,AI 注入之後對於 C 端消費品有了一些變化。

談到硬件我個人有一些觀點,大家談的比較多的是音箱,我基本的判斷是人工智能對於硬件的助力,使得硬件方向有兩大趨勢:

第一,會變得更加便攜。以前放在桌上的 PC 機很大,隨後智能硬件開始走向筆記本、iPad、手機,甚至開始走向穿戴,因此未來個人硬件的趨勢是越來越移動化、便攜化。

第二,更強的 IO 能力。從之前的計算能力走向傳感器能力、基於 AI 的處理能力,從人去適應機器變成機器去適應人,最後機器開始接管你的感官成為人的助力。

智能硬件從以前的手機開始走向手錶、耳機、到未來走向眼鏡,這是我對於未來 10 年路徑的一個暢想。這有可能會改變我們以手機為中心的方式,我相信在 10 年時間裡面,很有可能眼鏡和耳機會取代手機作為我們接觸外界信息的通道,這就是 AI 未來對硬件產生影響的變化。

硬件背後,是人去接受這個世界。除了有圖像和語音之外,很重要的一個事情就是語言。其實一隻貓或者狗都會有圖像和聲音的處理能力,但是惟有人能夠處理語言,語言是我們與世界交互的一種抽象的方式。

就像亞里士多德講到的,語言是心靈印象的符號,而且是人類思維的工具,是知識的載體,並且有了語言,人類社會才能溝通交流。不管是我們生產語言,還是計算機處理語言,語言是最難的一件事情,語言是人工智能皇冠上的明珠。

在圖靈測試裡面提到,機器能夠用語言與人交流,就代表它擁有智能,今天我們的人工智能還不具有創造力和通用的推理能力,但是我們可以去做這樣的一個猜想,只有當它掌握了語言之後,它才能夠完整的擁有創造力和推用的推理。如果有機器能夠跟你對話,你就會覺得它具有智能,因此語言在智能當中是有極其重要的位置,也是人跟動物一個重大的區別。

我們會看到以語言為核心變成了我們去思考人工智能發展路徑的關鍵節點。搜狗做輸入法、搜索,其實就是處理語言的,也是幫你更好的表達、更好的獲取信息。今天我們雖然提到有語音、圖像,但是別忘了核心是語言。

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X


語言往下我有兩部分分享:

第一,自然交互。自然交互讓人跟機器之間能夠用語音、圖像、手勢各種方式產生交流,其中用到了語音、圖像技術,包括視覺的技術。

第二,認知問題,我們叫做知識計算。基於語言,機器能夠做問答和對話,機器翻譯是認知技術入門的門檻。有了更好的感知技術,機器會從手機走向新的智能硬件,有了更好的認知技術,機器對知識產生理解和推理,尤其是在垂直領域擁有問答的能力。新的硬件形式和新的對話和問答能力,智能硬件未來會走向智能助理,這也是整個 AI 行業在產品層面上面最明珠的地方,蘋果大概在 2006 年就開始推出這樣的能力。到今天 Google、百度、阿里、小米做這樣的音箱產品,其實內核都是在做智能助理,只是外殼上我認為不是最好的方向。

佈局的時候,從語音圖像有大量的技術要去做,包括語音識別、語音合成,包括了搜索獨有辨識的能力,往下可以作為展開,我把一些搜狗走在行業最前沿的點,給大家做一個簡單的彙報。

語音識別這是自然交互裡面最自然的事情。搜狗輸入法今天我們做到了每天超過 8 億次的使用量,而且上升的很快。我最近批了一批服務器,在春節期間的時候可能就會超過 9-10 億次的日請求量。我們也積累了大量的數據,包括了語種、方言各種能力。

語言識別聽著很簡單的一件事情,其實並不是純粹的單點技術,在識別過程當中,對於語音、語義的理解還有哪些點需要攻克的呢?

在剛剛播放的視頻中,首先,大家感覺到有人聲的分離,機器能識別不同的人,能動態的去判斷這是第一個人還是第二個人。第二,做掌聲、笑聲或者其它聲音的識別,幫助我們理解內容。第三,中英文混合,這是非常難的事情,從傳統的深度學習網絡數據中,得不到一個混合的模型,這裡面會加入一些特定知識,來改變這個系統。

在這個識別背後還會有更復雜的技術需要我們解決,我們做錄音筆時會考慮很多問題,其中一件事是在嘈雜環境裡怎麼讓機器聽清人的聲音,幫助後面的識別,這是我們最前沿的技術。

傳統的硬件是用麥克風矩陣實現的,用多個麥克風進行中間的數字計算、信號處理,今天依靠人工智能,我們有了新的方法,搜狗的工程師在現實場景中對 4 萬種噪音進行了學習,使得機器有能力分辨噪音。

在這個視頻中,原始的機器識別、處理是不夠的。為了讓錄音筆、聲音的交互更好,我們有了新的算法,(降噪)技術在實驗中已經完成了,期待在以後新款的錄音筆當中能給大家帶來極致的 AI 體驗。

從語音識別裡面我們往前做了很多前沿的事情,除了語音識別還有一個重要的領域,就是語音的合成,在語音合成的時候,今天大家聽過了林志玲、高曉松的聲音,語音可以惟妙惟肖,用人的音色做表達。

但是,當你做長篇演講、音頻付費節目的時候,傳統機器所合成的聲音情感是不足夠的,搜狗是全球首次實現用機器模擬人,在得到音頻課程的整節課程中完全用機器合成,大家聽一下這個聲音。

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

(播放視頻)這個不只是聲音跟梁寧很像,更難得的是讓一半的聽眾沒有意識到整篇文章不是她本人讀的。因為一篇文章在音頻付費節目裡面,已經是一個表演了,對節奏把握、情感的輸出要求很高。

技術做的多的同學都知道,以今天的 AI 能力,機器不會有如此精準的認知理解,所以這個裡面我們用了另外一種技術,其實是一種聲音的皮膚,把梁寧的聲音變成一種聲音皮膚,技術上稱為特徵的提取能力,可以讓另外一個人讀這篇文章,再把聲音皮膚附到這個聲音裡面來,使得合成的聲音可以表達他的情感,經過合成之後,最後由梁寧來呈現。

這種做法之後可以改善整個音頻節目生產的環節,表演者和生產者做到一定的分離,以避免人員離職等等帶來的各種困難。加上聲音皮膚,大家可以假想有蠟筆小新、高曉松,也可以模仿一些帶有方言的聲音。

這種情況下,有個電影叫《頭號玩家》,使得我們現在每一個人在互聯網上,不僅可以換成其它的形象,也可以換成自己想要的一個聲音的形象。在生活中也有實際的用處,我們馬上開年會了,如果我要表演唱歌,作為一個五音不全的人怎麼來做呢?這是我自己的聲音做的提取,然後可以加上《藍精靈》裡面唱的一首歌,比我自己唱的好聽。

這樣一些技術,也使得在交互中間能夠做到了人機本身的結合,使得這樣的製作能力能夠有放大。在這裡面除了我們提到聲音的識別、合成以外,我們也做了一些更前沿的工作,是從語音走向了視覺,因此我們提到了搜狗分身,這是我們產品上一個重大的進展。這個產品發展到現在經歷了多次的技術迭代,從最早的給新華社所做的主持人,到後來可以做到央視的主持人,到第二代能夠讓它更豐富的表達,第三代能夠站起來有手勢,到第四代之後就開始做到了多語言、多場景的播報能力,然後到了第五代之後開始能夠做交互,比如平安普惠的保險項目,後面的服務人員已經被機器取代了。實際你在保險簽約的時候,是機器人更你做交互回答。我們很快發佈的是第六代擁有大角度、大幅度的動作能力,這是天氣預報的播報,大家可以看一下。

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

這樣的技術在今年發佈之後已經得到了全球 200 多家媒體的的廣泛報道,也是機器在取代人上面的一次重大應用。所以,這裡面我們可以看到,從語言為核心,背後配上了語音、人的表情、肢體、唇語,能夠使得人機的交互,走到更自然的狀態。

除了最簡單的感知問題以外,我們也在認知裡面做了非常多的積累,剛才我們提到了翻譯是中間最簡單、入門的門檻,這裡面我們做了很多的積累,這個問題很重大,而且我們現在做的也非常的努力。全球 20% 的人口是說中文的,中文是第一母語的國家,英文作為母語的人口只佔全球的 4%,是第四大語言,印第語和葡萄牙語也比英語大。

但是,在這種情況裡面,我們全球 95% 的信息是用英文所寫的,100% 的國際商貿活動是用英文的,因此如何幫助中國人跟外國人進行更好的交流,這變成了一個重大的技術課題,我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關的積累。

所以,2016 年在第三次世界互聯網大會上我們行業首家發佈了大會的同傳,2017 年搜狗發佈了英文搜索,你用中文詞能搜索全球的英文信息,搜索結果用中文展示出來。在第四屆互聯網大上,我們首個實現了深度學習的離線翻譯,以及有英譯中功能的同傳,2019 年 1 月份在極客公園大會上英中同傳首次發佈。

到今天我們會發布新一代的同傳給大家,從 2017 年的同傳到 2018 年的個性化,今年我們做的是這樣一個多模態和自主有學習能力的同傳,真的同傳人員不僅是聽聲音的,他會去看你的這樣一個 PPT,我們今天這場會的同傳就是機器實時閱讀我的 PPT,同時識別中間的文字,並且把它轉化成知識圖譜,拓展它的知識邊界,就好像一個人一樣,看到我說了深度學習,就想到你可能會說卷積神經元網絡,隨後是在知識庫查表,能找到中英對話實時加載的知識。

所以,從以前能聽、會看的多模態,到現在這樣一個同傳系統,它帶有一些簡單的思考能力,通過知識圖譜能夠實時的把它看到的東西拓展成知識網絡,放到同傳生態系統中去,利用這樣的技術,搜狗同傳的翻譯正確性提升了 40%。

這張圖展示的是通過視覺技術能夠實時看到的詞彙,同時把它拓展成相應的知識,變成平行的語料,和傳統同傳系統做融合,這就是知識計算在同傳當中首次的重大應用。

同樣在知識計算之後,我們強調一個核心觀點,就是機器做閱讀理解之後做問答,傳統的搜索是通過關鍵詞給你 10 條鏈接,隨著技術的進步,我們整個處理能力會從詞變成句子、段落、篇章,用戶的表達也可能會轉換成句子,機器的閱讀理解也會走向篇章和整個文章體系,這是技術進步帶來的機會。

好幾家做音箱的公司也是儘可能把問答技術做到設備裡去,因此在明年大家會看到一款新的搜索產品誕生,這件事情就不是用關鍵詞對應 10 條鏈接了,而是在問答裡面走出重大的一步,我們可以看一個簡單的 demo。

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

這是早年間的一個系統,這個系統並不能做到對知識推理的理解能力,更多是找到事實類的問題,但是它很厲害的地方不是簡單從數據做檢索,而是能做通篇閱讀理解,這是我們兩年前發佈的一個節目中用的系統,背後用了真實的技術。

今天的技術有很多的拓展,機器對於這樣一個問題的理解,甚至幫你構造問題,幫你掌握怎麼提問,也做了非常多的努力,因此在這裡面從翻譯走向問答,也會在明年有一個新的突破。另外對話技術在輸入法中間會做更多的呈現。

在未來幾年的時間裡面,也許用不到 10 年,我們構建了一個基本的路徑,自然交互會從文字走向語音、圖像理解,所以看到我們的錄音筆、同傳、合成主播這個技術的前面,是在語音圖像的交互能力裡面做增強,但是背後還是語言。

另外一條道路就是認知能力不斷地提升,會使得從搜索走向、輔助醫療、輔助問答以及合併語音圖像技術,最終走向行業終極的理想,就是每個人都擁有一個個人助理,在一些垂直領域當中,能夠幫你去做秘書的工作,或者是成為你的分身,跟世界進行溝通,這個是我們規劃的藍圖。

王小川:只有掌握語言,AI 才能具備創造力和推理能力〡IF X

到明年的時候,我們會完善這張圖,給大家呈現一個離個人助理更近的 AI 時代的產品,用機器幫助每一個人,讓表達、獲取信息更加的簡單,這個是我們的一些思考,謝謝!



分享到:


相關文章: