百度大腦3.0:讓機器聽清、看清、理解真實的世界

百度大腦是2016年百度正式對外發布的超大規模神經網絡,目前已經成為百度在人工智能領域的“集大成者”。兩年來,從1.0版本的基礎能力搭建到2.0形成了完整的技術體系,首次開放60多項AI核心能力,再到此次3.0版本的發佈,百度大腦的能力仍在不斷提升。

“小度小度,我要從三里屯的團結湖地鐵站出發路過望京的家樂福然後再去南鑼鼓巷最後到我家,我要紅綠燈少的不堵車的最快的路線,你幫我規劃一下路線吧。”

“你有本事再說一遍我就幫你導航”。

兩個月前,百度地圖語音助手小度被一位“喪心病狂”的網友“調戲”了,並且還把視頻發到了網上。視頻中,雖然小度最終沒有給出合適的路線規劃,但它的回覆也可以說是非常機智了。

兩個月後,在百度AI開發者大會現場,百度高級副總裁、AI技術平臺體系(AIG)總負責人王海峰再次演示了一遍相同的指令。而小度給出的回答變成了:“提供一種規劃路線,需要導航嗎?”這回,小度不僅聽懂了,還給出了正確反饋。

百度大脑3.0:让机器听清、看清、理解真实的世界

百度高級副總裁、AI技術平臺體系(AIG)總負責人 王海峰

“小度是一個很努力的同學,經過這段時間的學習已經學會了如何回答這個複雜的問題。”王海峰說,“在這背後,除了地圖本身的技術之外,實際上還有百度大腦語音識別和自然語言處理合成技術的支持。”

百度大腦是2016年李彥宏在百度世界大會上正式對外發布的超大規模神經網絡,經過多年的技術升級和研發投入,目前已經成為百度在人工智能領域的“集大成者”。

要談百度的人工智能佈局就要追溯到它成立之初。

18年前,百度作為搜索公司誕生。當時的搜索引擎還是一個基於統計學的技術,但隨著互聯網的快速發展,在千奇百怪的用戶需求和海量數據處理要求下,搜索引擎變得越來越依賴人工智能和機器學習技術。

於是,2010年百度開始全面佈局包括語音識別、自然語言處理、機器學習、知識圖譜、視覺語義等在內的人工智能技術。並在兩年後著手深度學習技術的研發,將其用在百度圖像、語音等具體應用中。

鑑於深度學習技術在實際應用中的驚豔表現,2013年百度正式成立了深度學習研究院IDL(Institute of Deep Learning),諸多知名專家紛紛加入,為其人工智能技術的完善和提升不斷加持。除了在國內,在美國硅谷離蘋果公司不遠的地方也設有百度深度學習實驗室。基於此,百度在全球率先將深度學習技術應用於大規模線上搜索引擎,還基於深度神經網絡上線了機器翻譯系統。

就這樣,經過了長達16年一步步的技術積累和投入,百度大腦在2016年正式在百度世界大會上推出。如今,它已經擁有萬億級的參數、千億樣本、千億特徵訓練,甚至能模擬人腦的工作機制。從基礎層、感知層到認知層和平臺層,不僅能夠對內提供完整的人工智能技術支持,同時,百度還在去年7月宣佈對外開放了包括語音識別、理解與交互技術UNIT、人臉識別等核心AI能力,以及深度學習平臺 PaddlePaddle。

百度大脑3.0:让机器听清、看清、理解真实的世界

兩年來,從1.0版本的基礎能力搭建到2.0形成了完整的技術體系,首次開放60多項AI核心能力,再到此次3.0版本的發佈,百度大腦的能力仍在不斷提升。

具體來說,百度大腦3.0的發佈包含了技術升級、開放升級兩大層面。技術層面,百度大腦3.0在業界首次提出“多模態深度語義理解”,並形成從芯片到深度學習框架、平臺、生態的AI全棧技術佈局;開放層面,百度AI開放平臺持續升級,是最完整、最前沿、最開放、最具活力的AI技術平臺。

百度大脑3.0:让机器听清、看清、理解真实的世界

據王海峰所說,截至百度AI開發者大會當天早上,他看到的百度AI能力開放的數字是117項。

百度大腦3.0:聚焦“多模態深度語義理解”

百度大腦3.0的核心是“多模態深度語義理解”,具體是指對文字、聲音、圖片、視頻等多模態的數據和信息進行深層次多維度的語義理解,包括數據語義、知識語義、視覺語義、語音語義一體化和自然語言語義等多方面的語義理解技術。

換句話說,就是要能讓機器聽清、看清,從而深入理解語義背後的含義,深度理解真實世界,更好地支撐各種應用。而其中,百度地圖語音助手就是語音語義一體化和自然語言處理技術結合最典型的應用場景之一。

王海峰介紹,如今百度高噪聲環境Hand-free語音識別準確率已提升了10個百分點,語音語義一體化技術使得遠場語音識別準確率提升了10個百分點;在語音合成方面,WaveNet+拼接的情感語音合成技術,使得流暢度和自然度也大幅提升。

此外,他還以對話理解和閱讀理解為例,介紹了百度的自然語言理解技術。事實上,百度的對話理解技術已經積累多年,而百度大腦3.0版本中通過研發最新的深層注意力匹配模型,比已知的最好結果又提升了4.1%。在閱讀理解技術上,百度大腦已經閱讀了千億量級的文章,相當於6萬個中國國家圖書館的藏書,並由此積累了億級實體、千億事實的知識。

百度大脑3.0:让机器听清、看清、理解真实的世界

更有趣的是,藉助視覺的語義化技術,百度大腦還被應用在了世界盃的視頻解析場景中。大會現場,王海峰播放了一段世界盃球賽視頻,視頻中,百度大腦可以通過識別視頻中的裁判、球、球門、球場線等,捕捉射門、進球、角球、換人等畫面,完成機器人解說、精彩片段集錦剪輯、以及數據統計分析等等。

百度大脑3.0:让机器听清、看清、理解真实的世界

知識是機器理解世界的重要基礎,為此,在多元語義知識方面,百度也構建了包含數億實體、數千億級事實的龐大知識圖譜。除了基礎的由實體、屬性、關係構成的實體圖譜,還針對不同的應用場景和知識形態,構建了關注點圖譜、事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。所有這些,都構成了百度大腦的基礎。

“通過持續獲取和積累知識,百度大腦的理解能力和智能水平還會不斷升級,從而更好地服務於用戶。”王海峰說。

PaddlePaddle3.0:各個版本和平臺全面優化

必須強調的是,在百度大腦3.0“多模態深度語義理解”技術突破的背後,深度學習平臺PaddlePaddle發揮了重要作用。大會上,王海峰正式公佈了PaddlePaddle3.0,包括完整的核心框架,以及AI Studio、AutoDL、EasyDL等可以讓開發者平等便捷獲取AI能力的平臺。

其中,PaddlePaddle3.0核心框架對服務器版本以及移動端版本進行了全面優化,可以靈活適用於更廣泛的開發需求;AutoDL能更高效自動地搜索神經網絡結構,開發者無需特殊硬件設備就可以快速得到高質量模型;EasyDL可以滿足零算法基礎訓練業務定製模型,通過可視化的操作使得使用者無需懂深度學習也可以快速上手;AI studio具有云端集成、簡單易用、運行高效和資源免費的特點,是集成“數據、算法、算力”的PaddlePaddle實訓平臺,可以一站滿足使用者學習、技術進階、學術研究需求。

此外,據王海峰介紹,作為本次大會發布亮點之一的AI芯片“崑崙”也將與PaddlePaddle深度學習框架深度結合,從而推動AI行業生態的快速發展。可以看到,越來越多的行業在擁抱人工智能,在使用這些能力。

據瞭解,從去年11月份百度世界大會到現在,僅僅過了半年多的時間,百度AI平臺上語音能力調用次數增長了94%,視覺能力的日調用量增長了416%,自然語言處理的日調用次數增長了180%。此外,視覺中的人臉識別技術,調用次數更是漲了近8倍。

“這些顯著的增長也僅僅是開始。因為開源和開放,AI正在滲透到經濟社會毛細血管中。”李彥宏在演講中這樣說。

而在這個過程中,百度正在扮演的是一個“授人以漁”的角色。它不僅正在通過AI開放平臺讓每個人平等地使用AI技術,與此同時還集眾開發者之力持續為百度大腦的迭代和升級賦能。除此之外,藉助百度AI生態夥伴“燎原計劃”、AI加速器等方式,百度也在不斷打造和佈局自己的生態系統,從而為開發者釋放更多價值,為產業升級帶來了更多想象力。


分享到:


相關文章: