百度深度學習技術平台成立,對中國 AI 工業級落地意味著什麼?

當百度在 2013 年成立深度學習實驗室的時候,整個互聯網行業還沉浸在智能手機一統天下的春秋大夢裡。這一年,在大洋彼岸的美國,Google 收購了一家只有三個人的創業公司,得到了一位名叫 Jeff Hinton 的「老員工」,同樣也在這一年,Zuckerberg 苦苦追尋的 Yann LeCun 加入 Facebook。

不過五年的光陰,站在 2018 年再去看這一年發生的故事,百度、Google、Facebook 都做了一件頗具前瞻性的佈局:深度學習。研究深度神經網絡一生 Jeff Hinton,為 Google 帶來的不僅是技術,更是學術和人才吸引力;在 Yann LeCun 的幫助下,Facebook 也從社交巨人搖身變為這個星球上最有技術的互聯網公司之一;而百度,也將深度學習從一款款產品擴展到人人可用的「技術基礎設施」,成為中國人工智能公司的代表。

正是這樣前瞻性的佈局,使得三家公司在接下來幾年深度學習大熱的行業背景下積攢了強大的人才、技術優勢,與此同時,三家公司也都將深度學習作為人類邁向智能社會的階梯,先後開放了自己的深度學習開發框架,與全球開發者共同努力,實現人工智能的偉大夢想。

上述故事或許也將迎來一個新輪迴。本週,一個百度內部新成立的部門引發人工智能領域的眾多關注。

根據媒體的相關報道,百度這個名叫「深度學習技術平臺部」的新部門,所瞄準的也是當下人工智能最熱門的深度學習領域,其核心工作將是推動目前國內唯一開源深度學習框架PadddlePaddle的研發,並以此推動人工智能的應用落地,尤其是在工業級場景中的落地。

如果說五年前各大巨頭的佈局是將深度學習從學術研究帶到工業界研究,那麼百度此舉的更深一層解讀就是,這家公司希望深度學習不單單是讓人尖叫的奇技淫巧,更是可以在各行各業應用的通用技術。

這一次百度是否有能力再次引領深度學習的潮流呢?直接回答這個問題之前,不妨先來看看百度在深度學習領域有哪些底牌。

技術優勢:為何 PaddlePaddle 如此重要?

深度學習爆發,離不開三大要素:算法、計算能力以及數據。對絕大多數開發者而言,這三項開展深度學習研發的基本條件幾乎是個無法邁進的門檻。也正是這樣的背景下,行業內的大公司都會通過將自己的深度學習框架開源,向廣大開發者提供算法模型、部分數據以及一定的計算能力,Facebook 的 Cafe、Google 的 Tensorflow 無一不是如此。

百度深度學習技術平臺成立,對中國 AI 工業級落地意味著什麼?

2016 年,百度正式開源 PaddlePaddle,這是一個面向全球的深度學習開源框架,而且是中國首個,也是唯一一個深度學習開源框架。

百度的深度學習研發由來已久。早在 2010年,百度就開始在搜索引擎中應用機器學習;兩年後,啟動深度學習技術研發並將研究應用在百度的多款產品之中,PaddlePaddle 正是從百度內部孵化。相關資料顯示,該項目出自百度 2013 年成立的深度學習實驗室,在百度內部發展 3年左右的時間,考慮到百度內部複雜的業務需求,也充分佐證了 PadddlePaddle 架構的可用性。

其次,深度學習的爆發,除了算法和計算能力的突破,更離不開互聯網海量數據的餵養。作為互聯網公司的百度,在數據方面擁有得天獨厚的優勢,數據上的優勢會加速算法的迭代,最終惠及開發者。

第三,PaddlePaddle 有著非常完備和齊全的文檔支持。同時,針對中國市場的需求,比如圖像識別、機器翻譯等需求,PaddlePaddle 也提供了一整套算法模型,可以有效滿足上述業務需求。

百度深度學習技術平臺成立,對中國 AI 工業級落地意味著什麼?

從行業發展的趨勢來看,不管是 Google TensorFlow 還是 Caffe 以及百度的 PaddlePaddle,都無一例外在做一件事情:降低深度學習的開發門檻。而相比於 Google TensorFlow 對於底層架構的重視,PaddlePaddle 在架構設計上更易用也更靈活,它將眾多算法完整封裝在一起,包括計算機視覺(CV)、自然語言語言理解等多種多常用算法。

這些算法都針對某個特定場景,開發者可以更方便地將其與業務集成,這意味著,開發者只需調用自己的數據,並按照算法示例進行修改,就能快速部署應用。

另一方面,當下主流深度學習框架都追求分佈式部署。分佈式的好處顯而易見,利用隨時可伸縮的計算資源,能夠大幅提升深度學習的效率。以 PaddlePaddle 為例,這個框架本身就支持多種分佈式集群的部署和運行方式,比如 fabric集群、openmpi集群、Kubernetes單機、Kubernetes distributed分佈式等。在分佈式集群中,訓練數據會「分發」到不同的計算節點,計算節點會和分佈式的參數服務器保持通信,最終形成一個閉環。

最後不得不提的是,PaddlePaddle 自開源之後也進入到一個良性互動、高速迭代的快車道。2017 年 11 月,隨著 PaddlePaddle Fliud 的發佈,該開源框架的性能和易用性有了更大提升,可以在佔用更小顯存資源的前提下,實現比主流深度學習框架快1——2倍的成績,還能提供彈性深度學習,根據現有計算資源,調整分佈式任務的數目,保證那些計算資源缺失風險的任務能夠被執行等等。

而在今年 7 月的百度開發者大會上,PaddlePaddle 3.0 正式亮相, 提供了核心框架 PaddlePaddle Fluid、PaddlePaddle Serving、PaddlePaddle Mobile,以及零門檻的快速應用平臺EasyDL、AutoDL網絡平臺自動化設計以及AI Studio在線實訓平臺等。

某種意義上,PaddlePaddle 是百度在深度學習研發的集大成者,而在 開源社區 Github 上,PaddlePaddle PaddlePaddle 已獲得了 7300+個 star(類似於關注),將近 2000+ fork(類似於開始開發),這也充分說明了業界對於 PaddlePaddle 以及百度深度學習技術積累的認可。

場景優勢:PaddlePaddle 的工業級落地能力?

當下,困擾深度學習進一步發展的不是算法、算力或者數據,而是如何將深度學習從實驗室帶入現實生活。換句話說,如何在深度學習模型訓練之外,向開發者、合作伙伴提供產品落地的機會,正在成為深度學習以及人工智能領域競爭的關鍵。

首先,百度圍繞 PaddlePaddle 開源框架,可以讓人工智能開發者實現技術研發的閉環。比如,依託國家工程實驗室和其他合作伙伴的開放數據集,可以解決開發者的數據荒。

其次,PaddlePaddle 的生態服務漸趨完善,從線上(線下)公開課到 AI 大賽再到與高校合作,這一系列舉措讓 PaddlePaddle 的生態具備了技術、產業、人才等多重效應。

第三,百度也在探索深度學習的工業級應用,目前已開放近 20 種工業級模型,比如在農業領域,北京工業大學的四位學生利用 PaddlePaddle 製造了一臺智能桃子分揀機,實現桃子的自動分揀;而在醫療應用場景裡,援藏醫生陳靜飛藉助基於 PaddlePaddle 的百度定製化訓練與服務平臺EasyDL,進行顯微鏡下寄生蟲蟲卵識別,輔助檢驗人員進行相關診斷等等。這些工業級模型脫胎於現實業務場景之中,開發者、合作伙伴可以非常方便地調用、優化並應用到自己的業務場景裡。

更重要的一點,組成深度學習技術平臺部的人員不僅擁有技術大拿,也擁有多位在業務第一線多年摸爬滾打的業務骨幹,還包括多位與學術領域有密切聯繫的研究型人才。

根據官方透露的消息稱,兩位高級別AI技術大牛於佃海、馬豔軍分任總架構師和部門負責人。這兩位常年奮鬥在百度人工智能業務第一線,從理論、算法到產品落地,都擁有非常豐富的實戰經驗。

百度深度學習技術平臺成立,對中國 AI 工業級落地意味著什麼?

這樣的人員組成一方面當然展示了百度豪華的 AI 人才儲備,同時也展現了百度對於 PaddlePaddle 未來發展的野心,正如百度 AI 技術平臺體系負責人王海峰所言:「新力量的加入,將推進 PaddlePaddle 在基礎框架設計的領先性、算法模型的豐富性、系統性能和穩定性、異構硬件支持的完備性等多個層面更快提升,進一步加速深度學習技術全面走向各行各業,為行業深度賦能。」

寫在最後:深度學習領域,中國需要自己的平臺和開發者

此次百度設立專門研發 PaddlePaddle 的深度學習技術部,並配備了多名骨幹精英,充分說明了PaddlePaddle 在其內部的重要作用,而不管是技術優勢還是落地能力,PaddlePaddle 也正在成為中國 AI 發展的重要風向標,這對於廣大深度學習從業者而言,又何嘗不是一件幸事。

如今,人工智能的競爭已經成為中美兩國的「二人轉」。作為一個紮根中國、面向中國開發者的深度學習開源平臺,PaddlePaddle 之於中國深度學習發展的意義不言而喻,中國需要屬於自己的開源框架,也需要更多基於中國市場需求進行創新的開發者,PaddlePaddle 世界級的技術能力與業界領先的工業級落地能力,是承載中國開發者創新、創業夢想的舞臺,也將使得中國在未來中美人工智能競爭中擁有不小的話語權。


分享到:


相關文章: