清華博士解讀 AlphaGo 戰勝李世石背後的黑科技

清華博士解讀 AlphaGo 戰勝李世石背後的黑科技 | 人物誌

受訪者 | 肖智清

採訪者 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

強化學習是機器學習的一個重要分支,主要用來解決連續決策的問題。2016年3月,人工智能界發生一件里程碑事件——AlphaGo 戰勝李世石,其核心技術的深度強化學習引起開發者的關注和研究。

強化學習是怎樣的一項技術?又該如何學習呢?

有一位清華博士,肖智清,為了幫助開發者更好地學習AI,緊跟技術潮流,撰寫配套TensorFlow 2代碼的強化學習教程書《強化學習:原理與Python實現》。下面一起來看看這背後的故事。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

清華學霸煉成記

肖智清的履歷看起來便是那位“別人家的孩子”:肖智清在北京郵電大學本科階段,專業成績排名年紀第一,併成為當時唯一同時獲得北京市大學生高等數學競賽(當時還沒有全國高數競賽)、全國部分地區大學物理競賽、全國大學生英語競賽、北京市電子設計競賽四大競賽的一等獎的學生。後來以學分績專業排名第一的成績推研清華大學信息學院攻讀博士學位。

在博士期間發表SCI/EI檢索論文十餘篇,其中包括在IEEE Transactions on Information Theory(T-IT)發表第一作者論文,成為清華大學近年來首個在T-IT上以第一作者發表論文並在畢業前見刊的博士研究生。

同時,肖智清還是IEEE T-IT、IEEE T-Computers、IEEE T-Communications等期刊和會議的審稿人。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

強化學習應用到真實環境有哪些優勢?

談到強化學習應用的問題,肖智清表示,強化學習能用同一套代碼並搭配同一套參數完成不同的任務,具有一定的普適性。

比如,AlphaGo的最新改進版算法AlphaZero,它可以用同一套代碼搭配同一套參數,學會如何下圍棋、如何下國際象棋、如何下日本將棋,並且做的比其他AI都更好。

再例如,深度強化學習算法DQN可以用同一套代碼搭配同一套參數玩各種不同的遊戲,比如吃豆人、打飛機等等。這兩個案例在他寫的書裡都有詳細的介紹和配套代碼,可以瞭解一下它們是如何用同一套代碼搭配相同的參數來求解各種各樣不同的問題的。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

強化學習是實現強人工智能的希望?

有人認為強化學習是實現強人工智能的希望,對此,肖智清表示,強化學習可以用同一套算法搭配同一套參數解決多種不同的問題,具有普適性。

同時我們也要意識到還有其他算法也有普適性,比如自動機器學習和元學習。它們都是強人工智能的希望。說它們是強人工智能的希望,是相對於其他算法而言的,這是一種矮個裡挑高個的說法,而不是說用這樣的技術就最終一定能實現強人工智能。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

強化學習的未來

談及強化學習的未來研究前沿和演進方向,肖智清表示,在研究方面,強化學習可以和元學習結合,也就是目前常說的強化元學習,使得強化學習能夠用較少的資源學得各種各樣複雜問題的解決方法。

肖智清戲稱:做一個不負責任的預計,強化元學習至少還有100篇頂會文章可以發。另外,多智能體強化學習、隨機決策時間的強化學習依然是可以研究的內容。

在工程方面,將自動機器學習和強化學習結合,開發類似於Auto-sklearn的強化學習系統,有可能根本性改變強化學習的生態。

在落地應用方面,強化學習可以和終身學習結合,使得人工智能系統能夠在一個比較長的時間跨度內適應不斷變化的環境,長期服務於真實世界的場景。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

人人編程時代,AI開發者何去何從?

現在人工智能課程已納入中小學的課程中,很多人相信未來編程將會和英語一樣,成為學生必修課,全民編程時代很快來臨,一些AI專業的學生難免對職業未來擔憂。

對此,肖智清表示,程序員和其他勞動者並沒有本質區別,簡單的編程技術並不比磚瓦工人的砌磚技術或是月嫂的育兒技術更困難,本來就不應該比它們更值錢。

當一個技術不斷普及、門檻越來越低的時候,勞動報酬自然就會迴歸到和無差別勞動時間吻合的水平。

隨著自動機器學習技術的發展和應用,需要的調包俠、調參俠越來越少,想把自己的調包服務、調參服務賣出去自然就會越來越困難。

他強調,一個技術或產業越來越重要或是不可或缺,並不代表對應的崗位會增加、薪資會提高。就比如英語的例子,英語對當今社會越來越重要,並不代表英語專業同學的就業前景越來越好。同樣的,人工智能越來越重要,並不代表著人工智能的崗位會越來越多、薪水越來越高。

但與上述相反的是,近年來有一些企業高新聘用AI工程師,肖智清表示,稀缺資源需要花大代價才能獲得。

校招生拿年薪百萬Offer早已不是新鮮事。當肖智清在校時,常聽說有研究生甚至本科生拿到了百萬Offer,近年也常聽說有200多萬的校招Offer。

他認為薪水是體現公司對人才重視程度的最直接度量。一個公司給的薪水越高,那麼它就越重視人才。無論對於學生還是對於職場人士,如果想爭取高薪,都要努力成為稀缺的人才。

他以強化學習為例,如果只是瞭解幾個常見強化學習算法,那花幾天時間看看博客文章就可以。如果能對整個強化學習研究的理論有全面紮實的瞭解,那就有一定的稀缺性。

如果技術者能始終走在研究前沿並穩定輸出頂會論文,那就是真正稀缺的業界大咖。如果你想拿高薪,那就要讓自己成為大咖。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

建議IT專業學生:用好搜索引擎

談及對於剛步入大學的學生,有哪些編程習慣和編程思維越早掌握越好?

肖智清表示,最重要的一點是用好搜索引擎。遇到問題請先上網搜索下,無論是編程遇到Bug,還是不理解某個概念,還是想得到資料或經驗,都請先試圖上網搜索下。有人會直接把問題貼到各種微信群、QQ群或是其他社群裡,結果往往是各種吹水,浪費時間,還沒有收穫,最後還是得自己重新用搜索引擎搜索才解決。

如果確實有編程問題無法通過搜索解決,這時候就要用到另外一個大殺器“最小可復現樣例”,英文叫做Minimal Working Example,縮寫是MWE。具體而言,遇到程序報錯或是行為異常時,可以試圖簡化程序,不斷刪除次要邏輯,最終用最少的代碼復現出錯誤或異常行為。在絕大多數的情況下,最終形成的MWE不會超過20行。在製作MWE的過程中,你很可能會自行發現程序中的錯誤。如果真的製作出MWE並且還沒有找到解決方案,那麼你帶著MWE去提問,獲得滿意回答的概率也會

大大增加。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

建議開發者:保持激情,不斷學習

在肖智清的職場經歷中,他認為作為一名開發者,最關鍵的一點是要保持激情,不斷學習。技術更新換代非常快,只有激情才能讓我們不斷學習、保持在最前沿。

還是以強化學習為例,深度強化學習僅僅是最近幾年才有的事情,強化學習在短短几年之間已經發生了翻天覆地的變化,編程工具也在快速演進中。在2019年,強化元學習已經成為研究新熱點,TensorFlow 2已經成為風頭正勁的工具。這些東西在他剛入職場的時候都是不存在的。

開發者如果沒有不斷學習,就會被淘汰。

清华博士解读 AlphaGo 战胜李世石背后的黑科技 | 人物志

寫一本全面介紹古典算法和現代算法的強化學習書

2016年,肖智清從清華大學獲得博士學位,隨後進入一家國際投行從事研發工作。開始撰寫AI教程書,目前已出版有PyTorch 1紙質教程書《神經網絡與PyTorch實戰》和配套TensorFlow 2代碼的強化學習教程書《強化學習:原理與Python實現》。

為何開始撰寫《強化學習:原理與Python實現》?

Google的AlphaGo激發了很多人學習強化學習的興趣。但是,目前在全球範圍內,能夠完整地將古典的非深度強化學習和前沿的深度強化學習算法全面闡述的強化學習教程可以說是幾乎沒有。有的教程可能側重於非深度強化學習算法,然後只是簡單地增加了兩三個基礎的深度強化學習算法,無法使學習者深入瞭解深度強化學習算法;另外有一些教程則側重深度強化學習算法,但是由於沒有系統地介紹古典知識,就沒有辦法全面剖析那些深度強化學習算法的設計思路和收斂性。

實際上古典算法和深度強化學習算法有非常直接的關係,前沿算法的很多改進思想在古典算法中已經有非常類似的研究。

所以肖智清就想寫一本能夠全面介紹古典算法和現代算法的強化學習書籍,使得學習者能夠將它們融會貫通。這本書的亮點之一是它逐章配套代碼,特別是深度強化學習部分的配套代碼是用TensorFlow 2寫成的。

這本書的電子版首次於2018年末至2019年初上線各大閱讀平臺,隨書代碼也同時在GitHub上公開,大家只需要訪問本書的GitHub頁面,就能在線查看所有代碼和運行結果,如果有需要還可以下載到本地運行。每個算法的實現相對獨立,行數大多都在數十行內,大多數代碼用普通筆記本電腦就可以運行出結果。

想繼續聽肖智清博士為你詳解強化學習的原理與Python實現?還有入門強化學習模型、典型算法詳解,解讀 2019 年 OpenAI-Gym 排行榜明星案例!

現在機會來了,點擊閱讀原文或掃描下方二維碼,免費報名線上直播課,可與肖智清博士線上互動學習,還有機會獲得價值89元《強化學習:原理與Python實現》圖書一本~一起參加吧!


分享到:


相關文章: