《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第四篇》

4.


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第四篇》


IN God we trust; all others bring DATA.

—— W. Edwards Deming

這篇文章提到馬雲說阿里巴巴是家數據公司,馬雲的話當然多半是不可信,但這話還是值得玩味的。

數據對於人工智能的重要性不言而喻,數據之於AI就如同食物之於人類。

而隨著人工智能的不斷髮展,數據正演變成一種新的資產,若干年後的資產負債表上可能會增加數據規模、數據維度等項目,或者仿照現金流量表建立一張數據流量表,加在每月財報裡,甚至可以把數據作為一種新型貨幣來交易。

比如IBM與許多醫藥公司和醫院進行合作,獲取數據來訓練Watson系統,這是不得已而為之的。

從目前來看,智能化道路上最大的障礙不是算法,不是計算能力,而是大量高質量的數據。

算法框架各大科技巨頭均已開源,計算能力不足可以通過雲計算實現,然而數據,特別是醫療數據是非常敏感的(亞馬遜的醫療數據洩露就引起軒然大波),非常難以獲得,而且很多疑難雜症,全世界都沒有幾例,也就沒法對這個類別蒐集大量數據。

而IBM花大成本研發的系統如果沒有大量的數據作支撐的話,那就如同是沒有水的護城河 —— 雖不能說完全是個擺設,但終究是作用有限。

而與之相比,對於很多互聯網巨頭而言,獲取數據的自由度就高多了。

【文章】中說大型互聯網公司之所以都願意免費開放自家的AI軟件,是因為在其他層面他們手握巨大優勢:即能夠獲取大量用於訓練的用戶數據。

《經濟學人》之前發表過一篇文章(The Great Divergence),講的是熊彼得的著名理論認為做一個行業領先者是相當危險的,因為後來者可以利用現成的知識和技術加以適當改進來趕超領先者。

但近年來的研究卻發現各行各業都出現了“贏者通吃”的局面,因為行業領先者擁有雄厚的資源可以不斷投資新技術,以及都掌握著一些壟斷優勢。

這反映在數據層面也同樣是如此,大公司由於擁有得天獨厚的數據優勢,在人工智能的發展上就領先了一步。

在數據層面還有一個值得考慮的問題,這個問題會直接影響數據的使用 —— 即數據的標註。目前機器學習界占主導地位的是監督學習,其中特別是深度學習這類算法,需要大量帶標籤的數據進行訓練,像ImageNet的數據庫中有2.2萬個類別、1500 萬帶標籤的圖片,據李飛飛介紹這麼多圖片是花了3年才全部標註完的。

數據的標註甚至已演變成了一個行業,可以參閱這篇文章的介紹。

鑑於真實世界中大部分數據都是無標籤的,而人工對數據進行標註又非常費時費力容易出錯,所以現在機器學習和深度學習中,最重要的宏觀趨勢是算法研究正逐步從監督學習轉變為無監督學習和小樣本學習。

Yann LeCun在很多演講中反覆提到一個著名的“蛋糕”比喻,來解釋無監督學習的重要性:

如果人工智能是一塊蛋糕,那麼強化學習( Reinforcement Learning)是蛋糕上的一粒櫻桃,監督學習(Supervised Learning)是外面的一層糖霜,無監督學習( Unsupervised Learning)則是蛋糕胚。

目前我們只知道如何製作糖霜和櫻桃,卻不知如何製作蛋糕胚。


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第四篇》



本來這一節寫到這裡就可以擱筆了,然而最近DeepMind又出來搞事了。

2017年10月18日,DeepMind在《Nature》上發表了一篇論文,介紹了依靠純強化學習訓練而成的阿爾法元(AlphaGo Zero)。

對於從業者來說,這其中最大的亮點不是能100:0橫掃舊版AlphaGo,而是看到了一絲希望,即不需要大量人類提供的數據(在圍棋中,意味著歷史棋譜)進行訓練。

如果能妥善解決目前普遍存在的數據缺失問題,那對整個人工智能界乃至全人類發展的影響都比成為圍棋世界排名第一要大的多。

人工智能的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰性的領域,超越人類水平。而AlphaGo Zero就是不參考歷史棋譜,不需要人類的樣例和指導,只以棋盤上的黑子和白子作為輸入,通過自己和自己博弈進行訓練。

據AlphaGo Zero的第一作者、UCL的教授David Silver在訪談中介紹:他們在之前的AlphaGo中嘗試過自我博弈,但發現都不穩定,這次發現AlphaGo Zero所使用的算法是最高效的,所以他覺得目前來看算法比數據重要,這對於整個業界來說都是重要的新思路。

AlphaGo Zero的出現令強化學習大放異彩,早些時候強化學習就在《麻省理工科技評論》發佈的2017年全球十大突破性技術榜單上排名第一。

如【文章】中所述,監督學習、強化學習和無監督學習是機器學習的三大框架。

強化學習的主要過程是智能體在環境中觀察並採取行動,以獲得最大的期望獎勵,如下圖所

示 :


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第四篇》


強化學習主要適用於需要與環境不斷交互來獲得最大獎勵的領域。

比如一個智能體可以在股市中不斷進行觀察,繼而在每秒決定買進還是賣出。

股市是一個極端複雜不可控的環境,再厲害的人類交易員,也很難在高維數據分析方面比得過機器學習算法。

另外,投資很多時候需要極度理性,看清長遠趨勢,放棄短期利益才能最終獲得收益最大化。而強化學習恰恰擅長放長線釣大魚,在訓練過程中通過不斷模擬和試錯,神經網絡調整參數,智能體最終識別出獲取最大獎勵的途徑。

許多人都驚歎於AlphaGo在比賽中表現出的超越人類選手的大局觀,其實意思也就是說,它在前期可能會下幾步出人意料的棋,但到了中後盤,人們慢慢發現這幾步棋成了最終獲勝的關鍵。

早在AlphaGo之前,DeepMind就曾以深度強化學習算法在世界上揚名。

圍棋作為一項運動是有一定門檻的,而事實上大部分人都不會下圍棋,所以本質上也不知道AlphaGo究竟厲害在什麼地方,只能從側面(比如戰勝所有圍棋高手)獲得一些信息。

這就像著名小提琴家斯特恩曾這樣評論二十世紀最偉大的小提琴家海菲茲:“所有人都知道海菲茲拉得好,但只有拉到我這樣水平的人,才明白他的技術究竟有多高超。”

然而,如果讓AI玩一個每個人小時候都玩過的遊戲,那情況就不同了 :


《收藏:《經濟學人》20160625期,篇幅較長共七篇,下文第四篇》


人工智能 Deepmind打磚塊

上面這個視頻,顯示的是DeepMind的AI在玩“打磚塊”遊戲上的自我進化過程。

該AI所有的輸入僅為現有的分數和遊戲畫面上的像素,其他的要素比如球、磚塊、滑板等,它一概不知。

也就是說,除了獲得的分數以外,沒有任何人為輸入的遊戲規則信息,全靠長期訓練,讓AI自己悟出,什麼是獲取最高分數的策略。

所以剛開始時,AI的表現很差,老是漏球;經過400次訓練後,AI已經能很熟練地接住所有球了。

而到了600次訓練後,AI自己“想”出了一個絕妙的策略,它將磚塊牆的左邊打出一個通道,然後通過這個通道把球打到牆的後面,這樣就能快速獲得大量分數。

這個精巧的打法,是DeepMind的研究者自己都不曾想到的, AI發現了比人類更好的打法。

在這個短短一分多種的視頻中,人們見識到了由原來的“弱智”AI進化到遊戲高手的全過程,而且DeepMind用同樣的技術讓AI從0開始玩了其他49種不同的遊戲,最終AI在29種中勝過了人類測試者。

DeepMind於2013年12月發表了這項成果,一個月之後,Google宣佈以五億美元收購DeepMind,後面的故事,現在大家都已經知道了。

【文章】中說Hassabis等人的願景是開發出通用人工智能(AGI),一個能完成多種任務的系統,而相比較而言,現在的人工智能系統大多隻能做同一件事。

後文中Hassabis繼續說,” 我想我們已經掌握了一些關鍵信息 ,能夠幫助我們向真正實現AGI技術靠攏。“ 果不其然,2017年12月AlphaGo 研究團隊提出了 AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新算法。

據稱,新的算法經過不到 24 小時的訓練後,可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程序(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。

現在,DeepMind的這些依賴新算法的AI能不依靠人類的數據和指導,只通過基本規則進行自我學習就能在多個特定領域超越人類水平,這是通往AGI的關鍵一步。只是如果真出現了通用人工智能,人類又該何去何從呢?

【The Economist 02】(解) a.k.a 【邪惡是一種教養】(第三季)

原文: https://www.economist.com/sites/default/files/ai_mailout.pdf

翻譯: https://www.douban.com/note/651181384/


分享到:


相關文章: