好奇心“害死”人工智能:研究人員引導其沉迷遊戲

如果我們教導機器人如何捕魚,那麼其有可能成為一臺捕魚機器人。但如果我們賦予其好奇心,那麼人工智能則會像人一樣整天沉迷於電視節目與電子遊戲。

好奇心“害死”人工智能:研究人員引導其沉迷遊戲

來自Open AI(由Elon Musk聯合創立的智庫)的研究人員們最近發表了一篇研究論文,其中詳細介紹了一項關於好奇心驅動學習的大規模研究成果。在論文中,他們展示瞭如何在沒有“外在獎勵”的條件下訓練人工智能模型,從而實現自發的技能學習能力。

基本上,研究人員們已經找到了在不提供明確目標的前提下,引導人工智能執行任務的方法。根據該團隊發佈的白皮書所言:

這事並不像聽起來那麼神秘。發展心理學家將內在動機(即好奇心)作為早期發展階段的主要驅動因素:嬰兒似乎就是以無目標探索方式學習今後在生活中具備實用性的技能。還有很多其它例子:無論是遊玩《我的世界》還是參觀動物園,玩家無需外在獎勵即會主動遊歷各個地點。

其中的基本思路在於,如果我們能夠讓機器在不存在內置人工編碼獎勵的條件下自主進行環境探索,那麼我們將更接近真正的自動機器目標。這亦可能會對救援機器人開發乃至太空探索等任務產生令人難以置信的重要影響。

為了研究內在動機型深度學習的影響,研究人員開始將著眼點轉向電子遊戲。由於存在著固有的規則與獎勵,這些環境非常適合人工智能研究工作。開發人員可以要求人工智能遊玩《Pong》,並設定“不要失敗”等特定條件,從而敦促其考慮如何(在理論上)獲得更高得分。

當研究人員利用雅達利遊戲合集、《超級馬里奧兄弟》以及《Pong》等環境中進行實驗時,他們發現不具備明確目標的機器代理仍然能夠發展自己的技能與學習能力……只是有時候結果比較複雜。

好奇心驅動下的機器代理設定了自己的規則。其有動力體驗新鮮事物,因此在遊玩經典的《打磚塊》遊戲時,其出於好奇心的驅動而有著良好的表現:

被打掉的磚塊越多,剩餘磚塊構成的圖案就越複雜,這使得機器代理更好奇地進一步加以探索。在這種情況下,得分反而成為一種副產物。此外,當機器代理用盡命數後,磚塊會再次被重置為固定的統一結構。由於已經多次看到相同的結構,因此機器代理認為其具有高度可預測性,並能夠在下一輪遊戲中更活躍地避免再次遭遇失敗。

另外,人工智能還通過了多達11關《超級馬里奧兄弟》遊戲,這表明即使不設定任何目標,好奇心驅動下的人工智能也可以帶來出色的表現。

不過此次研究帶給人工智能社區的並不完全是好消息——擁有好奇心的機器與人類似,同樣很容易分心。研究人員將兩套好奇的機器人引入《Pong》遊戲以進行對抗時,它們很快自行調整了目標——希望通過比賽探索雙方能夠最多連續完成多少次截擊。

此外,研究團隊還測試了一項常見的思想實驗,即“嘈雜電視問題”。根據白皮書中的內容來看:

我們的想法是,將電視的隨機頻道切換作為本地熵源,並將其與機器代理的行動聯繫起來,應該能夠對其產生強烈的干擾性。我們希望單純驗證這一思想實驗,只是在其中添加了電視以及頻道切換的因素。

事實證明他們的猜測是正確的,人工智能在嘗試理解行動與電視節目間的關聯時,出現了顯著的效能下降。

從此次實驗來看,這些擁有好奇心的機器學習代理似乎是我們見到過的,最像人類的人工智能。那麼,大家打算如何理解這一切?


分享到:


相關文章: