通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

Root 編譯整理

霍金曾說過,通用人工智能(簡稱AGI)將會終結人類。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

這類警惕AGI的言論,其實很久之前就有。

早在1951年,艾倫·圖靈說過機器終會掙脫我們人類控制,接管這個世界。連工廠裡使用大量機器人自動化生產特斯拉Model 3的馬斯克,都反覆公開強調,人類要積極監管,否則等回過神來的時候就已經來不及了。

澳洲國立大學三位AI學者Tom Everitt, Gary Lea, Marcus Hutter憂天下之憂,即將在IJCAI(國際人工智能聯合會議)上發表一篇綜述AGI Safety Literature Review,盤點了這幾年全世界各地AI學者們對通用AI安全問題的思考。

簡單瞭解一下AGI

如今我們生活中聽過的或接觸到的AI,只能處理單一問題,我們稱之為弱人工智能。

單獨下個棋,玩雅達利遊戲,開個車,AI都hold得住。但現在的AI還沒有“十”項全能的本領,無法同時做到在多個任務都表現得超過人類。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

只有強人工智能,也就是AGI,才具備與人類同等的智慧,或超越人類的人工智能,能表現正常人類所具有的所有智能行為。

儘管現在並不存在AGI,但從人類把越來越多機械重複的工作都扔給AI解決這個趨勢來看,AGI早晚會到來。

When?

曾有人在某年的NIPS和ICML大會上,組織過一場問卷調查。其中一個問題,請在場的頂尖學者們預測,比人類強大的AGI什麼時候來。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

容朕想一想~

調查結果顯示,大家認為AGI會出現在2061年(結果取的中位數)。

掐指一算。也就還有43年。

AIXI模型,AGI學術圈內有望達到通用人工智能的模型之一,由本文作者之一Marcus Hutter教授於2000年首次提出。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

他假設任何計算問題都可以轉換為一個效用函數最大化的問題。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

只用這一個公式,就概括出了智能的本質。

基於AIXI理論,Hutter教授和他的學生Shane Legg(也是DeepMind的聯合創始人)在2007年對智能下了個定義:

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

agent的智能程度,是看agent在複雜的環境裡完成任務的能力。

在大多數人的認知裡,一旦兩個agent同在一個環境裡有著相斥的目標,那麼智能程度更高的agent靠智商碾壓對方來取勝。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

這讓很多人感到深深的恐懼。

如果哪一天我們成為了某個AGI目標的障礙物,那麼比我們強大的AGI也很有可能會把我們清理掉。

圍繞這層擔憂,本文將從AGI可能造成的問題及人類的應對策略、公共政策這兩個方面展開論述。

提前防範AGI寶寶造反

底層價值取向

第一個能想到的危險,是以AGI的智慧程度,它已經可以把目標分等級了。

比如說,算出π小數點後的第xx位數值,和追求提高人類的生活幸福指數相比,AGI可能會覺得前者很沒意思。一旦AGI發展出自己的一套目標評價體系,那可能意味著它們不會乖乖“無腦”地完成人類交給他們的任務了。

所以我們人類一開始就要給AGI設計好底層的評價體系,相當於給它們一套我們人類做事的準則,一份moral code,價值取向。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

教會AGI寶寶分辨好人和壞人

現階段,造AGI的最佳架構是強化學習。在單向任務上,棋類遊戲、電腦遊戲都用的強化學習。而採用強化學習的最大挑戰在於,如何避免agent為了優化而不擇手段抄近路。

不僅要防止agent篡改訓練數據,維護好獎勵函數的處理機制,還要小心最後輸出的評估表現被扭曲。AGI想要做手腳的話,可下手的地方太多了。

因此,我們人類得充分想到每一種可能,做對應的防禦機制。

穩定性

不過,即使辛辛苦苦教會它們怎麼做一個好AGI之後,它們也有可能會在自我進化的過程中改寫掉這些底層原則。所以設計一個穩定可靠的價值取向就很關鍵。

有學者Everitt, Filan認為,設計價值取向必須考慮的三大前提。

Everitt, Filan, et al. Learning the Prefer- ences of Ignorant, Inconsistent Agents , arXiv: 1512.05832.

1)Agent評估未來場景的模型得基於當下的效用函數;

2)Agent得提前預判自我改寫對未來行為策略的影響;

3)獎勵函數不能支持自我改寫。

可修正性

過於穩定,規則完全改不動也不行。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

死守單一原則,容易被一窩端

DeepMind就尤其在意未來的AGI是否具有自我修正能力。指不定人類一開始設計的底層原則有啥毛病呢。不能改的話,也很恐怖。

這裡就需要引入一個修正機制。

默認情況下,agents出於自我保護會阻止修改、關閉。就像哈爾9000一樣,當發現鮑曼和普爾要關閉他時,他就會策劃反擊。但可修改、關閉的指定特殊情況例外。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

除此之外,還需要設置長期監控agents行為的測試,一旦發現異常馬上關停。

安全性

用強化學習存在個問題。模型很容易受到訓練數據的干擾,被操控後墮落成壞AGI。

去年Katz拓展了Simplex算法,把修正線性單元ReLU引入了神經網絡。然後成功地驗證了含有300個ReLU節點8層的神經網絡行為,從而提高了神經網絡抗干擾能力。

具體ReLU如何提高模型的抗干擾性可參考:Katz, et al.Reluplex: An ecient SMT solver for verifying deep neural networks. arXiv: 1702. 01135

可理解性

深度神經網絡是怎麼學習的,一直也是個謎。不理解它們的話,我們也沒法引導他們做出正面的決策。

為了可視化網絡的行為,DeepMind的Psychlab心理實驗室模擬出了一個三維空間,嘗試理解深度強化學習的agents。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

也有AI學者Zahavy為了觀察DQN在玩雅達利遊戲的策略,用t-SNE降維的方法可視化DQN頂層網絡的活動。

公共政策怎麼定比較科學

有人擔心AGI造反,也有人擔心壞人濫用AGI把世界搞得一片混亂。後者更希望全球出一套統一的法規,調控AI的發展。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

但也有人對法規持謹慎的態度。AI學者Seth D Baum認為,設定法規反而會把AI往火坑裡推。

當法規成了阻撓AI發展的外力,AI研究者們到時肯定會想辦法繞過這些條規。

那種自發摸索怎麼樣造出更安全的AI的內在動力,他認為,會更快嘗試出一條安全的路徑。關於自發內在的動力,他提出了幾點建議:

1)營造一個良好的討論氛圍,多半一些大會鼓勵AI研究機構和團隊公開發表他們對安全AGI的見解。

2)爭取利益相關第三方的資金支持,比如各大車廠以及軍隊。他們不差錢,也願意花在AGI的研究上。

3)不能把AGI的研發看作一個軍備競賽。如果遊戲規則是贏者通吃,那大家只會一味地拼速度,而忽視掉安全問題。

4)從社會行為學的角度來說,可以引導AI學者們公開發聲,表達出他們所做的AI研發工作是奔著安全的方向去的。一個人公開的表態會倒過來影響一個人的行為,從而促使大家在實際操作過程中也按照這個想法去做。人還是傾向於知行合一的。

事不宜遲,趕緊行動起來

頂尖的AI組織機構已經開始發力。IEEE已經在去年開始出一份道德指南(guidelines on Ethically Aligned Design)。ACM也和AAAI的SIGAI小組合作,2017年聯合舉辦了一個AIES( AI, ethics and society)大會。

歐盟也很重視這件事。今年拉著同盟國和業界的大佬一起拿出30億歐元給AI和機器人研究中心,以及歐洲議會組織了兩次會議,公開徵求民眾意見,探討AI和機器人的民事法律責任框架草案。

AGI留給人類準備對策的時間,也許還有不到50年。

通用AI留給人類準備對策的時間也許不到50年,如何安全防範?

希望最後AGI和人類能友好共處

最後,附AGI安全綜述全文:

https://arxiv.org/abs/1805.01109

作者系網易新聞·網易號“各有態度”簽約作者

誠摯招聘

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: