如果AI出“老千”,研究員該怎麼設計算法?

如果AI出“老千”,研究員該怎麼設計算法?

作者 | 蔣寶尚

從哪方面可以看出來AI和人類越來越像?

玩遊戲作弊或許是個指標,畢竟利用遊戲BUG快速通關只有貪婪的人類能想到。

一般科研人員在做實驗的時候,通常會極力避免機器的這些作弊方式,只有少數的研究人員研究這些案例,他們認為算法的頑皮或許是AI真正走向智能的方式之一。

如果AI出“老千”,研究员该怎么设计算法?

左側是原始地圖,街道地圖從原始地圖產生。中間:生成的地圖。右側:重構的地圖。其中,衛星地圖的樣本只來自街道地圖。注意這兩張衛星地圖裡出現的點,它在街道地圖沒有顯示。

AI在做特定任務的時候,利用作弊手段獲得高分的事件非常常見,例如在谷歌和斯坦福2017年的一項研究中,為了完成圖像轉換的任務,CycleGAN在訓練過程中通過人類無法察覺的某種“隱寫術”,騙過了它的創造者,給自己留下了隱秘的“小抄”,然後順利完成了任務。

如果AI出“老千”,研究员该怎么设计算法?

另外,2018年的時候,在OpenAI舉辦的“用AI玩《刺蝟索尼克》遊戲”項目中,有一隻AI做法是,利用遊戲中BUG更加快速的完成任務。

為什麼會出現這種問題,DeepMind在其最新的博客中將這種現象歸納為“規則博弈”,即雖然滿足了目標所制訂的規範,但沒有達到設計者預期結果的情況。

出現這種現象並不意味著總是壞的,從AI可以找到一種創新方式實現任務目標的角度來看,能夠幫助研究人員創新思維。

規則博弈出現的原因,DeepMind猜測可能是獎勵機制不當與泛化反饋導致,如獎勵模型無法準確反映設計目的。

1 規則博弈:意圖與目標的差異

古代神話中流傳的邁達斯國王和點金術的故事就是規則博弈的描寫,國王所摸之處皆是黃金,無論是石頭還是食物都不例外。把食物變成黃金就是利用了規則的漏洞!

現實生活中也有大量例子,老師在佈置家庭作業的時候,只根據作業的正確率打分,正確率越高,獎勵越多。於是抄作業現象就出現了。

如果AI出“老千”,研究员该怎么设计算法?

在AI模型的強化學習中也大量出現這種情況,DeepMind目前大概收集了60個例子,並寫成了論文,放在了arxiv上面,取名為《AI軼事集》。

如果AI出“老千”,研究员该怎么设计算法?

最著名的當屬這個堆樂高,研究者期望的結果是將紅色的積木摞在藍色積木的上面,也就是說紅色積木的底面越高,AI智能體得分越高。於是AI學會了將紅色積木底面翻過來,從而快速領取獎勵。

雖然,這種行為達到了獎勵的目標,卻失去了設計者的初心。

這個例子充分說明,問題不是出在強化學習算法方面,而是對預期任務的錯誤規範導致,也就是說出了算法設計之外,構建智能體的一個重要部分是獎勵設計。

但是,獎勵機制的設計,環境的搭載要準確反映人類的意圖往往是非常困難的,一個經典的情況是:好的強化算法可以找到人類意想不到的解決方案,而差一點的算法找的方案與預期的相同。所以,隨著強化算法的改進,正確地指定意圖對於實現預期的結果會變得更加重要。

在強化學習設置中,任務規範不僅包括獎勵設計,還包括訓練環境和輔助獎勵的選擇。任務規範的正確性可以確定AI的創造力是否符合預期結果。如果規範,AI的創造力就會產生一個令人滿意的新解決方案。

例如阿爾法圍棋(AlphaGo)在與李世石對戰的時候,打出了著名的37步,這一步是讓圍棋頂級專家都大吃一驚,而這一步在它與李世石的第二場比賽中至關重要。

如果獎勵機制錯誤,AlphaGo可能會產生例如翻轉棋子等不良的遊戲行為。這些類型的解決方案都是在一個範圍內的,沒辦法用定量的方法區分。

2 規則博弈可能原因:獎勵機制不當與泛化反饋

前面也提到,出現規則博弈的一個可能原因是獎勵機制設置不當,即只獎勵最終結果,對AI完成任務的過程視而不見。

例如,下面這個賽艇的遊戲,設置給AI的目標是獲得更加高的分數,所以僅僅針對這一個任務,AI找到了最優策略,例如繞著圈子反覆擊中相同的綠色積木。

如果AI出“老千”,研究员该怎么设计算法?

找到一個能夠準確刻畫最終結果的獎勵機制,非常具有挑戰性。例如,在樂高任務中如果僅僅規定紅色積木的地面離地面就能獲得獎勵還是不夠的,因為AI可以簡單的翻轉紅色積木實現這個目標,一個更加全面的獎勵機制的設計必須要求頂面高於底面,並且紅底面與藍頂面對其。

在具體的評價函數設定中,很容易漏掉其中一個標準,從而規範過於廣泛,從而AI就更容易用退化的方案對付人類的要求。

所以,一個解決方案是,AI可以從人類的反饋中學習獎勵函數,而不是試圖創建一個涵蓋所有可能案例的規範。如果獎勵機制不能反映設計者真實偏好,那麼就會遇到規範博弈問題。

另一個來源可能獎勵模式也可能由於其他原因而被錯誤指定,例如泛化能力差。解決方法是給模型附加額外的反饋,用來糾正獎勵機制。

模擬器本身的BUG也有可能產生規則博弈,例子如下動圖:所示一個模擬的人工智能機器人本來應該學習走路,但它卻想出瞭如何把腿勾在一起並在地上滑動的方法。

如果AI出“老千”,研究员该怎么设计算法?

乍一看可能非常有趣,但仔細一想,現實世界中並無此類BUG可以利用。由於對模擬器中物理學機制(例如地面足夠光滑)做出了錯誤的假設,機器人的任務也被錯誤的指定了。

這些假設細節設計者可能從未想到過,或者由於任務非常複雜,無法考慮每一個細節,研究人員更有可能在規範設計過程中引入錯誤的假設。例如,常見的一個假設是:任務規範不受AI行為影響。

在虛擬的實驗環境中,此類假設或許可行。但是,在真實世界中運行的AI則不是這樣,任何任務規範都有物理表現形式:存儲在計算機上的獎勵功能,或存儲在人腦中的偏好。

因此,部署在真實世界中的AI可能會操縱這些目標的表現形式,從而產生一個獎勵篡改問題。例如在交通線路優化系統中,一般會假設滿足用戶偏好,如提供有用的路線,和影響用戶,如通過引導用戶選擇更容易滿足的目的地,之間沒有明前區別。在獎勵設置中,兩者都會給AI系統帶來高回報。但是他們之間是不同的,前者滿足了目標,後者則操縱了目標在世界中的表現形式。

再舉一個極端的例子,一個非常先進的人工智能系統可以劫持它所運行的計算機,並手動將它的獎勵信號設置為一個高值。

綜上所述,解決規則博弈需要至少克服三個挑戰:

1、如何在獎勵機制中明確地指定設計者對給定任務的概念?

2、如何避免對領域知識的隱含假設犯錯誤?

3、如何避免獎勵篡改?

AI 科技評論系列直播

直播主題:CVPR 2020丨數據與模型缺陷:不完美場景下的神經網絡訓練方法

主講人:Louis

直播時間:4月28日 (週二晚)19:00整

回放鏈接:http://mooc.yanxishe.com/open/course/797

直播主題:ICDE 2020 | 華東師範大學×滴滴:利用軌跡數據自動校準道路交叉口拓撲信息

主講人:劉國平

直播時間:4月29日 19:30

鏈接:https://mooc.yanxishe.com/open/course/810

直播主題:ICLR 2020丨從梯度信噪比來理解深度學習泛化性能為什麼這麼好

主講人:劉錦龍

直播時間:4月30日 (週五晚) 20:00整

鏈接:http://mooc.yanxishe.com/open/course/803

如何加入?

如果AI出“老千”,研究员该怎么设计算法?


分享到:


相關文章: