DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

IQ 的 I ,並不是 AI 的 I

生活在一個AI“氾濫”的時代,我們幾乎每天都能看到 AI 研究上的最新進展。

昨天,AI 打 DoTA 戰勝人類了;今天,AI 能自己找路了;明天,AI 能假冒人類打電話了。

在擔心 AI 會滅掉人類的人們眼中,AI 正像一隻怪物一樣野蠻生長,像一隻侵略軍一樣從遠方大跨步逼近。

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

然而實際上,你所看到的這些進展,只是不同的 AI 在特定方向的進步。雖然當前基於深度學習的 AI 熱潮已經有五六年了,還是沒有一個獨立的 AI,像一個獨立的人一樣,能夠優秀地執行多種任務。

人們在形容 AI 時,通常會用這樣一種說法:這個 AI 的智商,跟三歲小孩差不多。

智商 (Intelligence quotient) 簡稱 IQ,是評價人類智商一個普遍接受的標準 。你有智商,我也有智商,就連三歲小孩也有智商。接下來問題來了:既然說 AI 跟三歲小孩差不多,那麼它的智商到底有多少呢?

得給 AI 測測智商了。

DeepMind要給AI測IQ

自 AlphaGo 橫空出世以來,AI 在解決一些複雜的、策略性的問題上,能力已經得到了證明。但如果想要更像“人”,AI 必須也擁有像人類一樣的抽象理解能力。

而如果你小時候不幸被父母帶去少年宮測過智商,應該還記得那些題吧?

比如有幾個數列在一起,中間空了一位讓你填的:

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

也有下面這種圖形演進變換的:

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

科學不科學先不說,這些智商測試題的意圖還是很明顯的,主要就是為了檢測小朋友在計算、邏輯推理還有抽象理解等方面的能力。

給 AI 測智商也一樣。只不過現在的 AI 計算能力不用說了,推理能力也很強,所以只剩抽象理解能力了。Google 旗下的 AI 科研機構 DeepMind 認為,“基於神經網絡的機器學習模型取得了驚人的成績,但想要衡量其推理抽象概念的能力,卻非常困難。”

為了搞清楚現在的 AI 在抽象理解能力上究竟實力如何,DeepMind 還真給 AI 設計了一套測試題:

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

(論文地址 http://t.cn/Rdd9eDZ 點文末的“閱讀原文”也可以看到)

這套測試題,借鑑了人類的 IQ 測試裡著名的瑞文推理測驗:給定一組圖片,找到符合其“演進”規律的圖片。

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

(圖片來源:DeepMind 論文)

在這種測試中,題目裡並不會告訴你要找到符合什麼標準的圖形,而是需要我們根據日常生活中學習或掌握到的一些基本原則,來理解和分析測試中出現的簡單圖案。

要找到正確的答案,往往要借鑑我們從生活中明白的“演進”規律。比如小樹苗長成大樹,比如從 0 到1、2、3、4、5 的加法,再比如加減乘除。

以上這些,就是我們生活中所提煉出的抽象的“演進”(progression)的意義,只要上過小學,甚至沒經歷過系統教育的人都能夠理解。這就是人類的抽象理解能力。這也是為什麼你的爸媽可能在你還不太記事、懂事的時候,就帶你測過智商了。

“但是,我們現在還沒有找到辦法,能讓 AI 也可以從 ‘日常經驗’中學到類似的能力。” DeepMind 在論文中說。

“不過,我們依然可以很好地利用人類的這種視覺抽象邏輯測試,來設計一個實驗。在這個測試中,我們並不是像人類測試那樣,考察從日常生活到視覺推理問題的知識轉移。而是研究AI在將知識從一組受控的視覺推理問題,轉移到另一組問題的能力。”

聽不懂沒關係,我們翻譯一下這段話:DeepMind 先給 AI 喂一組由三角形構成的圖像的視覺推理題庫,等訓練的差不多了,再出一組由方塊構成的視覺推理題,讓 AI 去回答,看它是能隨機應變舉一反三,還是學會了三角,換成方塊就不靈了。

機器人仍需努力

對於擔心 AI 取代人類的朋友來說,DeepMind 的一部分實驗結果確實是個好消息:他們找來的一些 state of the art(當前最優秀)的 AI 模型,在這個IQ測試中的表現得並不咋樣……

我們還是拿三角和方塊來舉例。正如預期的那樣,當訓練集和測試集所採用的抽象元素相同,也就是訓練三角、測試三角時,多個 AI 模型都表現出超過75%的準確率。

然而,當測試集和訓練集出現變化,甚至有時候只是把黑點換成較暗的淺色圓點,AI 的表現就會像無頭蒼蠅一樣,失去了準星。

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

一些知名AI模型的表現 圖片來源:DeepMind 論文

上面這些都是深度神經網絡領域的當紅炸子雞,測起智商來卻沒那麼靈光了。比如 ResNet 在其中一組測試中僅僅得到22.4%的低分。

ResNet (Deep Residual Network),即深度殘差網絡,它的提出曾被形容為CNN(卷積神經網絡)的一個里程碑式事件,它在網絡深度上比其他模型提升了n個量級,更重要的是它的殘差學習方式,改良了模型的架構,因此一出現就秒殺眾前輩。

而測試中表現最好的 WReN 模型,則是 DeepMind 在關係網絡 (Relation Networks) 模型基礎上改良的版本。它增加了對不同圖像組合之間關係的分析,並可以對這類 IQ 測試的各種可能性結果進行評估。

(需要明確的是:對於這些神經網絡和其作者,這個結果並不丟人——因為它們本來就不是設計用來像這樣測智商的,而是解決某些特定問題的。)

不過,DeepMind 針對這個測試的邏輯,對一些模型進行改良,改良後的模型表現出明顯的提升。

比如,在一些模型中,DeepMind 加入了元標記(meta-targets) 的輔助訓練方法,讓模型對數據集背後體現出的形狀、屬性(形狀的數量、大小、顏色深淺等)以及關係(同時出現、遞減、遞增等等)進行預測,當這部分預測準確時,最終回答的準確率就明顯出現提升,預測錯誤時,回答準確率明顯下降。一些極端情況下,模型回答的準確率更是從預測錯誤時的32%提升至了87%。

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

(圖片來源:DeepMind 論文)

DeepMind 表示,他們設計的這個實驗,最終目的並不是為了讓 AI 能夠通過這種 IQ 測試。他們關注的是 AI 泛化能力的問題。

泛化是指模型很好地擬合以前未見過的新數據的能力,這是機器學習界的術語,你也可以粗暴的理解成一個 AI 模型能否在各類場景中“通吃”。AI 的泛化能力越強,離啥都能幹的所謂“通用人工智能”就越近。

DeepMind 在博客最後這樣說道:

研究表明,尋找關於泛化問題的普遍結論可能沒有任何意義。我們測試的神經網絡在某些泛化方案中表現優秀,但是其他方案下卻很糟糕。

諸如所使用模型的架構、模型是否被訓練從而能解釋答案背後的邏輯等一系列因素,都會對泛化效果帶來影響。而在大多數情況下,當需要處理過往經驗從未涉及的、或完全陌生的情景時,這些 AI 的表現很糟糕。

至少現在看來,AI 還有很長的路要走啊。

(點擊文末閱讀原文可以查看 DeepMind 這篇論文)

硅谷最炫科技盛會

在哪裡,能將中美一線科技公司高管、頂級投資人、電影遊戲跨界大師、AI 大牛以及區塊鏈行內專家一網打盡?

必須是⤵️

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

沒錯,硅谷最精彩、

最有料、

最多人去的科技峰會 SYNC 又回來了!

今年,我們請來了各路中美科技和文化創新的前沿人士:

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

Chen Zhang

首席技術官

京東

Sumit Gupta

AI、機器學習、高性能計算副總裁

IBM

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

Stone Librande

拳頭遊戲首席設計師/CMU教授

模擬城市、暗黑3首席設計師

Domee Shi

執導《包寶寶》

Pixar 首位女性動畫導演

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

等眾多嘉賓。

具體演講人資料,請訪問票務網站了解:sync2018sv.eventbrite.com

或長按二維碼購票(現在掃碼有折扣哦!)

DeepMind給最厲害的AI測了IQ,結果讓人輕鬆了不少!

SYNC 2018 Decode Innovation

知名科技媒體 PingWest品玩和硅星人一同舉辦

主題:科技、文化、跨境、跨界

風格:乾貨、專業、有趣、親切

時間:8 月 5 日

地點:Computer History Museum,

1401 N Shoreline, Mountain View, CA

搶票:sync2018sv.eventbrite.com


分享到:


相關文章: