錯覺:AI如何通過數據挖掘誤導我們|週末讀書

錯覺:AI如何通過數據挖掘誤導我們|週末讀書

內容簡介

在人工智能異常火熱的今天,很多人認為我們生活在一個不可思議的歷史時期,人工智能和大數據可能比工業革命更能改變人的一生。然而這種說法未免言過其實。我們過於武斷地認為計算機搜索和處理堆積如山的數據時不會出差錯,但計算機只是擅長收集、儲存和搜索數據,它們沒有常識或智慧,不知道數字和詞語的意思,無法評估數據庫中內容的相關性和有效性,它們沒有區分真數據、假數據和壞數據所需的人類判斷力,沒有分辨有理有據和虛假偽造的統計學模型所需的人類智能。

計算機挖掘大數據風行一時,但數據挖掘是人為而非智能,也是非常艱鉅、危險的人工智能形式。數據挖掘先是通過大量的數據走勢、相關關係來發現讓我們內心愉悅的模型,然後創造理論來解釋這些模型。作者通過“史密斯測試”和“得州神槍手謬誤”等實例說明,如果你挖掘和拷問數據的時間夠長、數量夠大,你總能得到自己想要的結果,然而這是相關關係卻並不是因果關係,只是自我選擇偏好,並沒有理論基礎也沒有實用價值。

在人工智能時代,我們對計算機的熱愛不應該掩蓋我們對其侷限性的思考,真正的危險不是計算機比我們更聰明,而是我們認為計算機具有人類的智慧和常識,數據挖掘就是“知識發現”,從而信任計算機為我們做出重要決定。更多的計算能力和更多的數據並不意味著更多的智能,我們需要對人類的智慧有更多的信心。

加里·史密斯,波莫納學院經濟學教授,曾獲弗萊徹·瓊斯基金獎。他是耶魯大學經濟學博士,曾在耶魯大學擔任助理教授一職長達7年,兩度獲得教學獎,撰寫(或合著)過80多篇學術論文和12本書,包括《數據科學的9個陷阱》《基本統計、迴歸和計量經濟學》《標準偏差:有缺陷的假設,扭曲的數據,以及其他欺騙統計數據的方法》《簡單統計學:如何輕鬆識破一本正經的胡說八道》《運氣爆棚?偶然性在我們日常生活中的驚人作用》《貨幣機器:價值投資出奇簡單的力量》。他的研究曾被彭博網、CNBC、《福布斯》《紐約時報》《華爾街日報》《新聞週刊》和《商業週刊》競相報道。

目錄

第一章 智能還是服從

第二章 盲從

第三章 無語境的符號

第四章 壞數據

第五章 隨機性模式

第六章 如果你拷問數據的時間足夠長

第七章 無所不包的“廚房水槽法”

第八章 新瓶裝舊酒

第九章 先吃兩片阿司匹林

第十章 完勝股市(上)

第十一章 完勝股市(下)

第十二章 我們都在監視著你

在人工智能異常火爆的今天,本書另闢蹊徑,從反面探討了AI研究中存在的一系列問題。開創性地提出了“得州神槍手謬誤”和“史密斯測試”等來批判那些先有數據後有理論和模型的科學研究方式——數據挖掘。如今數據挖掘以相關關係取代了因果關係,AI到底是真的有智能還是隻在服從?

本書為你解答。

精彩書摘

《危險邊緣》是一檔熱門的電視智力競賽節目,有多個版本,開播至今已有50多年。該節目的比賽內容為百科知識問答,其巧妙之處在於:參賽者要根據以答案形式提供的各種線索,給出與這個答案相對應的問題。例如,線索是“美國第16任總統”,正確的問題就是:“誰是亞伯拉罕·林肯?”每期節目均有三名參賽者,以摁按鈕的方式口頭搶答(除了最後一輪“終極危險邊緣”以外,在其他環節三名參賽者均有30秒時間書寫作答)。

從很多方面來看,這檔節目都適合計算機參與,因為計算機能準確無誤地存儲和檢索大量信息。在《危險邊緣》青少年組比賽中,一名男孩因將“誰是安尼·弗蘭克”誤寫成“誰是安妮·弗蘭克”而痛失冠軍。而計算機就不會犯這樣的錯誤。

另外,線索有時通俗易懂,有時卻晦澀難解。例如,線索是“把它打進去,你就輸了比賽”,對只是資料庫的計算機來說,很難得出以下正確問題:“什麼是(檯球)母球?”

還有一個難解的線索是:“翻譯時,這支大聯盟棒球隊的名字會重複一次。”正確問題為:“什麼是洛杉磯天使隊?”(What is the Los Angeles angels?)

2005年,15名IBM(國際商用機器公司)的工程師合作設計了一款能與《危險邊緣》最佳玩家同臺對擂的計算機,取名“沃森”,以紀念IBM的首任CEO(首席執行官)托馬斯·J·沃森。沃森在1914年接手IBM時,IBM還只是一家僅有1300名員工、年收入不足500萬美元的小公司,到了1956年他去世的時候,IBM已經發展成為一家有7.25萬名員工、年收入9億美元的公司。

“沃森”程序存儲了相當於2億頁紙的內容,每秒可處理相當於100萬本書的信息。除了擁有海量內存和高速處理能力外,“沃森”還能理解自然語言,使用合成語音進行交流。與羅列相關文檔或網站的搜索引擎不同,“沃森”可按照程序並根據線索得出具體答案。

“沃森”運用數百個軟件程序,先識別線索中的關鍵字和詞組,再與海量數據庫中的關鍵字和詞組相匹配,最後得出合理答案。按照編好的程序,如果線索是某個名字(如亞伯拉罕·林肯),“沃森”就會寫出以“誰是……”開頭的問題;如果線索為某一事件,它就會寫出以“什麼是……”開頭的問題。單個軟件程序與某個答案的一致性越高,“沃森”就越能確定此為正確答案。

該程序能輕而易舉地得出與“美國第16任總統”這麼直白的線索對應的問題,但要處理有多重含義的詞語時就有些困難了,比如,線索是“把它打進去,你就輸了比賽”之類的問題。但是,“沃森”不會感到緊張,也絕不會遺忘。

2008年,“沃森”做好了參加《危險邊緣》的準備,但還有些問題需要協商。IBM團隊擔心該節目的工作人員會使用包含雙關語和具有雙重含義的線索,給“沃森”下圈套。這一擔心也恰好揭示了人類與計算機的巨大差異。人類可以根據語境理解詞義,所以能理解雙關語、笑話、謎語和諷刺批評。而目前的計算機,充其量只能檢查出數據庫中是否含有雙關語、笑話、謎語或諷刺批評。

對此,節目工作人員同意隨機抽取以往編寫但未使用的線索。而節目工作人員也擔心,如果“沃森”一得到答案就可以發出電子信號,會比必須通過摁按鈕來答題的參賽者更有優勢。對此,IBM團隊同意給“沃森”裝根電子手指來摁按鈕,但它還是比人類快,這也讓“沃森”佔據決定性優勢。摁按鈕快算是聰明的體現嗎?如果“沃森”的反應速度降為與人類的一致,比賽結果又會如何?

接下來,在2011年的人機大戰中,“沃森”與《危險邊緣》的兩名前冠軍肯·詹寧斯和布拉德·魯特展開了兩輪比賽。首輪比賽“終極危險邊緣”的線索是:它最大的機場以第二次世界大戰的英雄命名,它的第二大機場以第二次世界大戰的戰役命名。

兩名前冠軍給出的問題為:“芝加哥是什麼?”而“沃森”給出的問題是:“多倫多是什麼?????”顯然,“沃森”識別出了“最大的機場”、“第二次世界大戰的英雄”和“第二次世界大戰的戰役”這些詞組,然後在其數據庫中查找相同主題,但沒能理解線索的第二部分(“它的第二大”)指的是該市的第二大機場。“沃森”給問題添加了多個問號,因為它計算出的這一答案的正確概率僅為14%。

儘管如此,“沃森”還是以77147美元輕鬆獲勝,詹寧斯和魯特的賽果分別為24000美元和21600美元。“沃森”奪得了100萬美元的冠軍獎金(IBM將其捐贈給了慈善機構),詹寧斯和魯特也各自將獎金的一半捐贈給了慈善機構 。“沃森”在《危險邊緣》的取勝是一次價值數百萬美元的宣傳良機。在獲得豔驚四座的勝利後,IBM宣稱,相比在《危險邊緣》中與主持人亞歷克斯·特雷貝克較量,“沃森”的問答技能將運用於更重要的領域。

IBM 一直將“沃森”應用於醫療、銀行、技術支持以及其他能利用龐大的數據庫來解決具體問題的領域。

對許多人來說,“沃森”擊敗《危險邊緣》的兩名前冠軍無疑證明強大的“沃森”無所不知!計算機比人類更聰明,我們應該依靠它,相信它的決策。也許我們還應該擔心,計算機會在不久的將來征服甚至消滅人類。

“沃森”真的比我們聰明嗎?它的勝利恰恰反映了計算機的優勢和弱點。作為能力超強的搜索引擎,“沃森”可以在其龐大的數據庫中快速查找單詞和短語(它還有可以快速點觸的電子手指)。我之所以沒有使用“解讀”這個詞,是因為“沃森”並不瞭解那些單詞和短語的含義,比如“第二次世界大戰”和“多倫多”,它也不明白語境中的詞義,比如“它的第二大”。“沃森”的實力被過分誇大了,正如很多電腦程序一樣,它的智能不過是假象罷了。

從很多方面來說,“沃森”的表現就是騙人的把戲,只不過是在範圍極小的某些技能上看似具有超人的發揮罷了。設想有一個不懂英語,但有無限時間翻閱大型文庫(藏有2億頁英語單詞和短語)找出匹配單詞和短語的人。我們會認為這個人聰明嗎?計算機僅因能比人類更快地進行搜索匹配,就說明它聰明絕頂嗎?

連IBM“沃森”團隊負責人戴夫·費魯奇也坦承:“我們在開發‘沃森’,設法讓其仿造人類認知時,有坐下來好好談過嗎?根本沒有。我們不過是想發明一臺可以在《危險邊緣》中獲勝的機器而已。”

計算機不僅擊敗了《危險邊緣》中的人類玩家,還擊敗了國際跳棋、國際象棋和圍棋的世界冠軍,這助長了人們認為計算機比最聰明的人類還要聰明的普遍觀念。想要玩好這些戰略型棋盤遊戲,僅靠匹配單詞和短語的強大搜索引擎是遠遠不夠的,還要能分析棋盤格局、制定創意策略、做到未雨綢繆。這難道不是真正的智能嗎?


分享到:


相關文章: