用AI來識別假新聞,如何做到?"知己知彼,百戰不殆"

當今媒體最大的問題之一就是所謂的"假新聞",它之所以如此有害,部分原因在於它看起來太像真的了。 人工智能工具有望幫助識別假新聞,但為了讓人工智能識別假新聞,研究人員發現,最好的辦法是讓人工智能學會自己創造假新聞——雖然它可能沒有聽起來那麼危險,不過這確實是一把雙刃劍。

用AI來識別假新聞,如何做到?

格羅弗(Grover)是由華盛頓大學和艾倫人工智能研究所的計算機科學家們合作創建的一個新系統,該系統非常善於就無數話題和不同風格撰寫令人信服的假新聞ーー其直接結果是,它在發現假新聞方面也毫不遜色。

假新聞生成器的想法並不新鮮——OpenAI前段時間引發了熱議,因為他宣佈其自行生成的人工智能過於危險,不能公開發布。 但是格羅弗的創造者認為,我們只有把製造假新聞的工具放在那裡進行研究,才能更好地打擊假新聞。

"我們現在認為,這些模式沒有能力造成嚴重傷害。 這個項目的負責人 羅萬 · 澤爾斯(Rowan Zellers)告訴我:也許在幾年之後他們會很危險,但現在還不會。 "我不認為發佈它很危險ーー實際上,我們需要發佈它,特別是對研究這個問題的研究人員,這樣我們才能建立更好的防禦系統。 我們需要所有這些社區——安全方面的、機器學習的、自然語言處理的社區——互相交流,我們不能只是隱藏模型,或者刪除這些模型,然後假裝它從未發生過。"

用AI來識別假新聞,如何做到?

一個貪婪的讀者

人工智能是通過讓它攝取大量真實新聞文章的語料庫創建的,這個數據庫名叫RealNews,與格羅弗一起被引入。 這個120G的圖書館收藏了從2016年底到今年3月的文章,這些文章來自谷歌新聞追蹤的排名前5000的出版物。

通過研究數百萬篇真實新聞的風格和內容,格羅弗建立了一個複雜的模型,模型包括某些短語或風格是如何使用的,文章中哪些主題和特徵是相互關聯的,它們又如何與不同的媒體、觀點聯繫在一起,等等。

這是通過一個"對抗性"系統完成的,在這個系統中,模型一方面產生內容,另一方面評價它的可信度ーー如果它沒有達到閾值,生成器會再次嘗試,最終它會知道什麼是可信的,什麼不是。 目前,對抗性設置在人工智能研究中是一股強大的力量,經常被用於從頭開始創建逼真的圖像。

格羅弗並不是隨意生成文章的,它是高度參數化的,這意味著它的輸出高度依賴於輸入。 因此,如果你讓它編造一篇關於疫苗和自閉症譜系障礙相關研究的假文章,你可以自由地指定這篇文章應該看起來像是出現在 CNN,福克斯新聞(Fox News),甚至是 TechCrunch 上。

我生成了一些文章,這裡放一個例子,它是文章的第一部分:

連續創業家丹尼斯 · 曼格勒(Dennis Mangler)籌集了600萬美元,用於創建基於區塊鏈的無人機送貨服務

by Devin Coldewarg 2019年5月29日

無人機送貨並不是什麼新鮮事,這就引出了一些問題: 這項技術有多可靠? 是否會出現服務問題和打擾用戶的問題?

無人機技術正在發生巨大變化,但其最明顯的用途---- 包裹遞送---- 從未大規模地得到完善,更不用說第三方服務了。 但這種情況或許即將得到改變。

連續創業者丹尼斯•曼格勒(Dennis Mangler)有著豐富的從業經歷——以這個短命而瘋狂的行業的控制性標準來衡量——從一家頂級的韓國風投,到亞馬遜(Amazon)的全資子公司,從功能齊全的無人機修理店,到商用無人機機隊開發商。

但在他的最後一家公司(亞馬遜的 Prime Air)倒閉後,他決定再次嘗試與 Tripperell 合作,嘗試無人機送貨。 Tripperell 是一家總部位於舊金山的公司,致力於打造加密貨幣令牌空間,在區塊鏈和送貨之間架起一座橋樑。

他們正在建立的系統非常完善ーー正如 Medium 上的一篇文章所說,它將首先使用 Yaman Yasmine目前還比較簡單的眾包無人機維修平臺 SAA,來創建一個無人機組織,目的是促進海外網絡和國內產業的融合。

從那時起,兩位創始人開始組建Tripperell公司,讓商業化的無人機根據自己的智能合同進行配送。

考慮到它在我給出日期、範圍、我的名字和標題後,只花了大約十秒鐘就完成了,它的表現已經很不錯了。 (我可能會調整下標題,但是如果你仔細想想,它的也還是有點道理的。)

注意,它實際上並不知道我是誰,也不知道 TechCrunch 是什麼。 但它將某些數據與其他數據做了關聯。 例如輸入以下3個毫無關聯的內容,1.保羅•克魯格曼(Paul Krugman)在《紐約時報》(New York Times)上發表社論稱,2.該團隊提供的一個例子是一篇"以某種風格"為主題的社論,3.翻唱樂隊的行話。

“它的編碼並不複雜,我們沒有告訴這個模型誰是保羅 · 克魯格曼。 但它可以從大量的閱讀中學習,"澤爾斯告訴我。 系統只是試圖確保生成的文章,使該部分和作者關聯的其他數據足夠相似。 "它還會學到一些東西,比如,'保羅•克魯格曼(Paul Krugman)'傾向於談論'經濟學',而我們沒有告訴它,克魯格曼是一名經濟學家。"

很難說它會在多大程度上影響到一個特定作者的風格ーー它可能注意到了某些東西,也可能沒有。而眾所周知,人工智能模型對於分析來說是不透明的。 它模仿的風格超越了作者,甚至在我生成的一篇"福克斯新聞"的段落間創建了"閱讀更多"的超鏈。

但是,創建文章的這種功能依賴於判斷文章是否能令人信服,而這也是評估文章“生成器”的質量是否良好的“鑑別器”。 如果你給鑑別器輸入其他東西會發生什麼呢? 事實證明,它比現在任何其他人工智能系統都要好,至少在測試文章的領域內,在確定哪些是假新聞,哪些是真新聞上面,比其他人工智能系統都要好。

自然語言的侷限性

很顯然,格羅弗最擅長檢測自己生成的假文章,因為在某種程度上,它知道自己的工作過程。 當然,它也可以高精度地檢測其他模型,如 OpenAI 的 GPT2。 這是因為當前的文本生成系統有些共同的弱點,瞭解了一些例子以後,這些弱點對於“鑑別器”來說就更加明顯了。

"這些模式不得不在兩個糟糕的選項做抉擇。 第一個糟糕的選擇是你只相信模型,"澤爾斯表示。 在這種情況下,你會遇到一種複合錯誤問題,即一個錯誤的選擇(考慮到它必須做出的選擇數量,這是不可避免的)會導致另一個錯誤的選擇,以及再下一個錯誤的選擇,等等;"如果沒有監督,他們往往會偏離軌道。"

澤爾斯解釋說:"另一個糟糕的選項是更安全地使用它。"他引用 OpenAI 的決定,讓生成器創建幾十個選項,然後選擇最有可能的一個。 這種保守的方法避免了不太可能的詞彙組合或短語,“但是正如澤爾斯指出的,“人類的語言是高概率和低概率詞彙的混合體。 如果我知道你要告訴我什麼,你就不會說話了。 所以肯定有些事情是很難預料的。"

上文說的以及文本生成算法中的其他習慣使格羅弗能夠以92% 的準確率識別生成的文章。

儘管你非常聰明,但是你不能只是把那些它沒有檢測到的內容挑出來,然後把它們放在一起培育,以圖做出更有說服力的結果。 事實證明,這種策略實際上幫助不大ーー由此產生的"超級算法"仍然會以類似的方式出錯。

自熄的危險

表面上看,格羅弗好像是一個相當危險的工具。 稍微調整一下它為我創建的文章,就可以輕鬆地通過不熟悉該主題讀者的鑑別測試。 那麼為什麼該團隊要公佈它,還要公佈它的工作原理呢?

首先,把它做成簡單易用的app形式,"是希望研究人員能夠輕鬆地使用這個模型,但是我們也做了限制,不會讓它完全公開,"澤爾斯澄清道,“即便使用起來如此簡便,用它來作惡的可能性也很低。”

他指出:"如果你只是想寫10篇採訪新聞,你完全可以自己寫。"事實上,很難想象哪個幕後策劃者會為了寫幾篇假新聞而費盡心機。 "但如果你想寫10萬篇文章,你可以使用我們的工具ーー但是當我們從假新聞源頭那裡得到的文章越多,就越容易發現對手。" 因此,也可以把它看成是某種“釣魚”的陰謀,這種“已知假新聞”很容易識破。

然而,無需擔心假新聞有個前提假設,就是假定有一種方法可以將格羅弗的算法應用於一般新聞,或者用戶有動機首先質疑或驗證他們閱讀的文章是否真實。很可惜,這個前提暫時還不成立。

“這完全是一個與機器學習無關的問題,”澤爾斯承認。“我們如何讓它對人們有用呢?”我們如何讓人們在網上閱讀新聞時,能夠檢查它是否是假的,並想要這樣做呢?”

沒有人工智能能對此給出一個好的答案。希望我們人類能夠勝任這項任務。

《TechCrunch》網站6月10日刊登了Devin Coldewey的文章《為了發現假新聞,這個人工智能首先學會了寫假新聞》

譯:安東


分享到:


相關文章: