用AI来识别假新闻,如何做到?"知己知彼,百战不殆"

当今媒体最大的问题之一就是所谓的"假新闻",它之所以如此有害,部分原因在于它看起来太像真的了。 人工智能工具有望帮助识别假新闻,但为了让人工智能识别假新闻,研究人员发现,最好的办法是让人工智能学会自己创造假新闻——虽然它可能没有听起来那么危险,不过这确实是一把双刃剑。

用AI来识别假新闻,如何做到?

格罗弗(Grover)是由华盛顿大学和艾伦人工智能研究所的计算机科学家们合作创建的一个新系统,该系统非常善于就无数话题和不同风格撰写令人信服的假新闻ーー其直接结果是,它在发现假新闻方面也毫不逊色。

假新闻生成器的想法并不新鲜——OpenAI前段时间引发了热议,因为他宣布其自行生成的人工智能过于危险,不能公开发布。 但是格罗弗的创造者认为,我们只有把制造假新闻的工具放在那里进行研究,才能更好地打击假新闻。

"我们现在认为,这些模式没有能力造成严重伤害。 这个项目的负责人 罗万 · 泽尔斯(Rowan Zellers)告诉我:也许在几年之后他们会很危险,但现在还不会。 "我不认为发布它很危险ーー实际上,我们需要发布它,特别是对研究这个问题的研究人员,这样我们才能建立更好的防御系统。 我们需要所有这些社区——安全方面的、机器学习的、自然语言处理的社区——互相交流,我们不能只是隐藏模型,或者删除这些模型,然后假装它从未发生过。"

用AI来识别假新闻,如何做到?

一个贪婪的读者

人工智能是通过让它摄取大量真实新闻文章的语料库创建的,这个数据库名叫RealNews,与格罗弗一起被引入。 这个120G的图书馆收藏了从2016年底到今年3月的文章,这些文章来自谷歌新闻追踪的排名前5000的出版物。

通过研究数百万篇真实新闻的风格和内容,格罗弗建立了一个复杂的模型,模型包括某些短语或风格是如何使用的,文章中哪些主题和特征是相互关联的,它们又如何与不同的媒体、观点联系在一起,等等。

这是通过一个"对抗性"系统完成的,在这个系统中,模型一方面产生内容,另一方面评价它的可信度ーー如果它没有达到阈值,生成器会再次尝试,最终它会知道什么是可信的,什么不是。 目前,对抗性设置在人工智能研究中是一股强大的力量,经常被用于从头开始创建逼真的图像。

格罗弗并不是随意生成文章的,它是高度参数化的,这意味着它的输出高度依赖于输入。 因此,如果你让它编造一篇关于疫苗和自闭症谱系障碍相关研究的假文章,你可以自由地指定这篇文章应该看起来像是出现在 CNN,福克斯新闻(Fox News),甚至是 TechCrunch 上。

我生成了一些文章,这里放一个例子,它是文章的第一部分:

连续创业家丹尼斯 · 曼格勒(Dennis Mangler)筹集了600万美元,用于创建基于区块链的无人机送货服务

by Devin Coldewarg 2019年5月29日

无人机送货并不是什么新鲜事,这就引出了一些问题: 这项技术有多可靠? 是否会出现服务问题和打扰用户的问题?

无人机技术正在发生巨大变化,但其最明显的用途---- 包裹递送---- 从未大规模地得到完善,更不用说第三方服务了。 但这种情况或许即将得到改变。

连续创业者丹尼斯•曼格勒(Dennis Mangler)有着丰富的从业经历——以这个短命而疯狂的行业的控制性标准来衡量——从一家顶级的韩国风投,到亚马逊(Amazon)的全资子公司,从功能齐全的无人机修理店,到商用无人机机队开发商。

但在他的最后一家公司(亚马逊的 Prime Air)倒闭后,他决定再次尝试与 Tripperell 合作,尝试无人机送货。 Tripperell 是一家总部位于旧金山的公司,致力于打造加密货币令牌空间,在区块链和送货之间架起一座桥梁。

他们正在建立的系统非常完善ーー正如 Medium 上的一篇文章所说,它将首先使用 Yaman Yasmine目前还比较简单的众包无人机维修平台 SAA,来创建一个无人机组织,目的是促进海外网络和国内产业的融合。

从那时起,两位创始人开始组建Tripperell公司,让商业化的无人机根据自己的智能合同进行配送。

考虑到它在我给出日期、范围、我的名字和标题后,只花了大约十秒钟就完成了,它的表现已经很不错了。 (我可能会调整下标题,但是如果你仔细想想,它的也还是有点道理的。)

注意,它实际上并不知道我是谁,也不知道 TechCrunch 是什么。 但它将某些数据与其他数据做了关联。 例如输入以下3个毫无关联的内容,1.保罗•克鲁格曼(Paul Krugman)在《纽约时报》(New York Times)上发表社论称,2.该团队提供的一个例子是一篇"以某种风格"为主题的社论,3.翻唱乐队的行话。

“它的编码并不复杂,我们没有告诉这个模型谁是保罗 · 克鲁格曼。 但它可以从大量的阅读中学习,"泽尔斯告诉我。 系统只是试图确保生成的文章,使该部分和作者关联的其他数据足够相似。 "它还会学到一些东西,比如,'保罗•克鲁格曼(Paul Krugman)'倾向于谈论'经济学',而我们没有告诉它,克鲁格曼是一名经济学家。"

很难说它会在多大程度上影响到一个特定作者的风格ーー它可能注意到了某些东西,也可能没有。而众所周知,人工智能模型对于分析来说是不透明的。 它模仿的风格超越了作者,甚至在我生成的一篇"福克斯新闻"的段落间创建了"阅读更多"的超链。

但是,创建文章的这种功能依赖于判断文章是否能令人信服,而这也是评估文章“生成器”的质量是否良好的“鉴别器”。 如果你给鉴别器输入其他东西会发生什么呢? 事实证明,它比现在任何其他人工智能系统都要好,至少在测试文章的领域内,在确定哪些是假新闻,哪些是真新闻上面,比其他人工智能系统都要好。

自然语言的局限性

很显然,格罗弗最擅长检测自己生成的假文章,因为在某种程度上,它知道自己的工作过程。 当然,它也可以高精度地检测其他模型,如 OpenAI 的 GPT2。 这是因为当前的文本生成系统有些共同的弱点,了解了一些例子以后,这些弱点对于“鉴别器”来说就更加明显了。

"这些模式不得不在两个糟糕的选项做抉择。 第一个糟糕的选择是你只相信模型,"泽尔斯表示。 在这种情况下,你会遇到一种复合错误问题,即一个错误的选择(考虑到它必须做出的选择数量,这是不可避免的)会导致另一个错误的选择,以及再下一个错误的选择,等等;"如果没有监督,他们往往会偏离轨道。"

泽尔斯解释说:"另一个糟糕的选项是更安全地使用它。"他引用 OpenAI 的决定,让生成器创建几十个选项,然后选择最有可能的一个。 这种保守的方法避免了不太可能的词汇组合或短语,“但是正如泽尔斯指出的,“人类的语言是高概率和低概率词汇的混合体。 如果我知道你要告诉我什么,你就不会说话了。 所以肯定有些事情是很难预料的。"

上文说的以及文本生成算法中的其他习惯使格罗弗能够以92% 的准确率识别生成的文章。

尽管你非常聪明,但是你不能只是把那些它没有检测到的内容挑出来,然后把它们放在一起培育,以图做出更有说服力的结果。 事实证明,这种策略实际上帮助不大ーー由此产生的"超级算法"仍然会以类似的方式出错。

自熄的危险

表面上看,格罗弗好像是一个相当危险的工具。 稍微调整一下它为我创建的文章,就可以轻松地通过不熟悉该主题读者的鉴别测试。 那么为什么该团队要公布它,还要公布它的工作原理呢?

首先,把它做成简单易用的app形式,"是希望研究人员能够轻松地使用这个模型,但是我们也做了限制,不会让它完全公开,"泽尔斯澄清道,“即便使用起来如此简便,用它来作恶的可能性也很低。”

他指出:"如果你只是想写10篇采访新闻,你完全可以自己写。"事实上,很难想象哪个幕后策划者会为了写几篇假新闻而费尽心机。 "但如果你想写10万篇文章,你可以使用我们的工具ーー但是当我们从假新闻源头那里得到的文章越多,就越容易发现对手。" 因此,也可以把它看成是某种“钓鱼”的阴谋,这种“已知假新闻”很容易识破。

然而,无需担心假新闻有个前提假设,就是假定有一种方法可以将格罗弗的算法应用于一般新闻,或者用户有动机首先质疑或验证他们阅读的文章是否真实。很可惜,这个前提暂时还不成立。

“这完全是一个与机器学习无关的问题,”泽尔斯承认。“我们如何让它对人们有用呢?”我们如何让人们在网上阅读新闻时,能够检查它是否是假的,并想要这样做呢?”

没有人工智能能对此给出一个好的答案。希望我们人类能够胜任这项任务。

《TechCrunch》网站6月10日刊登了Devin Coldewey的文章《为了发现假新闻,这个人工智能首先学会了写假新闻》

译:安东


分享到:


相關文章: