教A.I.系统举止得体

教A.I.系统举止得体

来源:纽约时报的Christie Hemm Klok

概要:令人吃惊的结果是:船深深地被屏幕上弹出的绿色小部件所吸引。因为只要抓到这些小部件就意味着得分。

教A.I.系统举止得体

Geoffrey Irving(左)和Dario Amodei演示了如何使用简单的视频游戏来训练A.I.机器人。

旧金山---在Tesla的首席执行官Elon Musk创立的实验室OpenAI内,机器正在自学人类的言行举止。但有时候也会出错。

近日下午,在OpenAI的旧金山办事处,研究员Dario Amodei展示了一个会自学Coast Runner(一个旧的赛车视频游戏)的自主系统。这个游戏的获胜者不仅穿过了终点线,而且得分最高。

令人吃惊的结果是:船深深地被屏幕上弹出的绿色小部件所吸引。因为只要抓到这些小部件就意味着得分。相比竭力去完成比赛,船更为疯狂地去得分。它不停地绕着圈子,有时还会撞到其他的船只,亦或是打滑撞到石墙上,因此总是着火。

Amodei的燃烧船证明正迅速重塑世界的A.I.技术存在风险。现在,研究人员正在研发一种在很大程度上可以自学做任务的机器。这就是Google的DeepMind实验室创建系统的方式,而这个系统可以在古老的围棋游戏中击败世界上最好的玩家。但是,在这些机器通过数小时的数据分析进行训练的时候,它们也可能会做出一些意想不到的,多余的甚至是有危害的行为。

随着这些技术被应用到在线服务,安全设备和机器人,这就成了一个令人关注的问题。现在,一个小社区里面包括Amodei在内的A.I.研究人员正在开始探索防止最坏情况发生的数学技术。

在OpenAI,Amodei及其同事Paul Christiano正在开发一种算法,而这种算法不仅可以在几个小时的尝试和错误后学习做任务,而且还可以接受人力资源管理人员的定期指导。

在四处点了几下后,研究人员现在有了一种展示自主系统的方法,而这种系统需要在Coast Runner中获得积分的同时也朝着终点线移动。他们认为这些算法---人机界面与机器指令的融合可以帮助维持自主系统的安全。

教A.I.系统举止得体

来源:纽约时报的Chritie Hemm Klok

OpenAI的Dario Amodei。 他和他的同事正在开发可以在反复的尝试和错误下学习做任务,并能接受人类老师指导的算法。

这些年来,Musk和其他专家,哲学家和技术专家曾警告说,机器有可能摆脱我们的控制,并以某种方式学习设计师没有预料到的恶意行为。有时候,这些警告似乎有些夸张,因为今天的自驾系统甚至无法完成最基本的任务,比如识别自行车或红灯。

但是,像Amodei这样的研究人员正在努力地摆脱风险。在某些方面,这些科学家现在所做的事情就像是一个父母教导孩子明辨是非。

许多A.I. 领域的专家认为一种称为强化学习的技术---机器通过极端的试验和错误来学习做一些具体任务的方法---可能是A.I.学习的主要途径。研究人员会指定机器所要努力获得的特定奖励,并且随着随机浏览任务,机器将明白做什么会带来奖励以及做什么不会有奖励。当OpenAI训练机器人玩Coast Runners游戏的时候,要获得奖励就要获得更高的分数。

这种视频游戏培训在现实世界也具有影响。

研究人员认为,如果一台机器能够在像Grand Theft Auto这样的赛车游戏里学会驾驶,那么它就可以学会驾驶一辆真正的汽车。如果可以学习使用网络浏览器和其他常见的软件应用程序,那么它就可以学会理解自然语言,甚至可以进行对话。在像Google和加州大学伯克利分校这样的地方,机器人已经使用这种技术来学习像挑选或开门这种简单任务。

这就是Amodei和Christiano努力建立能够接受人类指导的强化学习算法的原因。这可以确保系统不会偏离手头的任务。

在与伦敦的DeepMind公司(由Google拥有的实验室)的其他人员的一起努力下,这两位OpenAI研究人员最近在这一领域发表了他们的研究。 这个跨越了世界两大顶级的A.I. 实验室,并且是由两个在过去并没有真正合作过的研究人员一起完成的研究被看作是A.I.安全研究中的飞跃。

加州大学伯克利分校研究员Dylan Hadfield-Menell说:“这项研究验证了很多以前的一些想法。”“这些类型的算法在未来的5到10年中大有希望。”

该领域很小,但正在发展壮大。 在OpenAI和DeepMind创建了致力于A.I安全的团队后,Google的美国本土实验室,也就是Google Brain也开始了相关行动。与此同时,诸如伯克利和斯坦福大学的一些研究人员通常与大型企业实验室一起合作研究类似的问题。

教A.I.系统举止得体

来源:纽约时报的ChristieHemm Klok。

站着的是Dario Amodei;穿浅蓝色的衬衫的是Paul CHristiano; 而GeoffreyIrving在使用一块白板。

有时候,研究人员要努力确保系统不会自行出错,就像在Coast Runners游戏里面一样。他们还要努力确保黑客和其他不良行为者无法利用这些系统中隐藏的漏洞。诸如Google的Ian Goodfellow这样的研究人员正在探索黑客可能欺骗A.I.系统看到本不存在事物的方式。

现代计算机视觉是基于所谓的深层神经网络,它是通过分析大量数据来学习任务的模式识别系统。 通过分析数千张狗的照片,神经网络就可以学会识别狗。这就是Facebook在快照中识别脸孔的方式,而这也正是Google在其照片应用程序中即时搜索图像的方法。

但是,Goodfellow和一些其他的人已经表明,黑客可以改变图像,然后让神经网络相信它们所包含的事物,而事实上那些事物是不存在的。例如,通过改变大象照片中的几个像素,他们就可以欺骗神经网络,让它认为那是一辆汽车。

当神经网络应用于安全摄像机时,这无疑就是个问题了。研究人员说,仅仅在你的脸上画几个印记就可以让相机认为你是别人。

“如果你用人类标注的百万张图像来训练一个物体识别系统,那么你也可以创造一个人类和机器意见完全不同的新图像。”Goodfellow说:“我们需要了解这种现象。”

另外一个令人担心的问题是,A.I系统可能会阻止人类将其关闭。因为如果这台机器的目的是为了获得奖励,那么按照这个思维,它可能会发现只有保持开机的状态才能达成目的。这样的威胁还远远不止,但研究人员已经在努力解决这个问题。

Hadfield-Menell和其他一些美国伯克利大学的人最近发表了一篇论文,论文中就提及了要采取数学方法来解决这个问题。他们表示,如果机器被专门设计成不确定其奖励功能的话,机器将不会阻止人类关闭开关。这就会刺激它接受甚至是去寻求人为的监督。

这项工作大部分仍然还是理论性的。但鉴于A.I. 技术的快速进步以及它在许多行业中的重要性日益增加,研究人员认为,尽早开始才是最好的抉择。

“A.I.将如何快速地发展,其中还有很多不确定性。”在DeepMind监督A.I.安全工作的Shane Legg说:“负责任的做法是设法了解这些技术可能以何种方式被滥用,以何种方式失败以及想出各种处理这些问题的方法。”

来源:纽约时报的Christie Hemm Klok

原文链接:https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html


分享到:


相關文章: