AlphaGo Zero三天击败人类的背后究竟意味着怎样的进步?

包不靓

打败柯洁、功成名退的 144 天后,AlphaGo 再次刷屏的原因不再只是棋下得好那么简单。

2016 年 3 月,李世乭 1-4 败给了来自英国的围棋人工智能系统 AlphaGo。

2017 年 1 月 4 日,在取得了 59 场连胜之后,化名 Master 的神秘棋手在留言板上承认了自己的身份。

2017 年 5 月,在中国乌镇 ·围棋峰会上,AlphaGo 对阵人类世界排名第一的棋手柯洁,三局全胜。

以上就是 AlphaGo 在科技圈大规模刷屏的三次事件。

当其研发团队 DeepMind 在乌镇宣布 AlphaGo 正式退役时,所有人都以为这是一个创造了历史的围棋「棋手」传奇的结束,但没想到的是,2017 年 10 月 19 日的清晨,科技圈和围棋圈再一次,集体被 AlphaGo 刷屏。

从零开始纯自学的 AlphaGo

根据 DeepMind 的官方网站,AlphaGo 推出了最新的升级版,名为 AlphaGo Zero,这个版本完全依靠机器自己进行强化学习,在摆脱了大量的人类棋谱后,机器根据围棋的规则左右互搏,在三天之内就超越了去年三月对阵李世乭的版本,接着在第 21 天战胜了对阵柯洁的版本,到第 40 天,在对阵此前最先进的版本时,已经能保持 90% 的胜率。

DeepMind 官方表示,这毫无疑问是史上最强的围棋棋手。

但你也知道,仅仅是棋艺的升级不足以让它一夜之间霸占中外媒的头条,是什么让再次升级的 AlphaGo 吸引了这么多人的关注呢?

柯洁和古力纷纷转发微博感慨机器的强大

DeepMind 在自己的官网上发表了一篇博客文章,同时表示新版本 AlphaGo 的研究论文已在权威学术期刊《自然》上发表。对学界来说,这是一个非常重磅的消息,总结来说这个版本特别的原因有三:

1、AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入,而 AlphaGo 之前的版本中包含了少量人工设计的功能。

2、它使用的是一个神经网络而不是两个。AlphaGo 的早期版本使用「走棋网络(policy network)」来选择下一个动作和一个「价值网络(value network)」来预测游戏的赢家。AlphaGo Zero 合并了两者,使其能够更有效地进行训练和评估。

3、AlphaGo Zero 不使用「Rollout」——其他围棋程序使用的快速、随机的游戏来预测哪个玩家将从当前的棋局中获胜。相反,它依赖于高质量的神经网络来评估棋局。

以上这三点大大改善了 AlphaGo 的表现。

摆脱人类经验后下得更好

但 DeepMind 同时指出,是算法的改变让这个系统更加强大且高效。

72 小时自我对弈,AlphaGo Zero 就以 100-0 的成绩战胜了此前对阵李世乭的版本;40 天训练之后,它成功超越了击败柯洁的改良后的 Master 版本。

从下面的动图可以看到,因为从零开始的缘故,AlphaGo Zero 的初期表现非常糟糕,但水平提高的速度也非常快,仅仅三天就超越了对阵李世乭的版本。

「它比此前的版本更强大,是因为灭有使用人类的数据,也不使用任何形式的人类经验,我们已经消除了人类知识的局限,它能够创造知识本身,」AlphaGo 的首席研究员 David Silver 说道。

这个系统通过强化学习来提高它自身的技巧水平。每当 AlphaGo Zero 走了一步好棋时,它就会获得系统的「奖励」,反之则有损失。

系统的核心是一组软件上的「神经元」,这些「神经元」连接在一起,形成一个人工的神经网络。在游戏的每一个回合中,神经网络会查看棋盘上棋子的位置,然后计算下一步棋的位置,并计算出每一步的可能性,做出最可能获胜的选择。在每一场比赛之后,它会更新它的神经网络,使它在下次比赛中更加强大。

尽管比以前的版本好得多,但 AlphaGo Zero 其实是一个更简单的系统,它需要的数据更少,硬件要求也更低(对阵李世乭的 AlphaGo 使用了 48 个 TPU,而 AlphaGo Zero 只用了 4 个 TPU),但它仍能够更快地掌握游戏。Silver 表示,如果有更多的时间,它甚至可能会发展出一套自己的规则。

根据一些外国棋手的观察,AlphaGo Zero 在棋局的初期表现仍与人类千年来的套路相同,但到棋局中期就会变得令人难以理解。

围棋之外,AlphaGo 还能带来更多

这也是这次 AlphaGo 再次刷屏的原因之一。身为该研究重点的强化学习是机器智能领域一个非常重要的技术,它从深度学习中延伸出来,进一步摆脱人类的干涉训练机器,而 DeepMind 也一直致力于「深度强化学习(Deep Reinforcement Learning)」的研究。

此前他们就发表了一篇论文,研究如何让一个 AI 系统自学「跑酷」。该 AI 系统在没有输入人类经验的前提下学习翻越障碍物,最终发展出自己翻越的方法。

机器能够发现人类无法发现的一些东西,这在人工智能界是一个普遍的共识,早先就有人颇为异想天开地尝试让人工智能根据图片来辨别人的性取向,虽然这样的研究遭到了不少的批评,但它确实反映了人工智能研究者们对 AI 的一些期待。

人类自己的知识是有局限的,而本质是计算机程序的人工智能往往与大多数人类的视角不同,他们能够在人类的固有思维和司空见惯的事物中发现人类找不到的规则和破解问题的方法。

AlphaGo Zero 就是一个很好的证明。

所以让 AlphaGo Zero 再次刷屏的并不是它多强的围棋技巧,也不是「100-0」、「3 天」和「40 天」这样惹人眼球的数字,而是它所证明的技术理论的可行性。

在围棋以外,得到论证的理论其实还能做到更多。

「尽管目前仍处于早期阶段,但 AlphaGo Zero 构成了朝着这个目标迈进的关键一步。如果类似的技术可以应用到其他结构问题上,比如蛋白质折叠、减少能源消耗或者寻找革命性的新材料时,那么这些突破就有可能对社会产生积极的影响。」DeepMind 在官方博客中如此说道。

所以,有关「让机器下围棋,下得再好又有什么用」的看法其实是非常幼稚的。

当 DeepMind 和 OpenAI 等公司开始研究让 AI 打 Dota、星际争霸等游戏时,收获的往往也是社会上的嘲笑声。

在大多数人的设想中,他们希望人工智能帮他们开车、打扫房间、完成这样那样简单且重复性的工作。事实上,这也是那些拥有着最顶尖技术的科技公司想要的,但在达到这些终极目标之前,他们也需要棋牌、游戏等训练算法的土壤,在这些模拟的棋局、比赛中,打造 AI 系统的模拟器(simulator),这也是为什么当 DeepMind 表示要挑战星际争霸时,他们表示这会比围棋更有挑战性——因为 MOBA 类游戏的场景更加复杂。


极客公园

学习3天:AlphaGo Zero>AlphaGo Lee>李世石;学习40天:AlphaGo Zero>AlphaGo Master>柯洁。

碾压围棋界的 AlphaGo 再次进化,AlphaGo Zero 这次击败了战胜柯洁的 AlphaGo Master

10 月 19 日消息,DeepMind 作为谷歌旗下专注于推进人工智能(AI)研究的子公司,在今日发布了新款程序“AlphaGo Zero”。据了解,凭借“强化学习”的机器学习技术,AlphaGo Zero 可以通过自学玩转多种游戏,并在游戏中吸取经验教训。

令人兴奋的是,在训练 AlphaGo Zero 的过程中,为其引入了围棋游戏并学习先进的概念,挑选出一些有利的位置和序列。经过 3 天的训练后,AlphaGo Zero 能够击败 AlphaGo Lee,而后者是去年击败韩国选手李世石的 DeepMind 软件。经过大约 40 天 2900 万场自玩游戏的训练后,AlphaGo Zero 击败了 AlphaGo Master,后者在今年早些时候击败了围棋世界冠军柯洁。

研究结果表明,在不同技术的有效性方面,AI 领域还有很多有待研究的地方。AlphaGo Zero 的开发使用了许多与 AlphaGo Master 相似的方法,但在开始进行自玩游戏之前,它就开始被使用人类数据进行训练。值得注意的是,尽管 AlphaGo Zero 在几周的训练中掌握了几个关键概念,但它的学习方式不同于人类棋手。

此外,AlphaGo Zero 比之前产品的学习能力高效得多。AlphaGo Lee 需要使用几台机器和 48 个谷歌张量处理单元机器学习加速器芯片,该系统的早期版本 AlphaGo Fan 需要 176 个 GPU。而 AlphaGo Zero 和 AlphaGo Master 一样,只需要一台机器和 4 个 TPU。

人工智能如此强大,你怕了吗?


动点科技

准确的说是三天超过打败李世石的alphago, 21天超过完败柯洁的alpha master. 40天以100:0的战绩完败其它alpha, 成为棋力最强的计算机程序。

这次的提升是多方面的。首先,alpha zero是从零开始无师自通。没有参考任何人类棋谱。之前的alpha go的技术是用基于卷积神经网络的监督学习算法,结合蒙卡随机森林搜索,并利用策略网络和价值网络两套独立架构。通过学习成千上万的人类高手棋局,然后再自我对弈来提升棋力的。整个算法庞大而复杂,并且有不少地方的确还有些人工雕琢的痕迹。

但反观alpha zero。 它最大的亮点就是完全不参考人类高手棋谱,利用强化学习算法,从一上来就开始自我对弈。在蒙卡搜索树搜索的过程中将价值网络和策略网络合二为一。可以说利用的算法架构是最简单直接的那种。但效果却异常的好。这里说的效果不光是指在棋力上超过的原有算法,还包括学习效率上的巨大提升,新算法达到旧算法的实力仅仅用了三天。程序调用的CPU资源也有了明显的下降。这不禁让人们思考,这种学习效率提升的背后,意味着alpha zero在完全不依赖人类的前提下另辟蹊径找到了更快的提高围棋胜率的方法。也许学习人类高手的棋谱反而误导了alpha。

DeepMind团队表示,人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。此次AlphaGo Zero的出现不仅仅意味着围棋上的成功,还意味着距离通过创建通用算法来解决科学中的难题又进了一步。

至于这项技术能否成功从围棋迁移到别的领域,去解决实际生活中的许多问题。比如预测蛋白质分子的形状,或者进行精确的材料设计。我们只能说,一切皆有可能。

图:不同版本alpha需要的计算资源。


低熵制造机

阿尔法狗将作为人工智能的试金石,因为围棋是一个巨大的搜索空间和难以评估棋局位置和移动的难度,长期以来被认为是最具挑战性的传统人工智能游戏。阿尔法元的成功证明了记忆是最原始的存储方式,而不是思考的方式,它不是高价值的;这个方法比机械学习好得多,可以说阿尔法已经从样本的进化演变为方法的进化。因此,它的诞生,它的进步意义是,人类与机器战争不再有意义了!DeepMind的新算法AlphaGo Zero开始摆脱对人类知识的依赖:在学习开始阶段无需先学习人类选手的走法,另外输入中没有了人工提取的特征。

在某些领域培训AI代理的过程中,模型的价值超过了培训数据(先前的知识)。如果这个模型可以应用于其他领域,那么就可以期待人工智能代理产生新的、有创造性的知识,这些知识将超越人类积累的知识。当然也能更好的服务人类。



看楽儿

“根据一些外国棋手的观察,AlphaGo Zero 在棋局的初期表现仍与人类千年来的套路相同,但到棋局中期就会变得令人难以理解。”看来人类下了几千年年围棋,才只是刚刚入门而已,我们不禁要问,围棋真的是人类发明的呢?

当然,虽然AlphaGo Zero如此厉害,但它和人类还是不能相比,不管它能通过神经网络算出多么优化的棋路,但它终究无法进行模糊思考,而这一点可能正是人类最大的优势,也是人工智能在未来可能永远也无法超越人类的根本。

在量子力学的观点里,微观粒子都是以叠加态存在,不会有准确的位置或动量,也就是说一个粒子可以同时出现在任何地方,在某个时刻它可以既在这里又在那里,完全违背人类的常识。但人类可以理解这种量子态,并发展出一整套量子力学理论,成为今天我们几乎所有现代科技成果的基础;但人工智能能理解这种模糊的认知吗?人工智能能像人类一样理解人类的感情、意识和思想吗?它能从量子力学的观点,推导出人择宇宙原理,以及它的强弱版本吗?从目前人工智能的工作方式来说,我觉得这依然是极为遥远,甚至根本不可能的。

所以,AlphaGo Zero三天击败人类旗手,其进步只是人工智能作为人工智能的进步,还不是人工智能全面超越人类的进步,在这一点上,或许它永远不可能做到,除非人类愿意和它分享人类的大脑,并有技术能够做到。


徐德文

AI碾压人类智商,人工智能真的会全面超越人类智商吗?“阿尔法狗”从诞生到挑战围棋大师就一直备受人们的关注,表象之下实际是人类社会对人工智能发展所带来的隐忧。算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。

步入互联网时代,数据与算法相伴而生,大量的数据在依靠算法进行有序组合、排列,实现对互联网用户产生的数据的二次利用,算法在某些领域大大提高了社会生产效率,基于算法为基础的人工智能应用现如今已经对当下人们的生产生活产生深刻影响。

科技的发展应该有其发展的边界,违反人类世界伦理和法律的科技、对人类社会生存产生严重危机的科技、人类社会不可控的科技这些都应该通过立法进行禁止,科技是一把双刃剑,利用科技提高劳动生产率、造福人类社会固然值得鼓励,反之就应该引起警觉,禁止科技的负面影响对人类社会产生威胁。

正如Deepmind所认为的“阿尔法狗”实现算法在缺少数据或者数据异常昂贵领域的更好发展,算法改进在能源节约、生物科技上的应用,无疑是对社会进步和人类发展起到极大的正向作用。

在人类对科技发展可控前提下,利用人工智能改进社会生产模式,提高社会生产效率,这是我们所乐见的。而对科技发展所给人类社会的带来的隐忧,我认为大可不必,算法始终是一种机械性的线性思维,只能按照既定模式的机械运行,而这些都是属于人类思维可控的。


独角兽工场

AlphaGo是第三代计算机围棋程序的代表,最开始使用了“监督学习+强化学习”的训练策略。“监督学习”,说白了就是跟人类学;“强化学习”,就是左右互搏自己练。

AlphaGo Zero是第一个不用监督学习,只用强化学习的版本。就是说不再跟自己学了,只自己摸索!

一开始程序完全不会下棋,乱扔乱放;然后越来越强,发现了吃子、死活的规律;继而发现各种人类研究过的或没研究过的定式变化,再在进步过程中判断取舍;最后实力越来越强,超过了以往的AlphaGo版本。

-

需要注意的是,AlphaGo Zero的意义主要不在于达到了更强的水平,因为这主要取决于资源的投入。AlphaGo Master和AlphaGo Zero在同为20层神经网络的情况下,投入等量训练资源后达到的实力从论文中的图表上看没有明显差距。如果给Master也投入更多资源,它应该也能达到Zero现在达到的水平。

最重要的意义在于:

1. 脱离人类知识学习客观规律;

2. 模拟了学习客观规律的进化过程。

第一点的意义无疑是非常重大的,意味着AI更强的进化能力。但我想强调的是,第二点也是很有用的,我们观察AI的学习进化过程,对照人类自己的过程,就能判断出人类在总结客观规律形成自身理论的过程中,有没有走入歧途?有没有形成“局部最优解”?如果有,该朝什么方向进行调整?

具体到AlphaGo Zero学习围棋,其实观察进化过程,和人类学习总结围棋规律的过程还是很像的,也没有进化出一个“完全不一样的外星棋手”。所以粗略的看Zero进化中不同阶段的棋谱,现在我并没有看出人类的围棋理论有什么显著的、形成了重大缺陷的系统误差。当然,小问题上有多少可改进的,还需要我们更深入的研究AlphaGo Zero的棋谱和数据。


神之一手

AlphaGo Zero的成功证明,机器系统,可以无需帮助就能成为超人,这完全颠覆了之前的我对人工智能的印象,也使得几十年研究和学习围棋的职业选手深受打击。 AlphaGo Zero,从零开始,面对的只是一张空白棋盘和游戏规则,它无师自通,仅仅通过自学使自己的游戏技能得以提高,它采用新的机器学习形式,可以100:0的不败战绩绝杀“前辈”。

我们知道,之前的AlphaGo需要与人类专家进行成千上万次对弈,才能从中获取数据,Alphabet Zero则截然不同。它从零开始,面对的只是一张空白棋盘和游戏规则,它不需要模拟人类的做法,更不需要学习人类的经验,它只需按照规则即可自我学习和提高,然后战胜人类。

毫无疑问,AlphaGo Zero在围棋世界标志着颠覆性进步,尽管在很长一段时间内,它只是一种专门工具,不太可能对我们的日常生活造成冲击。但Alphabet Zero的出现,代表着人类在建造真正智能化机器方面向前迈进了一步,因为即使在没有大量训练数据的情况下,机器也需要找出解决困难问题的方法。以至于,我们增强学习的力量将使其可以简单地按下开始按钮,让系统做余下工作,然后它将找出在这项任务中取得成功的最佳方法,设计出超越人类能力、甚至可能是人类理解能力的解决方案和战略。

这种研究,意义十分重大,因为它意味着,将来我们可能只需把需求或者要求告诉机器,机器就可以完全不依赖人类的思维的情况下去找到解决的办法。


震长

AlphaGo Zero具有思考和学习能力。机器人学会了思考,也许是人类的灾难。


李青大夫

人类用几千局训练出了AlphaGo,但AlphaGo Zero经过自我学习,从一个只知道规则的初级玩家到打败AlphaGo Master(打败柯洁的AI),它只用了40天。这个学习速度和过程连柯洁都叹了口气:人类太多余。

要我说,人类就先别自怨自艾了,我在很小的时候打不过游戏里的电脑,就已经接受人不如机器的事实了。这事儿接受起来,并不难。

在科技领域之内,AlphaGo Zero当然有其进步意义。其中最大的一项进步是,它甩开了人类这根拐棍,开始独立行走了。因为我们都知道,早年间的AlphaGo,是靠人类喂养长大的,其中不光是数据和信息,也包括人类对下围棋的理解与经验,现在的AlphaGo Zero,是纯靠与自我对弈来进步的,人类对它来说,不再像过去那么重要了。

AlphaGo Zero的胜利还意味着,对AI来说,算法的重要程度已经超过了数据资源。这事儿看着小,可实际上是蛮关键的,在过去这么多年里,我们一直在谈大数据大数据,似乎培养人工智能只有数据浇灌这一条路。可是AlphaGo Zero证明,数据浇灌只是第一阶段,人工智能的第二阶段是自我浇灌,算法工程师们的职业前景更加美好了。

一切似乎都在朝向更高级更前沿的未来发展,唯独,我对柯洁这些职业围棋选手感到一丝惋惜。他们耗费大量时光,好不容易在该领域内做到全球顶尖,结果人生最高光的时刻,竟然是被AI横扫,我曾经试想,假如我是围棋高手,在见过AlphaGo Zero这样的围棋上帝之后,几乎是很难像从前一样怀有职业自信了。这,实在太悲情了。


分享到:


相關文章: