AlphaGo在自我对弈时会不会陷入收敛?

游优优

AlphaGo只是个程序,它没有人的思维。人与人之间对弈时,会根据形势变化,决定采取不同的对策,诸如不得贪胜、入界宜缓、穷寇勿追之类,但这些对人工智能来说没有意义,因为它不会像人类一样去思考:这手棋需不需要让步?赢半目也是赢,有必要冒着风险去屠大龙吗?

只要懂棋的人应该都能看出,AlphaGo在与人类棋手进行对弈时,不管是与李世石对弈的1.0版本,还是升级为Master的2.0版本,在优势明显时,它会采用“收敛”的着法,缩小双方的胜负差距,就像故意放水似的,宁愿选择一些吃亏的变化,导致最后只赢半目到1目半。

这给人造成的错觉就是,AlphaGo通人性,不想让对手输得太难看,所以就像职业高手与业余棋手下指导棋一样,控制着胜负走向,最终以最小差距取胜,给人类棋手留下足够的面子。

职业棋手在与业余棋手下指导棋时可能会这样想,但AlphaGo绝对不会。之所以会出现优势局面下它大踏步后退的情况,原因说起来其实非常简单:AlphaGo的每手棋其实都是众多着法中的一种选择,通常对手一手棋出手后,AlphaGo的后台会根据胜率显示出多种选择,清楚地标明从①到⑨等等,如果让AlphaGo自己选择的话,它根据系统设置会选择胜率最高的那种,但他的人工臂是人类,就会有人性化的选择。

明白了这个道理,就会对AlphaGo优势下的退让恍然大悟了吧,不是AlphaGo有这么聪明、这么人性化,而是它的人工臂、操盘手这么去做的,给人的错觉是AlphaGo真的很“智能”了。


聂卫平

因为我们不知道alphago使用的数学模型,因此只能通过人工智能通常使用的逻辑方法来推算。

一、机器学习。假如AL(简称了)使用的是机器学习的方法,而不是利用某种直接与围棋有关的数学模型,那么,AL产生的最终逻辑,往往是人类所不能理解的。从使用机械学习方法的两个人工智能自主学习自主交流 ,产生人类不可理解的“语言”实验来看,如果AL使用纯粹的机器学习方式,我们将看不懂它下的棋。

二、我们能看懂它下的棋,而且能够描述它收敛的特征,那么,这是明显的概率数学模型的特征。例如马尔科夫链一类的方法。

三、基于报道,AL学习了大概棋谱。也就是它实际采用了机械学习的方法,建立自己的操盘风格。之后基于概率数学从众多可能性中选择一种操作方案。这是从成功率最大、或者最稳妥、或者占用势或子最多等多个条件因素之中形成的条件数学模型中做出选择。这部分的特征,可以通过下棋的结果观察出来。在接近收官,它明显是采用了保守的赢率最大的方案。

四、如果自我对弈,这将成为它自己的概率数学问题。也就是左手赢的概率大,还是右手赢的概率大问题。由于使用同样模型,其概率为50%。也就是多下几盘,左右手最终赢棋的概率逼近50%。它的收敛特征是数学模型固定的。如果不改源程序,依然会体现出收敛特征。

五、如果两台机器对弈,同样程序,将产生同样的概率结果。

但是如果有一台机器改变算法或模型,这个结局待定。假设中国的人工智能需与AL对弈,在不了解它程序的前提下,可以利用聂老的思想转化为数学模式,而不使用开始的机器学习的方式,之后的逻辑部分就算一致,我方也有胜算的可能性。

机器学习的方法是收敛逼近,寻找概率和胜率的平衡。但是,使用人为数学模型的优势在于,重在看势,求活即可。这才有胜算可能。


霹雳火76228767

刚才看了聂卫平老师的回答,应该说尽管聂老师是围棋高手,但不精于人工智能。这个问题我来回答一下。首先聂老师对“收敛”估计是理解错误,当然也可能是我多想了。题主说的收敛应该是指人工智能算法里的收敛。


收敛是必须的啊!不收敛反而是出问题了。

回过头来说捏老提的问题。人工智能下棋,会根据胜率而不是根据胜的大小。人工智能只要确保胜利,下的会相对保守。举个例子,比如当人工智能占优势时一步好棋,百分之九十九能大获全胜,百分之一可能输,而不走这步棋,百分之百赢,计算机就不会去走。而人类往往倾向于大获全胜。因为至少一般情况下看不出输的可能性。

人类的计算能力不如计算机。


陪孩子一起学数学

好像会。根据deepmine公开的论文,alphazero对李世石版alphago基本保持全胜,但自学200小时的alphazero对自学100小时的alphazero只保持胜率的优势,以此递推,胜率是收敛的。


分享到:


相關文章: