《模型思考者》11:“吃一堑长一智”的数学模型


《模型思考者》11:“吃一堑长一智”的数学模型

咱们继续说斯科特·佩奇的《模型思考者》。 这一讲我们来研究一个有关学习的模型,说人应该如何从经验中学习,从而做出明智的选择。

我们专栏以前讲计算机思维的时候引用过软件工程专家弗瑞德里克·布鲁克斯(Fred Brooks)的一句话,“好的判断来自经验,而经验来自坏的判断。”用咱们中国人的说法,这其实就是“吃一堑长一智”。

看书学知识效率最高,可是有些知识是书本上所没有的。哪个饭店的菜好吃?哪个品牌的鞋适合你?哪个教授有真学问?谁更值得合作?关键任务能指望谁?这些问题的答案只存在于每个人的特定经验之中,可能你得用一身伤痕才能换到一分体会。

一个人哪怕不会什么专业技能,但是能知道身边各种东西的好坏,在各个选项中能选对的,就也算是活明白了 —— 可惜很多人明白的时候已经老了。那有什么办法,能让我们加速活明白呢?

以前我们讲《指导生活的算法》这本书的时候,说过一个“先观察后决策”的模型 [1],也就是著名的“37%规则” —— 你应该用前面37%的时间只观察不选择,先知道什么东西是好的,然后用剩下的时间遇到好的就马上拿下。我们还讲过一个“探索—收获”模型 [2],说人应该在年轻的时候多探索,这样老了就可以享受探索的成果。


这两个方法的缺点是都有一定的时间性,要求你先积累经验,再使用经验。但我们进入成年人的阶段,往往要一边积累经验一边使用经验,而且还要快速积累经验。那这应该怎么办呢?数学思维能帮你看清楚其中的关键。

1.自增强学习法

有一个诡异的故事,也许你听说过。说从前有一位女孩,在参加亲人葬礼的时候,遇见了一个很英俊的男子。女孩很喜欢这个男子。过了一段时间之后,女孩就把自己的姐姐杀死了。请问这是为什么?

答案是因为女孩希望再次见到男子。她唯一遇到那个男子的场合是在家族的葬礼上,所以她想要再举办一次葬礼。

当然这是一个虚构的故事,女孩的做法肯定不对……但是,女孩的思路有合理性。你做一件什么事儿如果得到了奖励,你以后就应该多做这样的事儿。这就是从经验中学习的真谛。

咱们中国人说“吃一堑长一智”,强调要从错误中吸取教训,可是我们看动物园里那些驯兽师好像不是这么干的。驯兽师对动物从来都不是使用打骂法,而是使用奖励法,是完成一个好动作马上给吃的。动物也许完全不懂人为什么要让他做这个动作,但是只要他知道这么做会得到好吃的,他就会乐意这么做。驯兽师希望动物“记吃不记打” —— 你对错误动作没有必要有太多深刻印象,学习学的是正确动作。这个原理,早在一百年前就已经被美国心理学家爱德华·桑代克(Edward Thorndike)用实验证明了:奖励比惩罚更有利于学习。

桑代克通过拿小猫做实验,发现两个规律,可以直接指导我们的学习模型。

第一个规律是当小猫完成一个正确的动作之后,你给它的奖励越多,它学得就越快。

这也就是说学习是个“正反馈”的过程,奖励就是鼓励。现在有很多学者研究从经验中学习的数学模型,首先想到的就是奖励。比如我们设想,你在生活中面临A、B、C、D……各种选项,你做每个选项,都会得到一定的奖励,或者惩罚 —— 当然我们可以把惩罚视为负的奖励。

如果各个选项的奖励值都明确地摆在你面前,那就非常简单了,你直接选择奖励最大的那个选项就行。但真实世界根本就不是这样的 —— 是跑步好还是散步好?是“得到”好还是“抖音”好?这些事儿的“奖励”往往是难以量化的,而且你也记不住。

所以我们真实的学习都是理性结合感性慢慢摸索,没有那么黑白分明。最简单的方式,用数学模型描写,叫做“自增强学习法”。

我们设想,对每一个选项,你心中都有一个“心理权重”。这件事的权重越高,你就越愿意做这件事。但是请注意,这里所谓的“愿意”只是说你会增加做这件事的概率,而不是说你从此就*只*做这件事,因为总做一件事会边际效应递减,而且做点别的也许还能收获惊喜。

所以自增强学习法是个概率模型。概率来自权重,而权重来自奖励:如果这个选项给你带来了奖励,你就相应地提高它的权重。随着系统的演化,你就会多做奖励高的事情。不过仅仅这样的话这个模型的学习速度还不够快。

桑代克发现的第二个规律是,如果你给小猫一个超出它预期的奖励,它就学得更快。

心理预期是个很有意思的现象。比如我每天读一点网络小说都能收获一点快乐,相当于奖励值是 10。如果读一本经济学的书带给我的奖励值只有 8,虽然也可以说是有收获,但是对我来说就不够刺激。而我读《模型思考者》这本书,获得了 15 的奖励,那就非常令人欣喜了,所以在这三本书里面,我就会更乐意选第三本。

考虑到这个原理,我们可以在学习模型中设定一个叫做“渴望水平”的值,代表我们对奖励的心理预期。调整权重的时候,我们不是直接用奖励计算,而是用(奖励 - 渴望水平)计算。也就是说,一般的奖励不会让我增加、而且可能还会降低这个选项的权重,只有当奖励超出我的渴望水平的时候,我才会增加权重。


那么接下来就是数学的威力了:数学家证明,引入“渴望水平”之后,我们能用最快的速度学到回报最高的选项。

*

数学模型必须使用严格的公式描写这个学习过程,但这个模型的本质是假设我们都是不擅长精确量化、有点凭感觉行事的人。人很不善于记住具体的数值,但是人很善于记住一件事带给你的*感觉*。自增强学习法是个理性结合感性的方法。

比如你刚刚升级为父母,不知道孩子爱吃什么水果。自增强学习法是这样的,首先给所有水果的权重都是 50 ——

第一天你给孩子吃香蕉,你发现他挺爱吃,于是就把香蕉心理权重提高了,比如从 50增加到55。

第二天你又给孩子吃香蕉,他还是挺爱吃,但是你感觉上跟上次的奖励差不多大小,而因为你的心理预期已经提高了,香蕉的权重就不会增加。

第三天你给孩子吃苹果,你发现他吃得挺好但是好像不像昨天那么爱吃,那么虽然这个反应是正面的,你也要降低苹果的权重。

第四天你给孩子吃了橘子,他非常喜欢,超出了你的预期,于是你把橘子的权重一下子提高到60。

那么接下来,你应该以更高的概率喂橘子,但是对其他的选项也保持兼顾。


这个过程说起来挺简单,而没有学习意识的人就做不到,特别是做不到学这么快。

2.从别人的经验中学

自增强学习法能让你用最快的速度从自己的经验中学习,但是更快的方法,则是从别人的经验中学习。

有一个模型是你观察一大群人,看他们在各种选项得到什么样的奖励。这个模型要求你对当前经验的平均奖励有一定的估计,作为你的心理预期。那么接下来比如你看老王做 A 这件事儿得到的奖励比你的心理预期高,你就提高 A 的权重。

这就叫“见贤思齐” —— 而数学上可以证明,用别人的经验学习速度更快。这当然是因为你的样本量大大增加了。我们看一个什么新鲜的好东西在大城市的流行速度会比小地方快得多,这大约就是因为人们在人员密集、交流充分的地方更容易互相学习。


但是我们要注意一点,通过别人学到的经验,和自己学到的经验,不一定是一致的。

3.绝对进步和相对进步

佩奇说了一个有意思的例子,叫做“慷慨/恶意博弈(The Generous/Spiteful Game)”。

从前有一天,你发现了一盏神灯,你一擦这个灯,出来一个灯神,说可以满足你的一个愿望。但不管你的愿望是要什么,灯神都会双倍地给到你身边的人。比如你想要1万块钱,你身边的人都会得到2万块钱。那你想要什么呢?

有个人选的是让灯神戳瞎自己的一只眼睛。这样他身边的人都会被戳瞎两只眼睛,他就获得了相对于别人的一个优势。宁可损己,也要损人。

生活中真有这样的人吗?在某种意义上来说,中美贸易战就是这个情况。不打贸易战两国经济都能照常前进;打贸易战,对中国经济的伤害可能更大一些,但是对美国经济也有伤害。那特朗普为啥非得打贸易战呢?

美国政治学家肯尼思·沃尔兹(Kenneth Waltz)有句话说,“国家首先要考虑的不是怎么让自己的力量最大化,而是保证自己在系统中的位置。”也就是说为了确保自己的优势地位,哪怕杀敌一千得自损八百,那也得干。

当然肯定不是所有人都会这么干。在这个慷慨和恶意的博弈中,如果你选择慷慨,你的自身状态会越来越好;而如果你选择恶意,你相对于别人的地位会越来越高。而数学推演表明,如果你使用自增强学习法从自己的经验中学习,你会变得越来越慷慨;如果你采用第二个学习方法,向别人学习,你会变的越来越恶意。


那到底应该看自己还是看别人呢?这是一个两难问题,答案也许取决于你的价值观,所幸的是生活中的局面并不都是这样的博弈。我只是想告诉你,有时候看自己和看别人是不一样的。

*

简单的数学模型告诉我们,要想从经验中快速学习,你必须是一个敏感的人。

第一,你必须对奖励非常敏感,才能迅速调整各个选项的权重,让自己学会多做好事,少做坏事。

第二,你还需要随时调整自己的心理期望。对所有事情都敏感就等于对所有事情都不敏感。有一个比较高的期望阈值,一般的奖励不能让你兴奋,你才更愿意去追求奖励高的事情,你才能更快地找到最佳选项。期望值过低的人会习惯性地去做一些低回报的事情。


第三,参考别人的经验能使你学得更快,不过你得注意自己到底想要什么,别人和自己毕竟是两回事 —— 比如有的人只想比别人强,那种人未必真值得我们学习。

注释

[1] 指导生活的算法1. 数学家告诉你什么时候结束单身

[2] 指导生活的算法2. 数学家告诉你怎样慢慢变老

《模型思考者》11:“吃一堑长一智”的数学模型


分享到:


相關文章: