納什:如何科學追求對象?

科學無國界

我們是知識的搬運工

福利時間

今天我們將送出由Nature自然科研編譯,清華大學出版社出版的優質科普書籍自然的音符:118種化學元素的故事》。

纳什:如何科学追求对象?

你知道嗎?稀土其實並不那麼稀有,鉈曾被英國“茶杯投毒者”作為殺人武器,火柴中的磷會導致工人發生“磷毒性頜骨壞死”,《茶花女》中有關愛情的描述“既是詛咒,也是祝福”也可以用來形容一種元素——鏑。

自然科學發展的長河裡一些最引人入勝的篇章無疑是由化學元素譜寫的:它們的發現、特性,以及圍繞它們的故事。但隨著元素大發現時代的過去,這些故事也漸漸埋於故紙堆。《自然的音符:118種化學元素的故事》由100多位世界各地的科學家撰寫,最初以專欄文章的形式是發表在《自然-化學》上。當這些科學家將元素的前世今生娓娓道來,你才會發現,一張元素週期表,背後有多少或激動人心、或幽默諷刺、或駭人聽聞的故事。

這本書由《自然-化學》高級編輯Anne Pichon博士傾情作序,金湧院士、中國化學會、中國化工學會推薦閱讀。

只要你認真閱讀下面的這篇文章,思考文末提出的問題,嚴格按照 互動:你的答案 格式在評論區留言,就有機會獲得獎品!

翻譯:Nuor

審校:xux

如果我們都對金髮女士下手,並且互相妨礙,那麼結果是誰都無法得到她。接下來我們再去找她的朋友們,她們會不屑一顧,因為沒有人願意當備胎。然而假如我們都不找金髮女士呢?我們不會相互影響,也不會冒犯其他幾位女士。這就是我們成功的唯一方式。

如果看過電影的話你會發現,這就是電影《美麗心靈》(2001)中的角色約翰·納什首次向他的朋友們解釋有關他天才般的有關“博弈論”(governing dynamics)的新發現。當然,事實上,這並不是真實的約翰·福布斯·納什想到的,他也不是這樣描述“博弈論”概念的。這篇文章的目的是更加準確和全面地描述納什均衡提出的過程和其價值。

什麼是納什均衡

納什均衡是是非合作博弈的概念,涉及兩個或兩個以上的博弈者,假設其中每個博弈者都知道其他博弈者的均衡策略,單個博弈者都無法通過單方面改變自己的策略來獲取利益(Osborne et al, 1994)。

定理可以被非正式地描述為:

如果沒有一方博弈者能通過單方面改變自身策略來獲取更大收益,那麼這個策略就是

納什均衡

也就是說,在一個二人遊戲中,如果已知玩家B選擇的情況下,玩家 A 的策略是最優的,同時已知玩家A策略的情況下,玩家 B 策略也是最優的,那麼這一對策略構成納什均衡。沒有一個玩家可以通過單方面改變自己的策略獲得更優的結果。關鍵的是,玩家都不知道對方的策略,僅根據自身的利益選擇最優策略(也知曉其他玩家的利益)。

推廣到 n 個玩家的情況,可定義為:

納什均衡的定義

用(S,f)代表 u 個玩家的遊戲,Si是 i 玩家的策略,S=S1×S2×S3×…×Su是所有策略的集合,f(x)=(f1(x),…,fu(x)) 是 x∈S 情況下的收益函數。xi是玩家 i 的策略,x-i

是其他所有玩家(除了 i )的策略集合。

當每個玩家 i∈{1,…,u} 選擇策略 xi後,策略配置為 x = (x₁,...,xᵤ),玩家i則獲得收益 fᵢ(x)。收益取決於所有人的策略,包括玩家 i 和其他玩家的。

如果沒有任何一個玩家可通過單方面改變策略獲取更多收益,則這個策略集x*∈S 就是納什均衡,即:

∀i,xᵢ ∈ Sᵢ : fᵢ(x*ᵢ, x*₋ᵢ) ≥ fᵢ(xᵢ,x*₋ᵢ)

納什均衡的證明

納什的論文證明(1950c)使用了布勞威爾定點定理。由於戴維·蓋爾的功勞,納什利用更簡單的方式(角谷定點定理)給出了相同的證明。

利用角谷定理證明納什均衡

為證明納什均衡(NE)的存在,假設rᵢ(σ₋ᵢ)是玩家i在其他玩家的策略下的最優策略。

rᵢ(σ₋ᵢ) = arg max uᵢ(σᵢ, σ₋ᵢ)

在這裡,σ ∈ Σ 其中Σᵢ x Σ₋ᵢ 是所有參與者的策略,uᵢ 是玩家 i 的收益函數。定義一個值函數 r: Σ → 2^Σ,其中 r = (rᵢ(σ₋ᵢ), r₋ᵢ(σ₋ᵢ))。證明納什均衡的存在等價於證明 r 有一個不動點。

角谷不動點定理表明,如果滿足以下四點,則有不動點的存在:

  1. Σ 是緊湊,凸且非空;

  2. r(σ) 是非空的;

  3. r(σ) 是上半連續的;

  4. r(σ) 是凸的。

條件 1 的前提是Σ是單純形,因此其為緊湊的。“凸”源於玩家能夠混合策略。玩家必須選擇策略因此Σ為非空的。

條件 2 和 3 可通過Berge 最大值定理(Berge's maximum theorem)證明。因為 uᵢ 是連續且緊湊的,所以 r(σ) 是非空的且上半連續的。

條件 4 也是由於混合策略的原因。假設 σᵢ, σᵢ' ∈ r(σ₋ᵢ),然後 λσᵢ + (1 - λ)σᵢ' ∈ r(σ₋ᵢ)。即如果兩個策略產生最大收益,則兩個策略混合也會產生同等收益。

因此,r 和納什均衡中存在一個不動點。

舉例

正式的遊戲通常包含三個元素:玩家,策略和每個玩家的收益。收益函數代表每個玩家對於策略的偏好,策略集是玩家在遊戲中的策略列表。可以在示意圖中解釋三種元素,並稱其為收益矩陣,來表明兩玩家的策略(兩個玩家各有兩種策略):

纳什:如何科学追求对象?

左:遊戲1的收益矩陣,為一個“協調博弈”。右:遊戲2的收益矩陣,“錢幣配對”遊戲(猜拳)

在每個遊戲中,兩個玩家都可以從A和B兩種策略中任選一種。

純策略納什均衡

純策略的納什均衡指的是:沒有任何一個參與者可以通過單方面偏離和輪換策略來獲得更高的預期收益。

在遊戲1中,如果他們選擇不同的策略(A,B)或(B,A),則兩者的收益均為0。如果他們都選擇策略A,則兩者都會得到收益2。如果他們都選擇策略B,則兩者都會得到收益1。策略集(A,A)和(B,B)因此產生納什均衡,因為單個玩家策略的改變會導致該玩家的收益更低。

在遊戲2中,如果他們選擇不同的策略(A,B)或(B,A),則玩家1的回報為-1,玩家2的回報為1。如果他們都選擇A或B,則玩家1會得到 1的收益,玩家2得到-1。該遊戲中沒有純粹的納什均衡策略,因為在每種策略集中,其中一名玩家都會從策略的偏離中獲利。

混合策略納什均衡

納什的結果表明,在所有有限對策中至少存在一個納什均衡點。由於遊戲2不存在純策略的納什均衡,所以在混合策略中必然存在納什均衡:

混合策略納什均衡是一種策略集,其特徵是至少有一個參與者在玩隨機策略,並且沒有一個參與者可以通過單方面改變和輪換策略來獲得更高的期望收益。

在遊戲2中,玩家不選擇單一的策略,而是按照一定的概率分佈來選擇策略。在均衡中,每個參與者的概率分佈選擇使得所有其他參與者對他們的純策略不感興趣。

例如,作為玩家1,我們可以一半時使用A,一半時間選擇B,根據拋硬幣決定策略。玩家2唯一的理性反應就是做同樣的事情。比如,在“硬幣配對”博弈中,當選擇A和B的策略概率相等時,就是一種混合策略的納什均衡。

解釋

納什在他的論文中提出了兩種關於均衡的想法:一種基於理性,一種基於統計人群。

在理性解釋下,玩家們被認定為理性的,而且知曉遊戲的全部信息,包含其他玩家的選擇偏好,而且這些消息都是眾所周知的。由於所有的玩家都瞭解彼此的選擇策略和偏好,所以也能為所有的策略計算其收益,得到最佳策略。如果遊戲只玩一次且所有的玩家都期望相同的納什均衡(高收益),那麼沒有人會想要改變自己的策略。

基於統計人群的假設中,納什指出:不必假設玩家完全瞭解遊戲的信息,或者有能力和意願進行復雜的推理過程。這是由於“假設在遊戲的每個位置都有一群玩家,隨著時間變化,會有隨機玩家參與遊戲。如果有玩家用一個穩定的平均頻率來選用純策略,那麼這個穩定的平均頻率就是混合策略納什均衡。”(納什,1950c)。

正如哈羅德·庫恩後來寫道:

顯然諾貝爾評獎委員會認真考慮了這兩種解釋。古諾特可能會提出理性的解釋,但是對於生物學博弈來說很重要的統計解釋是完全原創的。雖然這三篇論文都對非合作博弈進行了解釋,但只有這篇文章對這兩種解釋進行了闡述。當在諾貝爾研討會上被問及為什麼這些解釋沒有被收錄到年報中,納什回應道:“我不知道是不是為了《數學年鑑》而特意剪掉的。”

——摘自庫恩等人的《約翰·納什傳》(The Essential John Nash,2002)

發現

不同於電影中的描述,傳記作者西爾維亞·納薩爾寫道:納什在普林斯頓大學讀研究生時想到了這個想法,並研究了遊戲策略和經濟學談判的數學模型。正如納薩爾所寫:

“經過與馮·諾伊曼會晤之後,納什在與大衛·蓋爾的談話中說道:‘我想我已經找到了可以概括馮·諾伊曼的最小-最大定理的一種方法,基本思想是在兩人的零和博弈中,最好的策略是…整個理論都基於此。它適用於任何數量的人,並不侷限於零和博弈’。”

——引自西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind)(1998年)

納什和大衛·蓋爾的對話在1995年由蓋爾轉述給納薩爾。納什當時在研究所謂的“談判問題”(bargaining problem),其中兩個人都有機會互惠互利,但是任何單方面(未經同意)採取的行為都不會影響另一方的利益。想想經典的“切蛋糕和選擇協議”,一方切蛋糕,另一方優先選擇自己想要的部分,這種模式提供了所謂的無嫉妒的切蛋糕模式。

就像納薩爾所寫的那樣,相比於納什新結論的應用價值,蓋爾對更對其數學價值著迷,他在1995年寫道:“數學是如此之美。”這在數學上是正確的。

“蓋爾意識到,相對於馮·諾依曼的零和博弈,納什的想法更適用於更廣泛的現實世界。”他有一個可以推廣到談判的概念。

——摘錄,西爾維亞·納薩爾的《美麗的心靈》(A Beautiful Mind,1998)

蓋爾還起草給美國國家科學院,幫助納什獲得其結果的榮譽。所羅門·萊夫謝茨代表他們提交了這份報告。1950年1月,《美國國家科學院院刊》的第36卷刊登了這份不到一頁的內容,題為《N人博弈中的均衡點》(Equilibrium points in N-person games)。

纳什:如何科学追求对象?

納什(1950b)。N人博弈中的均衡點。美國國家科學院院刊36(1)。

結語

納什的論文最終催生了三篇期刊論文一項諾貝爾經濟學獎(1994年)。

期刊論文

這三篇文章包含了納什均衡存在的三種不同證明。第一個題為“N人博弈中的均衡點”(1950b)的是納什和蓋爾為美國國家科學院院刊編寫的筆記。第二篇叫做《非合作博弈》(1951年),發表在《數學年鑑》 54卷第2期上。在《計量經濟學》第21期上發表的《兩人合作遊戲》(1953年)中,納什將其關於談判問題的工作(Nash, 1950a)擴展到了“威脅”可以發揮作用的更廣泛的情況中(Kuhn et al, 2002)。

諾貝爾獎

就在1994年諾貝爾經濟學獎於10月11日公佈的幾周前,兩位數學家——哈羅德·W·庫恩和小約翰·福布斯·納什——在梅多湖附近的療養院看望了他們的老師——將近90歲,臥病不起的阿爾伯特·W·塔克。納什先生已經好幾年沒有和他的導師說過話了。從庫恩離席的一個小時中,他們就數論展開了討論。

當納什先生走出房間後,庫恩先生回來告訴塔克先生一個驚人的秘密:納什先生不知道,瑞典皇家科學院打算對納什在1949年於塔克先生門下做出的對經濟學巨大的革命性貢獻,授予他諾貝爾獎。這個獎是個奇蹟。

——納薩爾 1994

1994年10月11日,諾貝爾頒獎委員會宣佈,將把1994年諾貝爾經濟學獎授予約翰·福布斯·納什博士,以表彰他在非合作博弈理論中對均衡的開創性分析:

約翰·福布斯·納什介紹了合作博弈(可以達成有約束力的協議)和非合作博弈(不可能達成有約束力的協議)之間的區別。納什提出了非合作博弈的均衡概念,後來被稱為納什均衡。

纳什:如何科学追求对象?

哈羅德·庫恩(左)和納什(右)

原文鏈接:

https://medium.com/cantors-paradise/the-nash-equilibrium-explained-c9ad7e97633a

【互動問題:生活中有哪些體現博弈學的知識或者遊戲?

請大家嚴格按照 互動:問題答案的格式在評論區留言參與互動,格式不符合要求者無效。

↓ 點擊標題即可查看 ↓

1. 物理定律告訴你:表白可能鉅虧,分手一定血賺

2. 震驚!昨天你們立起來的掃把,甚至真的驚動了 NASA

3. 酒精和 84 消毒液到底能不能一塊用?

4. 一次性醫用口罩是怎麼做出來的?如何消毒?

5. 數學好玩個球啊,這支豪門球隊用一群數理博士橫掃球場

6. 「測溫槍」到底是怎樣測出你的溫度的?

7. 等量 0 度水和 100 度水混合能得到 50 度水嗎?

8. 人類為什麼喜歡親吻?

9. 病毒從哪裡來?

10. 一見鍾情,到底靠不靠譜?


分享到:


相關文章: