數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

魚羊 發自 紐凹非寺

量子位 報道 | 公眾號 QbitAI

“我每次覺得一個人是主角,他就死了!”

永遠不知道誰會下一個領便當的《權力的遊戲》迎來了最終季。就在昨天,在全球粉絲的熱切期盼下,HBO播出了《權力的遊戲》第八季第一集,這首冰與火之歌終於奏響終章了。

“凡人皆有一死”,道理我都懂,但主角到底是誰?大概每一個權遊粉都想抱住馬丁老爺子的大腿求大(keng)神(wang)給個準話。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

其實想要知道這個答案,或許機器學習還更靠譜一些。AI都窺見了哪些機密?此處紅燈警告:以下內容是機器學習分析出來的,但內含劇透!內含劇透!內含劇透!

龍媽非中心,囧雪是主角

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

雖然小說還坑著,但《權力的遊戲》劇集已隱隱透出三龍之勢,權遊粉中目前最主流的觀點,就是丹妮莉絲、瓊恩、提利昂為龍的三個頭。

但機器學習似乎不太認同這個觀點。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

有個名叫 Peter Vesterberg 的小哥哥用機器學習的方法對《冰與火之歌》系列小說進行了文本分析。可以看到,龍媽的戲份到了第五部《魔龍的狂舞》才有了顯著提升。而在第四部《群鴉的盛宴》當中,雖然三人都沒有POV章節,但囧雪和小惡魔在別人的視角里戲份還挺多。

Peter還進一步對人物之間的關係進行了挖掘。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

很顯然,AI認定囧雪就是主角中的主角,畢竟啥也不懂還能死而復生,憑著一臉正直就撐到了最終季,在維斯特洛大陸實屬不易。

其次是蘭尼斯特兩兄弟提利昂和詹姆。獅家的粉絲這回可開心了,雖然家有豬隊友,攔不住兩兄弟實力優秀啊。

至於龍媽,榜單上甚至沒有她的名字。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

AI從百萬字文本當中窺見了故事的發展脈絡,不過,這也可能是馬丁老賊在誘敵深入,坑人不見血這招,怕是AI也輕易躲不過。

波隆登死亡榜第一名

Winter is coming,異鬼大軍來襲,下一份便當發給誰,或許比誰是主角更讓粉絲揪心。

慕尼黑工業大學(TUM)的權遊粉絲們用機器學習預測了最終季人物的死亡可能性。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

不幸登上榜首的竟然是深諳生存法則的波隆。傭兵波隆憑藉跟蘭尼斯特兩兄弟的互動人氣一路飆升,對陣龍媽一役彎弓射大龍的表現可謂吸粉無數,更不用說他捨身救詹姆給觀眾帶來的震撼。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

這位能登上維斯特洛毒舌TOP榜的黑水河爵士在AI眼裡死亡可能性高達93.5%,讓人不經擔憂要是沒有了波隆,誰還能勝任騎士吐槽第一人的角色呢?

而史塔克家族似乎要繼續擔綱最慘家族一角,開局沒多久就家破人亡的狼家又有兩位上榜。“群狼生,孤狼死”,這可讓囧雪這個大主角怎麼活。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

除了死亡榜,還有生存榜。


數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

對比狼家,獅家簡直是AI真愛。繼主角認定之後,AI又表示,小惡魔和詹姆都最不可能狗帶。看來狼家在這場獅狼大戰中是全面落敗了呀。

看了這些分析,可能有人會質疑,AI可別是張口就來。那麼AI到底是怎麼得出這些結論的呢?

數據分析+網絡理論,找出真主角

在誰是真主角的分析當中,Peter主要使用了三種方法來對《冰與火之歌》進行數據分析:

  • 通過測量詞彙多樣性來評價詞彙的豐富度
  • 故事主線的人物足跡和詞頻分析
  • 運用網絡理論計算角色的重要性

文本處理是由Python來實現的。NLTK用於自然語言處理,Seaborn實現可視化,Networkx進行網絡計算。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

人物足跡和詞頻分析

《冰與火之歌》的章節是通過不同的視角(POV)呈現的,選擇主要的POV角色名,就可以繪製出單詞分散圖,從而瞭解到這些名字都在小說中的哪個部分出現過。

而詞頻分析則為《冰與火之歌》正名,冰與火的主題詞可不是【和諧】和【和諧】,這是一個圍繞著“死亡”(1690次提及)、“血(緣)”(1629次提及)和“愛”(703次提及)的故事。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

網絡理論

對於《冰與火之歌》這樣擁有兩千多個出場人物的鉅著來說,人物之間的相互關係推動著故事的發展。

Peter引入了網絡理論來描述角色之間的關聯性。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

以這個句子為例,Eddard(奈德·史塔克)和Jon(瓊恩·雪諾)之間隔著4個單詞,因此在故事裡他們是“相近”的。

兩個名字越相近且越頻繁地出現在一起,就可以假設在故事中他們彼此交織,構成一組名稱對。

使用一個包含25個單詞的窗口並計算此窗口中所有名稱對共同出現的次數,就能得到這組名稱對的“權重”。

引入網絡理論,判斷一個角色與其他角色的關聯性主要用到了四個關鍵概念:

  • 度中心性——與該節點直接連接的節點佔節點總數的比例
  • 接近中心性——對於一個結點而言,它距離其它結點越近,那麼它的中心度越高
  • 中介中心性——量化該節點充當其他兩個節點之間最短路徑的橋樑的次數
  • 特徵向量中心性——一個節點的重要性既取決於其鄰居節點的數量,也取決於其鄰居節點的重要性

鑑於作者傾向於以穩定的速度殺死關鍵人物,Peter認為中介中心性更有參考價值,它能衡量殺死一個人物的難度。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

可以看到網絡理論認為龍媽處在邊緣位置,重要性不僅不如囧雪和小惡魔,甚至連二丫也沒比過。

機器學習實力預測死亡率

慕尼黑工業大學(TUM)的團隊則是雙管齊下,用兩種方法來預測角色的死亡概率。

一個方法是從冰與火之歌和權力的遊戲的維基百科中提取角色特徵數據集,使用pymc3封裝的MCMC方法來訓練BAYESEAN生存分析模型。

另一個方法是在Python的Keras框架下訓練神經網絡。比起BAYESEAN生存分析模型,神經網絡能夠囊括更多“意外”死亡。

數據科學解讀《冰與火之歌》人物關係:雪諾是主角,龍媽邊緣人物

具體的訓練方法他們寫在了這個項目的官網中,而權遊裡每一個角色的死亡百分比也都可以在官網中查詢到。想知道自己關注的角色會不會活到最後,熬夜追劇的同時,不妨也看一看機器學習的結論吧~

傳送門

TUM: https://got.show/

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: