聽衆問答 38:答人工智慧預測世界盃到底是怎麼回事

這段時間又是四年一度的火熱世界盃了,有很多聽眾來問我是不是球迷,看不看球,怎樣才能科學地購買足球彩票?聽說今年是人工智能預測世界盃的元年,問我怎麼看?

聽說有很多人為了看球把工作都辭掉了,等世界盃結束再找工作,我覺得這種才是真球迷,不知道我的聽眾中有這樣的真球迷嗎?我可能連偽球迷都算不上,我只會在淘汰賽開始後看完整的比賽。但如果遇到後半夜才開始的話,我也基本上熬不住,睡覺優先。所以,對於足球,我肯定算是一個外行。因此,本期節目的重點與足球本身無關,我只是藉著足球這個話題來跟大家簡單介紹一下人工智能預測世界盃的技術原理到底是什麼

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

但為了能夠在舉例子的過程中不至於顯得完全不懂足球,我找到了我的一位很內行的老聽眾 Bill 先生。

Bill:哈嘍,大家好,我是科學有故事的聽眾比爾。我是 2014 年入行做足球分析節目的,現在在騰訊簽約的一檔足球數據分析節目的一個欄目組裡。我曾經制作過 200 多期的足球數據分析視頻。在過去的比賽分析裡面,2016 年的歐洲盃,還有 2018 年的歐冠杯,這兩個大賽我僅僅是失誤了 4.5 場。現在我主攻真實球場數據,從這個方面去做比賽分析的。我也是秉持著科學的精神去做我的節目。如果大家有興趣的話,可以關注一下我的公眾號“比爾足球”。

先謝謝比爾。有了他在我邊上隨時解答我的一些問題,我心裡就有底多了,不至於鬧出一些笑話。

2018 年 5 月 17 日,全世界著名的投資銀行瑞銀利用大數據和人工智能技術,發佈了一份預測報告,結論是德國奪冠的概率是 24%, 其次是巴西 19.8%,西班牙 16.1%,英格蘭 8.5%。至於這個預測準確性如何,我們再過幾天就知道了。

其實,預測比賽勝負的軟件歷史非常悠久,可以說從計算機誕生開始,博彩公司就會利用計算機編寫預測軟件,輔助分析。

但為什麼現在卻要是說人工智能預測,好像是新誕生了一個什麼了不起的新鮮事物。很多人可能認為這只不過是宣傳的一個噱頭而已,並沒有什麼本質的區別。

沒有那麼簡單。這確實是一個新事物,人工智能預測和過去的電腦預測確實是有一些根本性的區別。過去,我們編寫一個足球預測軟件,我們需要請像比爾這樣的分析師,來仔細分析影響比賽勝負的因素有哪些,這些因素對勝負的影響權重是什麼。例如,比爾告訴我,按照一場比賽的重要程度,這些因素可以分為幾個檔次:

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

S級: 傷停及陣容的完整性,中場核心的實力,中場核心的狀態,以及可以和中場(核心)配合的人數。這裡面我老是提到的中場核心是為什麼呢?就是因為中場核心會是中場或者前腰或者後腰,他們在每一個隊伍的都是攻擊或者防守的起點,要是在起點出了差錯,後面就會影響流暢性,如果中場本身出現問題了,那後面,一環扣一環的戰術邏輯就不攻自破,就不能執行下去了。

A級: 球隊風格,教練經驗,球隊得分方案的多少, 球隊的防守球員的默契如何,

B級: 球員的休整時間, 球隊的鍛鍊機會, 球隊的大賽經驗, 年齡, 個性

C級: 氣候緯度時差, 球隊的精神面貌

你看,這些知識過去的電腦是不可能擁有的,因為電腦哪裡懂足球呢?它只能依賴於人編寫的一個數學模型,由人來創建一套計算勝負的算法,說白了,在傳統的預測軟件中,計算機只是起到了一個計算器的作用。如果你精通 EXCEL,再加上一個比爾,你們倆就能完成一個還不錯的預測世界盃勝負的電子表格。

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

但是到了人工智能時代,一個精通人工智能程序編寫的程序員,就可以不再需要一個像比爾這樣的一個懂足球的分析師,就能做預測軟件了。怎麼做呢?靠的就是“機器學習”,今天我們所謂的人工智能,它的本質其實是機器學習。

假如我現在就是這個程序員,我根本不需要知道剛才比爾講的那些因素到底哪些重要哪些不重要,我只需要隨便猜測有可能影響比賽結果的因素有哪些即可,哪怕初聽上去似乎八竿子打不著的因素我也可以列進去,比如球員有沒有孩子。下一步我就是收集過去幾十年中所有參與世界盃比賽的球隊的各種數據,只要是含有我懷疑與比賽勝負有關的數據就可以,越多越好。

再下一步,我利用一種叫做“深度學習”的計算機算法,讓計算機自己去分析這些因素與比賽勝負的關係。你可能沒有理解這是怎麼做到的,我給你舉個最簡單的例子,比如,計算機統計了過去世界盃所有比賽的數據,發現球員平均年齡越接近 30 歲,勝率就越高。注意,我這是打比方,不是說真的是這樣啊。那麼,當我要預測一場比賽的勝負時,我就統計一下比賽雙方球員的平均年齡,然後我就預測更接近 30 歲的那個隊伍獲勝。雖然我完全不知道這是為什麼,但是過去的數據統計的結果就是這樣。至於到底是什麼原因,計算機根本不管。

現在,這樣的深度學習算法都是現成的。最流行的機器學習的編程語言是 Python,你可以很容易在網上下載別人已經封裝好的程序庫。它就像一個黑盒,你只需要使用幾條簡單的程序語句,給這個黑盒輸入數據,指定一些參數,這個黑盒就能輸出它從這些數據中分析出來的你指定的那些關鍵詞的相關率。

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

而且你還可以不斷地讓機器自我學習迭代,比如你創建了好了世界盃預測 1.0 的程序,當世界杯開始以後,你就讓他根據自己的預測不斷地與實際比賽結果比較,如果預測準確就好像是下圍棋獲得了勝利,預測不準確就是失敗。機器就可以根據勝負的情況不斷地重新調整自己的算法。現在阿法狗的升級版就是通過自己和自己下圍棋來不斷地調整自己的算法,道理是相通的。過去啊,我們總覺得,沒有會下棋的人參與,怎麼能編寫下棋軟件呢?沒有精通中英文的人參與,怎麼能寫出翻譯軟件呢?那麼,在大數據和機器學習時代,真的就不需要了,計算機只關心統計結果,不關心他們的因果關係。

從這個例子中,我們可以得出這樣兩個結論:

1. 人工智能依賴已知的數據工作:你餵給它的數據越多,它就可以預測的越準確;反之,如果吃不到數據,它就無法工作。

2. 人工智能本質上只是一種數學統計模型的具體應用,本質上還是一個計算器——只是計算公式超複雜,運算速度超快而已。計算機並沒有 “思考”,也並不真正的懂足球。它甚至完全不知道它是在預測足球賽。它唯一知道的只是在不斷地調整一些關鍵詞與另一些關鍵詞之間的統計相關性。

因此,對於預測世界盃來說,真正困難的是找到足夠多的有效的數據餵給你的程序“吃”,你餵給機器學習程序的數據越多,越真實,他從中總結出來的規律就越準確。或許講到這裡,你就能理解了,為什麼現在我們總是聽到有人在說數據比技術值錢。關於這一點,我們也可以聽一下比爾是怎麼說的:

Bill:所有的人工智能現在為止都只能是有數據的基礎之上去做的,而且通俗點來講,這個數據的來源非常重要,要經過篩選,而且現在網絡上關於足球的數據可以說是漫天蓋地,大家對於數據的東西其實有誤解,並不是說數字才是數據,現在的數據很複雜,有數字,有圖像的,有聲音。只要是你可以量化的一些東西,就稱為數據。可以表達的一些東西,也可以稱為數據。

當你理解了所謂的人工智能預測世界盃的技術原理,你也就能發現這種預測方法的侷限性,那就是,它無法處理以前從來沒有出現過的數據。比如說,這次世界盃法國對陣澳大利亞,世界盃歷史上第一次通過錄像回放判罰了點球,那這個叫 VAR 的新規則就是一個過去從未出現過的對勝負產生影響的因素,計算機就處理不了,因為沒有過去的數據做參考。

那麼,關於人工智能預測世界盃的話題我淺嘗則止,就談到這裡。最後我給大家再放一些比爾跟我的談話,或許球迷朋友感興趣,非球迷不看也無所謂。

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

W:比爾,前兩天有一場爆冷的比賽,就是德國隊負於了墨西哥隊,那我想問一下,這種爆冷的結果會不會讓博彩公司賠錢呢?

B:爆冷這個東西,其實大家覺得博彩公司會賠錢是很傻很天真的。爆冷是指很低概率發生的事情。通常這些低概率的事情會有一個很好的回報,也就是說這個叫爆冷的賠率。這個博彩的賠率是一個可以變動的浮點,會隨著這個投注量的變化而變化,所以,他們會按照投注量,還有賠率,做出一個實時的平衡的方案,這需要用到計算機的這個技術。儘管不一定會絕對的平衡,但是它可以保證這個公司不會虧錢,不過這個大家可以想象的。但是有一點大家可能不知道的就是,一直有一些人會誤導大家說,人家這個平衡的方案,是按照這個勝平負的投入量去設計出來的,這是錯的,因為在這個賭局裡面,博彩公司不但要平衡勝平負,還要平衡諸如很多剛才所說的什麼進球數哇、比分啊、紅黃牌啊等等等等。越多的盤口對於博彩公司平衡一場比賽的盈虧就越有利。還有這還不算哈,一天裡面有多少場同時結算的一個比賽,很多很多,而且這些東西又不是說立刻就可以提現的,這個有一個結算週期,通常是一天之後才行。如果像是你在中國買了彩票,然後到這個競彩中心去領獎,這個過程,其實這個結算週期就更長了。所以博彩公司是一個極為龐大的吸金的大黑洞,所以那天如果它爆冷的一場比賽,對於它來說真的就是撓癢癢一樣。博彩公司更多的運營成本在於宣傳,還有政策溝通,這方面這些就不做討論了。再補充一個點,就是大的博彩公司,一般都要一天。小的博彩公司,真的有可能會虧錢,但是人家小的博彩公司也可以採取一些非法的手段,諸如後臺篡改這個投注的數據,導致到用戶不盈反輸,或者說讓你的投注無效,這些都是很可恨的,而且無根可尋,你告不了它。所以我還是建議大家去合法的一個投注站啊,去買彩票,這些都是有票據的。現在為什麼網上有很多通告說要整頓這些購彩的 APP 呢,原因就是很多的渠道都是灰色的,比如說你夠慘了,你不知道在哪一家彩票店出的票,還有後臺資金的準確性和安全性,提現的一個手續是不是合法的。如果以上所說有任何一個不合法,那你這個購票的行為,可能都是非法的,可能都不受法律保護。舉個例子吧,這個公司,你們要是在裡面有資金,萬一有一天它被查出了,它被封號了,那麼它受到了法律的制裁,但是沒人會理你,賬號裡面還有多少錢立馬就被封了,難道你還去報警啊?

W:也就是說呢,比爾先生提醒我們,不要去玩那種非法的賭球,如果要買世界盃的足彩呢,不是不可以,但是請通過合法的途徑去購買。不過比爾,我好像聽說呢,有些博彩公司啊,它反倒是喜歡爆冷,為什麼會這樣?

B:如果硬要這麼問的話,我覺得博彩公司還是會偏向於想爆冷的。要博彩公司在平衡做這個系統平衡性的時候,出現不同的賽果還是會影響它的盈利的,只不過它盈利多還是少的區別。但按照一個企業最終也希望它的利潤最大化的時候,它還是想爆冷的,只不過,實際意義上的爆冷跟大家平時聽到的爆冷可能就不一樣了。大家都是通過媒體宣稱的是爆冷這麼一回事,就覺得是爆冷。比如說德國這場比賽,我們在分析的時候,就已經判斷到了德國的中場有很大的問題,按照傷病還有中場的狀態來說,德國會出現平局,甚至輸球的概率都會很大。德國那天的比賽,在專業的數據分析上面,其實並不能稱作為爆冷。比如這屆世界盃的很多標題黨就會傳播,巴西奪冠啊,英格蘭已經沒落了這些消息,普通人看了就會願意相信他們自己想相信的部分,特別是一些陰謀論的一些軟文充斥著網絡。所以,這手段給大家爆料一下哈。就是博彩公司會有很多自己的一個合作網站,而且這個網站的都會偽裝成為數據網站,比如說有一個叫Whoscored的,公司就是跟(bet)365在合作。嗯,實際上的這個公司它是不產生數據的,它們的一些數據是要去到另外的數據公司去買接口,然後自己拿回來用,例如說opta 就是它的一個數據的提供商,然後拿到數據以後,它們會安排自己的軟件工程師做二次的開發,最終變成了一種圖文並茂的數據,給用戶去看,給用戶去分析。你要說這些數據的真實性啊,還並不是用戶可以自己參透的。

W:這個看來每一行都有很深的水,那謝謝比爾能夠參與我們的節目。

B:如果大家喜歡足球,喜歡世界盃,那你可以關注一下我的公眾號,“比爾足球”。

W:好,那這就是本期的聽眾問答,咱們下期再見。

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事

聽眾問答 38:答人工智能預測世界盃到底是怎麼回事


分享到:


相關文章: