絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

在很多APP或者網站中常能看到泊松分佈在足球預測中的應用,很久以前筆者就曾研究過泊松分佈,本文筆者將對其進行更深入的探討,運用泊松分佈的原理建立預測模型,詳細說明建立過程並分析預測結果,拋磚引玉,相互探討。

絕了!巧用大數據實現精準預測的新門路—泊松分佈研究


首先,我們大概瞭解一下什麼是泊松分佈。泊松分佈是以法國數學家泊松(1781~1840)命名的,他是19世紀概率統計學領域裡的卓越人物,在數學統計領域中以他命名的理論除了泊松分佈外,還有泊松定理、泊松公式、泊松方程、泊松過程、泊松積分、泊松級數、泊松變換、泊松代數、泊松比、泊松流、泊松核、泊松括號、泊松穩定性、泊松積分表示、泊松求和法等等。


簡單來說泊松分佈就是假設我們知道某一個事件的平均發生次數,並且假設事件與事件之間發生是相互獨立的,那麼我們就可以計算出這些不確定事件的發生概率分佈。泊松分佈被運用到很多小概率事件上,比如二戰中的V-2導彈襲擊倫敦、交通事故的概率、放射性衰變等。同理,在足球場上的進球從某種程度上來說就是小概率事件,所以我們可以把定義中提到的事件換成進球。


也就是說,在足球比賽中,如果我們知道對陣雙方各自的預期進球數,那麼1)我們就能通過運算得到一個囊括所有可能比分的概率分佈圖(例如圖1,每種比分都有對應的概率,左下方是主隊獲勝比分,右上方是客隊獲勝比分,夾在中間的是平局比分);2)根據比分概率分佈圖,進而可以得出勝平負所對應的概率;3)同樣還能得到大小球、雙方都進球玩法的概率。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖1 泊松分佈 - 比分概率分佈圖


1. 泊松分佈詳細步驟


1)選擇目標聯賽:筆者以26個聯賽為研究標的,包括五大聯賽、五大聯賽各自二級別聯賽、荷甲、荷乙、葡超、蘇超、挪威超、俄超、瑞典超、瑞士超、土超、英甲、希臘超、巴甲、中超、日職、日職乙、澳超。

2)確定數據樣本範圍:筆者用2014/15至2018/19這5個賽季作為被預測賽季,假設還未進行(如果是非跨年聯賽則為2014至2018賽季),樣本數據庫從2013/14開始向前追溯至2006/07賽季。分別以被預測賽季過去1、3、5、8個賽季跨度的數據為樣本進行泊松分佈的概率計算(共計4個樣本,且樣本包含被預測賽季已賽場次)。假設2014/15是一個還未進行的賽季,作為被預測賽季,筆者以過去1個賽季(2013/14)的數據為樣本來計算泊松分佈概率,並且隨著模擬預測場次的進行會把2014/15已賽場次包含在樣本中,同時筆者還會以過去3個賽季(2011/12至2013/14)、過去5個賽季(2009/10至2013/14)、過去8個賽季(2006/07至2013/14)的數據為樣本分別進行計算。這是一個動態的過程,如果被預測賽季為2015/16賽季,那麼數據樣本分別選自於過去1個賽季(2014/15)、過去3個賽季(2012/13至2014/15)、過去5個賽季(2010/11至2014/15)、過去8個賽季(2007/08至2014/15)。


(注:通常在研究泊松分佈時研究人員會選擇某一個樣本範圍,例如3個賽季或是5個賽季,筆者之所以選擇4個樣本跨度是希望觀察球隊的概率變動趨勢,與下文的研究方向有關)


3)統計數據:確定好4個樣本跨度後(被預測賽季之前的1、3、5、8個賽季),需要統計各個樣本中各支球隊的主場場均進球數及主場場均失球數,以及整個樣本中所有球隊的平均主場場均進球數及平均主場場均失球數。同理,統計各支球隊的客場場均進球數及客場場均失球數,以及整個樣本中所有球隊的平均客場場均進球數及平均客場場均失球數。

絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

假設我們要預測西甲2018/19賽季,以皇馬為例(其它球隊同理),那麼1、3、5、8這4個樣本對應的統計結果分別為:


Ø (1)2017/18賽季:皇馬主場場均進球2.84,主場場均失球1.05,客場場均進球2.11,客場場均失球1.26,聯賽平均主場場均進球1.55(=聯賽平均客場場均失球),聯賽平均主場場均失球1.15(=聯賽平均客場場均進球)


Ø (3)2015/16至2017/18賽季:皇馬主場場均進球2.86,主場場均失球0.98,客場場均進球2.42,客場場均失球1.11,聯賽平均主場場均進球1.60,聯賽平均主場場均失球1.18


Ø (5)2013/14至2017/18賽季:皇馬主場場均進球3.06,主場場均失球0.93,客場場均進球2.44,客場場均失球1.13,聯賽平均主場場均進球1.59,聯賽平均主場場均失球1.16


Ø (8)2010/11至2017/18賽季:皇馬主場場均進球3.22,主場場均失球0.92,客場場均進球2.37,客場場均失球1.07,聯賽平均主場場均進球1.62,聯賽平均主場場均失球1.15


4)計算各支球隊的相對優勢:相對優勢包括主隊主場進攻相對優勢(數值越大越好)、主隊主場防守相對優勢(數值越小越好)、客隊客場進攻相對優勢(數值越大越好)、客隊客場防守相對優勢(數值越小越好)。

絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

仍以皇馬為例(其它球隊同理):


Ø (1)2017/18賽季:


皇馬主場進攻相對優勢 = 皇馬主場場均進球/聯賽平均主場場均進球 = 2.84/1.55 = 1.83


皇馬主場防守相對優勢 = 皇馬主場場均失球/聯賽平均主場場均失球 = 1.05/1.15 = 0.91


皇馬客場進攻相對優勢 = 皇馬客場場均進球/聯賽平均客場場均進球 = 2.11/1.15 = 1.83


皇馬客場防守相對優勢 = 皇馬客場場均失球/聯賽平均客場場均失球 = 1.26/1.55 = 0.81


Ø (3)2015/16至2017/18賽季:


皇馬主場進攻相對優勢 = 皇馬主場場均進球/聯賽平均主場場均進球 = 2.86/1.60 = 1.79


皇馬主場防守相對優勢 = 皇馬主場場均失球/聯賽平均主場場均失球 = 0.98/1.18 = 0.83


皇馬客場進攻相對優勢 = 皇馬客場場均進球/聯賽平均客場場均進球 = 2.42/1.18 = 2.05


皇馬客場防守相對優勢 = 皇馬客場場均失球/聯賽平均客場場均失球 = 1.11/1.60 = 0.69


Ø (5)2013/14至2017/18賽季:


皇馬主場進攻相對優勢 = 皇馬主場場均進球/聯賽平均主場場均進球 = 3.06/1.59 = 1.92


皇馬主場防守相對優勢 = 皇馬主場場均失球/聯賽平均主場場均失球 = 0.93/1.16 = 0.80


皇馬客場進攻相對優勢 = 皇馬客場場均進球/聯賽平均客場場均進球 = 2.44/1.16 = 2.10


皇馬客場防守相對優勢 = 皇馬客場場均失球/聯賽平均客場場均失球 = 1.13/1.59 = 0.71


Ø (8)2010/11至2017/18賽季:


皇馬主場進攻相對優勢 = 皇馬主場場均進球/聯賽平均主場場均進球 = 3.22/1.62 = 1.99


皇馬主場防守相對優勢 = 皇馬主場場均失球/聯賽平均主場場均失球 = 0.92/1.15 = 0.80


皇馬客場進攻相對優勢 = 皇馬客場場均進球/聯賽平均客場場均進球 = 2.37/1.15 = 2.06


皇馬客場防守相對優勢 = 皇馬客場場均失球/聯賽平均客場場均失球 = 1.07/1.62 = 0.66


5)計算主客雙方各自預期進球數:我們需要計算主隊主場預期進球數以及客隊客場預期進球數


假設預測皇馬vs西班牙人,那麼使用上一點中得出的數據代入圖2公式即可算出,當然,筆者仍然要對4個不同的數據樣本分別進行計算。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖2 預期進球公式


6)計算泊松分佈概率:這個過程可以用EXCEL公式實現,公式如圖3


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖3 泊松分佈EXCEL公式


假如,我們要計算皇馬vs西班牙人比分為3:1的概率,並且我們已經通過上述步驟計算出了雙方的預期進球數,皇馬主場預期進球數為3.05,西班牙人客場預期進球數為0.8,那麼就在EXCEL單元格中輸入圖4公式,其中比分3:1對應的x1和x2分別為3和1,其它比分同理。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究


圖4


計算得出3:1的概率為8.05%,按照相同方法我們可以求出所有比分概率,然後將主隊獲勝比分概率相加即為主勝概率,將平局比分概率相加即為平局概率,將客隊獲勝比分概率相加即為客勝概率。同樣,將雙方都進球比分概率相加即為都進球概率,將進球數大於2.5球的比分概率相加即為大2.5球概率。


依據6個步驟對所有預測場次進行計算,形成一個動態模型,當新的預測賽季被加入時,原先樣本數據中最早的一個賽季將自動被剔除。至此,26個聯賽中近5個賽季(被預測賽季)的泊松分佈概率都已計算完畢,由於篇幅有限,圖5是部分節選以供參考。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖5


2. 概率變動趨勢與結果


首先,計算出來的泊松分佈概率可以協助我們評估被預測場次的賽果概率,例如通過對比被預測場次的平均歐賠概率與泊松分佈概率之間的差別來為分析提供幫助,但由於這裡會涉及到很多難以量化的指標,比如傷病影響、戰意變化、天氣、心理博弈等因素都會是差別產生的原因,所以在具體分析中還應因場而異。這裡筆者主要從大概率角度為大家提供宏觀思路

絕了!巧用大數據實現精準預測的新門路—泊松分佈研究


在所有讓球盤口中,筆者將-1.25至-3.75(主隊讓球)以及1.25至3.75(主隊受讓)統稱為深盤,1球及以下盤口中,平手盤,半球盤及一球盤相對來說盤路概率比較均衡,而平半盤(包括-0.25和0.25)和半一盤(包括-0.75和0.75)則分別代表著下盤與上盤屬性,這兩個盤口我們更多要順勢而為,如果非要反概率而為那是跟自己過不去。所以如圖6所示,平半盤、半一盤、深盤為三個主要研究目標。


圖6中的“歷史概率”指的是26個聯賽中近5個賽季對應盤口的盤路概率,例如主讓平半-0.25,上盤42.13%、走盤0%、下盤57.87%,也就是說這是未經過任何篩選處理的歷史天然概率,平半盤的下盤歷史概率與半一盤的上盤歷史概率大約都為57%左右。


*主勝概率連升

”指的是被預測場次的歐賠初盤平均主勝概率>依據過去1個賽季數據樣本計算的泊松分佈主勝概率>依據過去3個賽季數據樣本計算的泊松分佈主勝概率>依據過去5個賽季數據樣本計算的泊松分佈主勝概率>依據過去8個賽季數據樣本計算的泊松分佈主勝概率。換句話說,主隊在近期賽季的表現連續好於早期賽季。


*主勝概率連降”指的是被預測場次的歐賠初盤平均主勝概率<依據過去1個賽季數據樣本計算的泊松分佈主勝概率<依據過去3個賽季數據樣本計算的泊松分佈主勝概率<依據過去5個賽季數據樣本計算的泊松分佈主勝概率<依據過去8個賽季數據樣本計算的泊松分佈主勝概率。換句話說,主隊在近期賽季的表現連續劣於早期賽季。


*客勝概率連升”指的是被預測場次的歐賠初盤平均客勝概率>依據過去1個賽季數據樣本計算的泊松分佈客勝概率>依據過去3個賽季數據樣本計算的泊松分佈客勝概率>依據過去5個賽季數據樣本計算的泊松分佈客勝概率>依據過去8個賽季數據樣本計算的泊松分佈客勝概率。換句話說,客隊在近期賽季的表現連續好於早期賽季。


*客勝概率連降”指的是被預測場次的歐賠初盤平均客勝概率<依據過去1個賽季數據樣本計算的泊松分佈客勝概率<依據過去3個賽季數據樣本計算的泊松分佈客勝概率<依據過去5個賽季數據樣本計算的泊松分佈客勝概率

<依據過去8個賽季數據樣本計算的泊松分佈客勝概率。換句話說,客隊在近期賽季的表現連續劣於早期賽季。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖6 26個聯賽近5賽季統計結果


如圖6,通過四種概率變化趨勢分類的篩選,各盤口概率的變化情況如下:


Ø 主讓平半-0.25:在主勝概率連升的情況下,下盤概率(客贏盤)從57.87%升至63.92%,反向變化。


Ø 主受讓平半0.25:在客勝概率連降的情況下,下盤概率(主贏盤)從56.40%升至64.29%,正向變化。


Ø 主讓半一-0.75:在主勝概率連升的情況下,上盤概率(主贏盤)從57.91%升至63.00%,正向變化。


Ø 主受讓半一0.75:在客勝概率連升的情況下,上盤概率(客贏盤)從56.04%升至70.18%,正向變化。


Ø 主讓球深盤-1.25至-3.75:在主勝概率連降的情況下,上盤概率(主贏盤)從46.70%升至61.90%,反向變化。


Ø 主受讓深盤1.25至3.75:在客勝概率連升的情況下,上盤概率(客贏盤)從51.95%升至62.03%,正向變化。


這個結論可以讓我們有依據地去獲得更多的概率庇護,當然,泊松分佈模型(以及其它模型)搭建所需要的數據量會阻礙很多玩家,大家可能會抱怨這東西在實操中沒法自己運用,筆者最近一直在深入研究諸如此類宏觀大概率方向的課題,也在構思可否通過建立個人微信公眾號平臺為大家提供實時數據的可能性。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究


3. 主讓平半: 均注平局


上一點中主讓平半-0.25盤口通過加入“主勝概率連升”條件後下盤概率(客贏盤)從天然概率57.87%升至63.92%,如果同時加上條件“

客勝概率連降”,在更加強化主隊優勢後下盤概率(客贏盤)進一步升至67.74%。但更引人注意的是,平局概率高達45.16%(62場28平),均注平局累計盈利26.53手資金,回報率42.79%。其中多數情況主隊名次高於客隊(35場/62場=56.45%),這也符合概率優勢,這些場次均注平局累計盈利31.69手資金,回報率高達90.54%。當然,篩選條件的增加必然導致場次數量的減少,從某種程度上來說結果所反應的概率可能不夠穩定。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖7 均注平局


4. 主讓半一: 均註上盤


第2點中我們知道,主讓半一-0.75盤口在“主勝概率連升”的情況下,上盤概率(主贏盤)從57.91%升至63.00%,屬於正向變化。這個條件要求本場比賽的歐賠初盤平均主勝概率連續高於1、3、5、8樣本所對應的泊松主勝概率(也就是本場>1>3>5>8),限制比較嚴格。


如果我們只考慮本場比賽的歐賠初盤平均主勝概率高於4個泊松主勝概率,而不要求連續高於過去(即本場>1、本場>3、本場>5、本場>8,但不要求本場>1>3>5>8),同時由於該盤口屬於正向變化,再加上本場比賽的歐賠初盤平均平局概率高於4個泊松平均概率,以及本場歐賠初盤平均客勝概率低於4個泊松客勝概率(簡稱高/高/低),充分表達了對主勝概率優勢的正向變化。


如圖8第一場,2015/16英超斯旺西2-4桑德蘭,本場歐賠初盤平均主勝概率54.43%大於依據過去1、3、5、8賽季數據樣本計算的任何一個主勝概率53.38%、52.81%、50.64%、53.26%,但並不要求連續大於。


圖8共計117場比賽,澳門初盤主讓半一,上盤打出概率為70.09%,均註上盤累計盈利24.06手資金,回報率20.56%。


絕了!巧用大數據實現精準預測的新門路—泊松分佈研究

圖8 主讓半一


本文主要通過建立泊松分佈,計算多個樣本跨度下的泊松概率,並結合被預測場次的歐賠平均值,來為賽果分析提供幫助。不過,模型的建立都需要前提假設,泊松分佈假設事件與事件之間的發生是相互獨立的,而實際上當一方取得進球后,另一方肯定會受到影響,所以該事件並不是相互獨立的。另外,很多參數也是模型無法進行量化的。所以,並不存在完美的模型,畢竟足球賽果中運氣也是決定因素之一。不過,筆者相信有依據地去獲得更多的概率庇護肯定要強於漫無目的地投注。


分享到:


相關文章: