世界盃押注還得看技術流,這個預測AI把賠率也算上了

胡澎 發自 凹非寺

世界盃小組賽將收官,你還依然信AI嗎?

冷門頻出,黑馬擊敗豪強。不少AI模型始料未及。

到底還能不能愉快找到科學規律?或者說足球比賽乃至其他競技體育賽事,數據科學家在AI加持下,究竟能做到多大程度的預測?

瓶頸在核心數據匱乏

如果讓謝波回答這個問題,他會告訴你:“單利用神經網絡模型對世界盃的勝負、比分進行預測,存在一定難度。”

謝波是北京猜猜科技CEO,他認為世界盃預測難,最根本的原因是核心數據的匱乏:比如國家隊之間的歷史交戰記錄非常稀疏,無法提供足夠多的信號支持預測的結果。

以本屆世界盃開幕戰俄羅斯對陣沙特阿拉伯的比賽為例,兩隊上次交手是在1993年的一場友誼賽,距今已經25年。神經網絡模型很難在這樣的數據基礎上發揮它的威力。

但球賽預測也不是完全毫無辦法,在動手實踐後,謝波團隊發現,如果把包括五大聯賽在內的職業聯賽當做預測樣本,效果將大大不同。

五大聯賽指的是歐洲五大職業足球聯賽,分別包括英超、西甲、德甲、法甲和意甲聯賽。這些聯賽有比較完整的商業化體系,也有比較領先的數據採集和數據流轉的商業化機制。

所以第一步,獲取數據。

相對挑戰的是,體育行業的數據相對金融等其他領域,具有來源眾多、標準各異、置信度參差不齊等特點,導致很難從某個權威的數據公司獲取到一份全面、準確並且標準化的數據。

舉個例子,描述一場比賽的賠率數據和基本面數據存在於不同的來源。不同來源的數據需要通過一個非常嚴密數據流程進行關聯和加工,僅僅隊名這個最簡單的字段在不同來源的叫法都不一樣,任何一個小的數據偏差或者丟失都會導致最終神經網絡預測結果偏差,影響準確率。這裡面的技術活非常的具有挑戰性。

此外,還要考慮足球比賽的實時性。所以在已經積累了歐洲主流聯賽近10年的數萬場比賽歷史數據後,猜猜科技的模型還加入了百萬量級的賽中實時數據。

然後進入第二步,預測回報率導向。

體育競猜領域有幾個常見的誤區。比如,比賽的賠率是博彩公司通過對於比賽本身的判斷以及大眾投注的選擇等因素,綜合考慮後給出的比賽投注回報。

例如博彩公司開出主隊贏2.25的賠率,其意義就是投注者如果投主隊獲勝,且比賽結果真是主隊獲勝,則投注者可以獲得其投注額的2.25倍的回報。

而對比賽結果進行一定的判斷,給出一定的概率估算,這裡預測的是概率。

在此基礎上,更為重要的一個概念是價值回報率,該指標則是綜合考慮了賠率和結果概率,對於每場比賽的勝負平等結果,都是其對應賠率和預測概率的乘積。

價值回報率可以認為是賠率的可套利空間,或者說是賠率的期望回報值。

於是從預測回報率的角度出發,公式如下:

Returns = Max { Σ Odds | Pro, Val, α } ,其中Odds為預測結果的賠率,Pro為預測的概率,Val為預測的價值回報率,α為選擇的策略。

緊接著,就可以看看這個專為預測而打造的模型了,分為兩部分:

基於深度學習技術的比賽預測模型,以及基於價值回報率的投注策略模型。

一個個看。

基於深度學習的比賽結果預測模型

深度學習技術作為傳統神經網絡算法的延伸和擴展,當前在圖像識別、語音識別、自然語言處理等領域獲得了巨大的成功。

將深度學習技術引入到足球比賽的結果預測中,可以綜合利用歷史的比賽記錄,以及各種實時的數據信息,進行訓練和計算。經過數萬場比賽的洗禮,龐大數據量的分析,以學習掌握決定勝負的關鍵因素。

無論是賽前球員的傷病,還是教練的奇招,眾多的線索都可以從海量的數據中能獲得“蛛絲馬跡”,幫助模型得到準確的預測結果。

世界盃押注還得看技術流,這個預測AI把賠率也算上了

圖:基於深度神經網絡的比賽預測

當前猜猜科技的深度學習模型通過對過去兩萬多場比賽的訓練,利用百餘維特徵,包括球隊的基本面(射門數、搶斷數、助攻數、控球率等等),幾十個渠道(歐賠、亞賠等)的賠率信息,以及歷史上的戰績。

經過神經網絡的編碼和序列解碼,以及有效的注意力機制的引入,可以對比賽結果進行準確的預測(包括結果和比分)。

進一步,團隊後續還利用多組子模型進行多層次的結果融合,獲得最大的性能收益。當前最優的模型可以穩定的達到68%的預測準確性。已經超過了人類專家的頂級水平。

引入價值回報率的最優投資組合的搜索

在已知結果概率和賠率的情況下,選擇哪些比賽進行投注,投注的比例又是如何,這是投注策略所關注的問題。

不同的預測概率,會有不同的價值回報值,根據不同的價值回報率,我們會採取不同的下注策略,這就涉及到一個最優投資組合的搜索問題。

搜索的空間是根據賠率,預測的概率,價值回報率以及不同的預測模型等組合而成,如何在百萬計的投資組合中進行最優搜索,成為核心問題。

世界盃押注還得看技術流,這個預測AI把賠率也算上了

圖:基於遺傳算法的參數組合搜索

猜猜科技利用剪枝優化的策略,結合遺傳算法等多種搜索策略,對最優參數空間進行檢索。

遺傳算法等並不基於梯度進行計算,算法本身能擴展到巨大的參數空間。重點設計並優化算法的初始條件、選擇運算、交叉運算以及變異運算的關鍵步驟,並且將啟發式的裁剪策略運用在遺傳算子中,最大限度優化搜索的空間和時間消耗,最終獲得最高投資回報比的投資組合參數。

世界盃押注還得看技術流,這個預測AI把賠率也算上了

為了測試這套模型, 猜猜科技對 2012 年到 2018 年期間 2 萬場足球比賽進行了模擬訓練,在測試集300場比賽進行測試,回報率為41%。

在足球領域,這個回報率已非常不俗。

背後團隊

CTO郭楊透露,打造該預測模型,只是因時制宜的牛刀小試,希望打造一個類似AlphaGo的圍棋培訓和教學工具,最終目的是能夠幫助國內的彩民群體提升他們的賽事分析能力和投注技巧。

但只是一個機器輔助決策類的應用,後續更廣泛的場景,是希望將能力應用到更多有意思的領域,比如電子競技、創造101選秀競猜、加密貨幣價格走勢中……

實習生招聘

量子位正在招募市場運營實習生,策劃執行AI明星公司CEO、高管等參與的線上/線下活動,有機會與AI行業大牛直接交流。一份豐富的實習經歷等你解鎖~

工作地點在北京中關村。簡歷歡迎投遞到[email protected]

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: