全球首屆AI金融實戰技術大賽冠軍方案分享,三個月拿走50萬

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

新智元AI WORLD 2018世界人工智能峰會

上月底,2018全球金融數據探索與發現大賽(FDDC)的決賽落幕,10支隊伍激烈角逐,也讓現場觀眾見證了AI將如何改變資產管理的未來。

FDDC大賽是全球首場專注金融領域、深入投資實戰的技術大賽,由中國證券投資基金業協會(以下簡稱“基金業協會”)金融科技專業委員會主辦,易方達基金、華夏基金、通聯數據、阿里雲共同承辦,獎金池一共高達84萬元。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

大賽共有兩個任務,一是利用AI對上市公司進行營收預測,另一個是對上市公司公告進行信息抽取。這兩個都是資產管理中最基本而又最重要的兩項工作,往往會決定投資決策的成敗。

FDDC大賽,旨在挖掘更多頂尖算法人才,提升資產管理行業的科技化程度。在3個多月的時間裡,大賽吸引了全球4231支隊伍參與,經過線上初賽和複賽,共有10支隊伍進入最終決賽。

最終,來自武漢大學計算機學院軟件工程實驗室的Alassea lome團隊,將預測誤差降低至7%,獲得上市公司營業收入預測賽題第一名,而一人團隊GOGOGO則摘得上市公司公告信息抽取賽題桂冠。

數值預測準確率最高 獨特數據處理,將營收預測誤差僅7%!

Alassea lome團隊來自於武漢大學計算機學院軟件工程實驗室,團隊的導師為蔡恆進,主要研究領域是人工智能、金融信息工程及服務科學。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司營收預測賽題第一名Alassea Lome團隊

這次的“上市公司營收預測”賽題,官方到的數據包括三大財務報表、宏觀數據、行業數據、公司經營數據、行情數據等。比賽評測指標是選手對公司二季度的營業收入比率誤差的計算,如何準備預測公司半年報實際營收,是這道賽題取勝的關鍵。

在訓練集生成上,團隊首先把三大財務報表裡面的數據提取出來,接下來引入申萬的行業分類這一類別特徵。值得注意的是,申萬的一級行業分類由28個被團隊拆分成30個,同時還加入了能夠表徵行業數據的指數行情,以及行業估值信息,這裡面所有的指標都會經過團隊的獨特處理。

在公司的維度,團隊加入滬深股票日行情以及個股日資金流向,同時引入財務衍生數據和多因子數據。這些特徵的比起基本財務數據的優勢在於,它們是經過優秀的研究員精心挑選和計算過,可能更具有解釋力。

除了剛剛提到的特徵,團隊還加入了滑窗特徵。滑窗特徵是什麼呢?

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

以預測公司二季度的營收為例,除了告訴模型一季度營收之外,還告訴公司前四季度的營收。之所以這樣做的原因是,金融數據是一個時序非常強的序列,因此團隊還告訴模型它的歷史上的一些信息。相應的,團隊還加入了比率滑窗的特徵。

訓練方式採取了滑窗模式,五年一滑,但是有三個驗證集。模型的最優參數是在三個驗證集上的平均loss最小的參數,還列舉了不同的模型算法它的表現。

選了那麼多特徵之後,怎麼把最重要的特徵篩選出來呢?

首先團隊會多輪預跑,得到所有特徵的重要性。然後選出來重要特徵重新生成訓練集,在訓練集上進行網格搜索,確定最優的模型參數。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

模型部署方面,時序模型不需要訓練,它的loss大概在0.48左右。團隊的主模型是xgb,輔助模型是Random Forest。模型融合是線性分類器,模型保存了最終部署的27個模型,從行業的角度去選擇最終利用哪個模型。

最終,團隊的複賽得分是0.43,如果換算成營業收入的誤差,在7%以內。

從不同公告找到共性知識結構,做直接的實體全量標註

賽題二是上市公司公告重要信息抽取。

本賽題要求對“股東增減持”、“重大合同”和“定向增發”3 個類型的公司公告進行信息抽取,實際上是對公司關鍵事件進行結構化提取。

GOGOGO團隊獲得本賽題第一名。他們首先是對HTML結構的提取,包括一些數據清理和轉換、表格識別等。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司公告信息抽取賽題第一名GOGOGO團隊

在算法中,團隊運用了反向標註,然後建立一個NER的模型預測實體。GOGOGO的標註不同之處在於,他們做了直接的實體的全量標註。因為現有的很多通用的實體識別,是識別出一個公司名稱或者是不是數值,團隊直接把它的類型給定義清楚。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

實體標註技巧是模型裡面比較重要的地方之一,另一方面,團隊還用到奧卡姆剃刀原則。

奧卡姆剃刀原則主要表現在人傾向於用一個簡單的方法表現一個內容,會用簡單的方法不會用複雜的方法。比如,有很多合同裡面沒有乙方的表示,默認發公告的一方就是乙方。

模型驗證策略方面,團隊在研究這個問題的時候,發現召回率是很重要的,信息一旦漏掉了是撈不回來的,因此可以通過人工的方法提高它。第二是模型效率的問題,因為用到很多抽象的方法,很多情況下並沒有通篇讀,所以速度非常高,基本上控制在秒級。整個過程中大部分時間還是在實體識別裡面。

10支團隊瓜分近百萬獎金,AI再度深入投資實戰

FDDC大賽是全球首場專注金融領域、深入投資實戰的技術大賽,歷時3個多月,4231支隊伍經過線上初賽和複賽,共有10支隊伍進入決賽,於8月29日在北京進行現場答辯,8月30日,兩道賽題的前三名共6個團隊參加了終極對決。

本次大賽特設84萬獎池,冠軍更是能獲得高達25萬的豐厚獎金。

這次比賽結果是:

賽題一(上市公司營收預測)

第一名:Alassea lome團隊:吳雲、萬珊紅、洪成晨、潘航、劉帥

第二名:Quant_duet團隊:林漢軒、邱爽

第三名:智能金融團隊:汪志文

大賽評委之一,香港科技大學副教授、惠理投資中心副主任尤海峰點評:

智能金融團隊根據財務報表相互關聯的特點,創造性的把GPDT和DNN兩種算法結合起來,先用GPDT的算法自動的構造組合特徵,在此基礎上結合DNN深度學習的方法進行預測,取得了很好的效果。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司營收預測賽題第三名智能金融團隊

Quant duet團隊首先把財務數據進行了拆分,把歷史的營收和其他的財務數據給分割出來,剔除了歷史營收的財務數據,構建了多因子的預測模型,然後又把單獨拿出來的歷史營收數據和市場數據相結合,用一個全連接網絡深度學習的模型做預測,最後把兩個預測模型給整合起來。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司營收預測賽題第二名Quant duet團隊

這種數據拆分其實是提高了兩個模型的獨立性,從而在整合的時候、融合的時候能夠達到分散錯誤的效果。

Alassea Lome團隊展現了機器學習算法和領域知識很好結合起來的能力。首先他們對數據做了很好的理解、很好的處理和去噪音各種各樣的處理,然後根據他們對不同類型的公司理解,在特徵選擇上和算法選擇上都進行了個性化的處理,從而達到很好的預測效果。

賽題二(上市公司公告信息抽取)

第一名:GOGOGO團隊:黃澤熾

第二名:Heisenberg團隊:馮霽、李永剛、蘇洋洋

第三名:Miyabi團隊:李灝舟、王奪、叢冠男、胡一川

最具創意極客獎:東風又綠江南岸團隊(林建生、宋雲生、宮保偉、林剛),智能ABC團隊(周武潔、郭炫志);

最具潛力極客獎:KingofWind團隊(李立),ASD123團隊(肖豔清、楊艦);

通聯數據CEO王政點評上市公司公告信息抽取賽題複賽前三團隊:

Miyabi團隊用表格和分類的方法來抽取,能夠快速抽取結果;分類的方法能判斷哪些可以抽取。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司公告信息抽取賽題第三名Miyabi團隊

Heisenberg團隊有兩個亮點:1、有實用價值的系統架構,能很快用到工業界。2、在實體識別的方法比傳統的有很大提升。

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

FDDC大賽上市公司公告信息抽取賽題第二名Heisenberg團隊

GOGOGO團隊把不同公告的問題找到了一些共性的知識結構,能快速把複雜問題降維。另外,通過章節的識別提升效率。

王政表示,通過這次FDDC大賽,AI在金融領域的應用得到了新的發展,但是以後問題會越來越難、越來越多,期待更多算法專家加入金融行業,推動金融科技的發展。

新智元AI WORLD 2018世界人工智能峰會

倒計時 13

門票已開售!

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智能峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網:

http://www.aiworld2018.com/

全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万
  • 活動行購票鏈接:

    http://www.huodongxing.com/event/6449053775000

  • 活動行購票二維碼:


全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万


分享到:


相關文章: