自然語言處理(NLP)在金融投資領域的應用

引言


2017年被稱為中國金融科技的元年,這兩年來,以人工智能為代表的新技術對金融業產生越來越重要的影響,人工智能不是一個新名詞,在歷史的長河裡,它從人們曾忘卻的暗流慢慢匯聚成今天的大江大河。自然語言處理作為人工智能的支流,也隨著它的發展浪潮逐漸展現它的潛能。這次浪潮如此之大,讓全球的金融行業都感受到它的溼意,雖然人工智能不能全部替代人工,自然語言處理也不能完全認知這個複雜的世界,但是它的發展之勢勢不可擋,作為金融行業從業者應該提前預判未來,早做投入,才能在未來金融科技的“軍備競賽”中有足夠的彈藥儲備,立於不敗之地甚至引領行業發展。


一、人工智能發展的三次浪潮,自然語言處理迎來黃金髮展期

人工智能真正的發展還是要到1936年,英國數學家、計算機之父艾倫圖靈在他的一篇《理想計算機》的論文中,就提出了著名的“圖靈機模型”,1945年他進一步論述了電子數字計算機設計思想,1950年他又在《機器會思考嗎?》一文中提出著名的“圖靈測試”——一個人在不接觸對方的情況下,通過一種特殊的方式,和對方進行一系列的問答。如果在相當長時間內,他無法根據這些問題判斷對方是人還是計算機,那麼就可以認為這個計算機具有同人相當的智力,即這臺計算機是智能的。這一測試的本質是讓人類測試機器是不是智能的,自此“人機大戰”成了人工智能的試金石,在人工智能的發展史中一幕幕地上演。


而“人工智能”一詞真正被提出來,是在1956年Dartmouth的會議上,由四位圖靈獎得主、信息論創始人和一位諾貝爾獎得主一起將人工智能的名詞定義出來,包括明斯基、西蒙、麥卡塞等等,這次會議被公認為人工智能研究的出生典禮。


如圖所示,自Dartmouth會議以來,人工智能的發展起起伏伏,一共經歷了公認的三次浪潮。


自然語言處理(NLP)在金融投資領域的應用


第一次是發明了神經網絡感知機,看起來很像人的神經,卻不能模擬稍微一點複雜的問題,所以很快進入第一次低潮。


第二次浪潮是伴隨著計算機的興起,1997年,IBM的深藍在決定勝負的第六個回合中,只用了22步便迫使卡斯帕羅夫投子認負——這是棋王職業生涯裡最快的失利,讓全世界人類對人工智能的追捧達到了一定的高峰,但是這時候發明的BP神經網絡或者其他網絡最大的問題是,數據量少,深度不夠,解決不了太多問題,因此2000年左右又破滅了。


第三次浪潮算是看到了希望的曙光:隨著2006年Hinton提出的深度學習的技術,以及在圖像、語音識別以及其他領域內取得的一些成功,大家認為經過了兩次起伏,人工智能開始進入了成熟期。這個階段性的成功是基於深度學習理論、海量大數據、Gpu高速並行算力三個合力來實現的,2018年AlphaGo在人機圍棋比賽中連勝李世石3局,體現了人工智能在圍棋領域的突破,作為人工智能領域的工作者,我們深感欣慰,其實質是深度學習網絡(CNN)跟蒙特卡羅搜索樹(MCTS)結合的勝利,是人類智慧的進步。同時人工智能不僅僅在比賽領域,也能解決一些實際問題,比如人臉識別算法、自動駕駛車輛目標檢測等。


這時候自然語言處理的發展也同步被提升,怎麼把一個詞語表示成一組數學符號,並聯繫上下文,這是一個問題,2013年穀歌提出的word2vec就是一個非常大的進步,現在很多人還在用這個詞向量模型,讓NLP真正激盪出令人期待的火花。接著2014年seq2seq,可以解決中英文翻譯的問題,谷歌的NMT模型超越了以往所有語言模型的效果,這導致國內有道、金山詞霸、搜狗翻譯都用了NMT模型,而拋棄了以前基於統計的SMT模型。2017年的Elmo,2018年的Bert模型被認為開啟了NLP新時代,2019年2月的Gpt2模型,因為太強大擔心被壞人破壞為由,只公開了部分模型。OpenAI 訓練了一個大型無監督語言模型,能夠生產連貫的文本段落,在許多語言建模基準上取得了 SOTA 表現。而且該模型在沒有任務特定訓練的情況下,能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要。微軟亞洲研究院和哈工大都先後發表文章,NLP引來了黃金髮展時期,正趕上科創板元年,NLP技術和中國版“納斯達克”邂逅,未來將點燃人工智能的熊熊大火,人工智能、自然語言處理領域的創業變成了風口,也成為了未來幾十年中國產業結構化調整,轉型中高端的動能之一。


任何事情都有泡沫,但持續積累需要板凳要做十年冷的精神,神經網絡從一出生到幾次浪潮,後來成為冷門又成為大熱門,這個過程讓人感觸,就在剛過去的北京時間3月27日晚,ACM(計算機協會)宣佈把 2018 年度圖靈獎頒給了深度學習“三巨頭”Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,以表彰他們在深度學習神經網絡上的工作。全世界都欠著三個人的獎項,三十年的堅持,歷經漫漫長夜,他們的信念改變了自己的命運,也推動了人工智能新浪潮的發展。


二、金融科技,智能投研公司層出不窮,科創板背景下大有所為

2.1 國內金融科技人工智能類成創投類熱門

2017年算是金融科技的正式元年,這兩三年,金融科技創業公司如雨後春筍,例如做金融數據搜索的香儂科技,做公告結構化的鼎復科技,pdf圖表檢測和復原的庖丁科技,阿博茨、文因互聯、阡尋科技等等,至少五六十家相關的公司。


自然語言處理(NLP)在金融投資領域的應用


智能投研方向到底該怎麼做?我們的理解是深度結合業務,平臺化的基礎架構,優化算法,不斷持續積累數據、系統開發經驗,形成自己的金融科技“護城河”。許多公司可能沒有業務支撐,做的產品往往都是一廂情願,帶有一定的理想主義虛幻色彩,而不是真正領會市場和投資需求之後,深度融合業務思想再落地生根的。


自然語言處理(NLP)在金融投資領域的應用


2.2 事件驅動明星公司Kensho

美國在自然語言處理結合投資研究領域率先進行探索,也基本想成了頭部玩家掌握更多資源、擁有知名度和話語權的局面,例如明星公司Kensho,試圖構建全世界最大的國際事件數據庫及知識圖譜模型,來解決當今投資分析的“速度、規模、自動化”三大挑戰問題。Kensho的主打產品,叫“Warren”,可以通過掃描超過9萬項全球事件,如藥物審批、經濟報告、貨幣政策等幾乎地球上所有金融資產影響的事件,立即找到6500萬個問題組合的答案。用戶只需要在簡單的文本框裡輸入非常複雜的問題——使用直白的英語。例如:當三級颶風襲擊福羅裡達州時,哪支水泥股的漲幅會最大?(最大的贏家是誰?德州工業[Texas Industries])。同樣,當朝鮮試射導彈時,哪支國防股會漲得最多?(雷神公司[Raytheon]、美國通用動力公司[General Dynamics]、和洛克希德馬丁公司[Lockheed Martin])。當蘋果公司發佈新iPad時,哪家蘋果公司的供應商股價上漲幅度會最大?(為iPad內置攝像頭生產傳感器的豪威科技股份有限公司[OmniVision])。


另外Kensho也發佈了複雜的知識圖譜產品“Visallo”,能夠從海量的大數據中發現公司、組織、人物之間隱藏的關係,再和它的事件檢測、事件影響分析系統聯合在一起,Kensho構建了一個強大的量化投研體系。


2.3 貝萊德的“阿拉丁神燈”

2000年,貝萊德的創始人拉里芬克(Larry Fink)組建了貝萊德解決方案公司,並開發出了一個被稱作“阿拉丁”(Aladdin)的風險管理系統。目前該系統已整合為一體化的投資交易風控平臺,叫做“阿拉丁平臺”(Aladdin Platform)。


Aladdin的大型數據管理中心位於美國的華盛頓州,據稱有上萬臺計算機,24小時運行,上面跑著數十億個經濟場景的預測,並根據這些預測,檢查客戶投資組合中的每一項資產,對投資組合進行診斷。這些機器日復一日地記錄和存儲著歷史事件,包括利率和匯率的變動、惡劣的天氣災難,政治醜聞等,再通過蒙特卡洛模擬,建立統計模型,計算它們對其管理的資產所存在的潛在影響。


Aladdin的強大在於它這個平臺管理的資產規模在2017年據傳已經超過了15萬億美金,全球225萬億美元金融總資產的7%。另外看網上說貝萊德的Aladdin業務在全球範圍內的用戶數量已增加至 25000位,可以想象,其背後管理的資產規模目前會是何等的龐大。


2.4 金融搜索引擎AlphaSense

大家都知道百度、谷歌搜索引擎,可以在全網搜索自己想要的內容,但是它不是針對金融的,所以在搜索的過程中會有很多無用的、和金融無關的信息,而且金融中需要的許多文件、數據,一般都在相應的專業網站上才能發佈,和廣義的通用的搜索引擎還是很不一樣。


AlphaSense就是在這種需求的背景下應運而生,它可以實時抓取,並能搜索合同、募股說明書、新聞輿情、研究報告、金融類風險管理函、政府數據網站,將html、pdf等文件進行結構化,並將高級語言搜索和自然語言處理算法融合,對這些文件信息進行語義分析並提取,例如可以輸入某家公司,就可以搜索到實時的、歷史的新聞,相應的研究報告、宏觀研究數據等等,可以極大地提升效率,解決了金融信息豐富度和碎片化的問題,並且第一時間監控某個關鍵詞或某個公司的情況,降低風險。目前國內也在做類似搜索引擎的公司有香儂科技、阿博茨、IBData、虎博科技等。


2.5 新興公司Econob

2013年4月23日,擁有190萬粉絲的美聯社“推特”賬號發出一條快訊:“突發新聞:白宮發生兩起爆炸,貝拉克·奧巴馬受傷”。雖然事後被證實是假新聞,4月23日收盤時道指漲152.29點,至14719.46點,漲幅1.05%。但傷害已經造成,利用所謂“算法”進行交易的交易員已採取拋售行為。


在掃描到包括“推特”和Facebook等社交網站發佈的新聞信息之後,這些“算法”會自動執行買賣股票的指令。這個事件再度揭露了由電腦推動的高頻交易對沖基金的影響。


最近有一些笑話:某公司發佈公告稱“預計不會造成很大麻煩”,因為裡面有關鍵“大麻”然後被文本識別出來發掘為工業大麻概念股,導致該股漲停了;千金藥業由於產品“衛生棉條”中含有漢麻纖維而迎來尾盤漲停;桂發祥因為產品是“天津大麻花”而午後迎來資金追捧,最終收漲6.61%;司爾特的“化肥產品能用來種大麻”而尾盤拉漲操作;尾盤拉昇大漲6.52%的安井食品,據說因為麻辣小龍蝦被識別為大麻等等,都是基於文本挖掘的事件投資被人笑話,但我想這個鍋肯定不是NLP來背的。


在《全球金融科技權威指南》一書中提到了Econob公司,這家公司也是做自然語言處理落地的公司,他們開發了一套ATRAP系統,可以通過實時新聞來交易,例如如果IBM公司的盈利情況沒有達到250億美金的預期時,他們會賣出IBM股票,反之則會購買股票。每當新聞發佈,ATRAP系統便會稽查事實,如果滿足了這些條件,它將會自動在市場上下單。另外識別評級事件也是可能實現的,未來也可以實現更通用的事件,例如政治事件、公司合併、CEO離職甚至自然災害,都是通過自動化軟件去識別。一旦有這類高風險事件發生,軟件就會立即提示或通知交易者。


前文我們介紹了自然語言處理在國內外投資領域應用的現狀,本節將重點介紹自然語言處理在我們內部的實施路線。


自然語言處理(NLP)服務框架


自然語言處理(NLP)在金融投資領域的應用


一、智能輿情

智能輿情服務是基於平臺化思想創建的一個內部服務,主要服務於風險監控和潛在的投資交易。組成部分為:極速爬蟲、智能標籤體系、深度融合業務的算法、事件因子、以及基於知識圖譜構建的事件傳導的影響鏈路。


對於私募客戶,可能不一定非常關心超額收益,但是一定會關心風險控制能力。投資交易因為涉及到多因子,輿情作為因子之一,其有效性還需要繼續探討。


1.1 極速全網爬蟲

在講爬蟲的過程中為什麼會聚焦於“極速”?因為對於風險監控來說,風險事件感知的越早,那麼在風險來臨的時候就會更加從容,在投資領域也一樣,進展獲得相關消息,就可以及時採取措施而使得相關利益最大化。例如最近的天嘉宜化工爆炸事件,怎樣在第一時間知道這條信息?我們認為:爬蟲一定要快、全面。基於爬取的最新新聞,通過自然語言處理技術,比如通過關鍵詞、公司名、人物名做定向監控,並及時應用於決策。


事實上,網站的數據更新還是比較慢,因為要經過人工編輯、審核、發佈,所以我們考慮接入新浪微博實時數據來擴充數據源。


1.2 歷史資訊庫

要建立一套歷史資訊數據庫,這個會為我們投資決策提供了比較多的決策依據,堪稱無價之寶。正如高盛CEO所羅門所說,金融行業拼的是蒐集資訊和模式識別,歷史數據非常重要。


1.3 帶有人工校驗、反饋的人工智能標籤體系

抓取到各種新聞數據後,還需要和行業、個股關聯到一起,並通過機器學習、深度學習做情感分類、事件標籤等。


1.4 深度融合業務的算法

(1)董監高情感面、熱度等

在業務層面,研究者會關注上市公司董監高近期的輿情變化,這裡面就會涉及新聞中包含公司、人物的提取,同時對於提取出來的公司和人物,進一步分析其公開講話,瞭解其關注的業務重心,以及描述他們這些主體的情感面,包括這些新聞的熱度變化情況。


(2)公司輿情異常熱度提醒

一般情況下,在公司沒有發生任何事件時,其熱度及新聞報道量是很平穩的、稀疏的甚至沒有,但是一旦有事件發生,公司的新聞熱度就會增加,如果事件嚴重程度較大,新聞熱度就會激增。這時候就需要我們具備及時獲取信息的能力。能不能在這個事件的熱度發酵到高峰之前獲悉?在這裡我們構建了一個熱度異常的算法,能夠在熱度曲線突然變化時報警。


技術思路主要是以滑動時間窗來劃分時間週期,計算某個公司主體在每個週期內的新聞熱度比(這個公司主體在當前計算週期t內被報道次數佔所有公司報道次數的百分比),並對比上一個週期得到新聞熱度比的變化率,綜合計算,得到變化的幅度值,一旦超過該值就認為熱度異常增加,觸發報警,並且在這時通過句法分析,語義分析自動提取出發生的熱點事件。


(3)情感標籤的精細化做法

一般情況下,都會通過標題+正文來做文本分類的方式給新聞、公告打標籤。由於文本長短不一,正文可能要做文本截斷。這就會導致部分信息缺失,可見其侷限性。為了詳細描述新聞裡面的信息,我們將其進行分解,例如一篇新聞可能是通篇講新能源,情感面是趨向於正面的,但是裡面可能會提到一句“樂視汽車”,那“樂視汽車”周邊幾句話是負面的,要做面向評價對象主體的、句子級別的情感面分析。意思是樂視汽車,我提到情感面是負面的,而通篇文章我認為還是正面的。


(4)事件標籤檢測

截至目前,綜合歷史新聞資訊數據,我們整理了一千多類事件標籤,同時事件標籤都有重要等級程度,收集到每條數據之後,就會自動獲取對應包含的事件,同時根據事件的重要程度決定是否需要報警,如需報警則會立馬啟動。但目前來看,這些整理出的事件還不夠全面,需要持續迭代更新。


美國Kensho建立的民用領域最大的非結構化地緣政治和全球自然事件數據庫,並用納斯達克集團的雲計算平臺FinQloud進行數據存儲,以保證數據安全。


二、事件因子

對於某些週期性發生的事件,通過文本分類或者特徵提取的方式對採集到的新聞、公告等數據進行事件分類,並識別事件中涉及到的上市公司,基於基準指數對這些公司進行股票漲跌幅的回測。一般來說,回測需要使用較長時間的歷史事件輿情數據和對應的行情數據,事件發生次數越多,回測的結論越客觀。目前事件因子主要從事件分類體系中個股類型進行提取,目前已經有92類,並在細化其中較為重要的50類。對事件的熱度、事件的影響力、事件的輿情進行提取加工,完善因子數據。


自然語言處理(NLP)在金融投資領域的應用


三、極搜公告

對於金融投資領域的數據源,除了新聞,公告也佔了較大的比重,通過將所有年報公告(91類公告)分別進行結構化處理,首先將公告分類,然後解析公告內容、還原公告目錄,在歷史公告庫中,可以隨意搜索公告數據。


四、知識圖譜

基於上面講到的數據源:新聞和公告,在經過標籤體系結構化處理之後,就可以藉助知識圖譜做一系列的事情。比如:天嘉宜化工廠爆炸死亡xx人,這個事件嚴重程度比較高,從圖譜的角度來看,這個公司可能影響到誰?其產業鏈上下游是哪些公司?其董監高是誰?和它類似的公司都有哪些?


但很可惜,金融知識圖譜一般都是通過工商關係關聯的,擁有了工商數據,其它相關知識從哪裡獲取?還是拿天嘉宜化工為例。從工商數據角度上看,其和其他公司似乎沒有什麼關聯。但實際通過網絡搜索,我們還是能夠獲取一些和它有關聯的公司,甚至是其歷史報道,這個時候就要考驗我們在知識圖譜中的關係補充能力。


公告、募股說明書裡面披露的供應商關係、客戶關係數據,輿情裡提取出共現的關係數據等,都可以用來補充企業關聯關係數據。為了提高關係補充是效率,可以嘗試自動化提取產業鏈上下游。比如:通過句法分析,通過deepdive框架並加以遠程監督,來提取上下游企業關係數據,當然還需要人為地添加和Review。


五、金融STR服務

5.1 STR的概念

傳統的光學字符識別(OCR)技術已經發展了很多年。近年,隨著具備拍照能力設備的大量普及,以及對信息快速獲取的需求,湧現出非常多需要OCR技術支撐的業務場景。伴隨著業務的發展,誕生出一個新概念——場景字符識別(STR)。通過手機給發票拍照,藉助OCR技術,識別出發票中的日期、發票編號、金額、稅率等,以簡化發票信息的人工錄入;藉助OCR技術,自動識別掃描版的對賬單,減少對賬單的人工錄入工作量。這些場景,使用通用的OCR API,效果都難以達到預期。這是因為通過的OCR技術,不是為了特定場景定製的,也無法使用於任何場景。例如:手機拍攝的光線有可能有各種問題,照片上的發票可能是傾斜甚至有變形或者扭曲,對賬單中的表格可能沒有邊框等。


傳統的OCR技術,通常使用圖像處理(如形態學處理)+機器學習(如SVM)等技術,通常面臨調參,場景適應性不高的問題。隨著深度學習技術的發展,出現了基於目標檢測的文字查找+對象分類技術,但是存在小目標檢測準確率低的問題。之後出現了CTPN技術,能夠實現連續文本的較為準確的檢測技術,再通過CNN+BiLSTM技術實現文本的識別。CTPN+CNN+BiLSTM需要大量的標註數據作為訓練,且存在只能識別直線無變形文本的限制。可以看出,一個通用的OCR引擎適應所有場景是非常困難的。所以按照特定的領域場景定製設計並訓練適合的STR服務,是未來的趨勢。


5.2 金融STR的應用場景和核心技術

金融STR想得到的有兩個重要場景:第一個是公告的自動化處理,例如季度報告,半年報,年度報告,需要把一些財務數據給提取出來,以前通過人工來做,現在可以通過人工智能算法來做,可以實現70%左右的自動化處理,這裡面涉及到掃描版的表格圖像提取,提取了以後如何把表格裡的文字和數字通過文本識別能力提取出來。第二個是投研業務的數據結構化處理,數據是投研業務的核心和基礎。金融行業的數據基本上分為兩種類型:

  1. 傳統金融數據,通過自動化的方式收集、整理市場公開信息,將大量非結構化的數據轉化為結構化數據。
  2. 特色數據或者另類數據,例如:衛星圖片、某些通過App攔截的特殊數據等。


可見金融文檔結構化,是支撐金融數據化研究和運營的關鍵技術。例如:分析財報數據用於投資分析,審查審閱合同、募股說明書等。在投行部門有許多募股說明書需要複核,就可以通過STR技術來獲取相關表格,數字指標並自動審核,這樣就可以自動化做一些工作提升效率,也避免一些可能的錯誤。像Wind、財匯等金融數據生產公司,傳統的方式是通過人工制定大量規則來達到預期90%的準確率。而現在隨著機器學習、深度學習的發展,藉助這些新型技術能夠大量節約成本,高效達到預期的同時能夠支持更多的場景。目前Wind、通聯數據也在已有的技術基礎上向自然語言處理、深度學習的方向轉變。而自然語言處理技術的出現帶來了一套全新的規則,要改變、適應、演變甚至成熟還是一個較大的挑戰。


傳統的基於圖像處理的技術,存在適應性差,需要大規模調參的問題。近些年隨著深度學習技術的發展,基於深度學習的目標檢測技術發展迅速。出現瞭如R-CNN,Faster-RCNN,YOLO,SSD等目標檢測模型。深度學習的目標檢測具有適應性強,學習能力強等特點。YOLO、SSD等基於Look Once思想的模型在基本保證準確性的前提下,大幅提升了處理性能。而基於darknet的YOLOv3模型,依賴少,訓練部署簡便。從處理性能,部署便利性綜合評估,選擇了YOLOv3模型作為表格檢測的核心模型。


對於無邊框的表格,需要將邊框還原,才能夠將最終的文字填寫到單元格中。邊框還原技術的關鍵是能夠找出文字的位置,根據文字的位置推斷表格線的可能位置。文字檢測的技術常見的傳統圖像處理技術、目標檢測技術等。這類問題與表格目標識別類似,但是需要更加準確的針對文字類型。目前比較流行的是EAST(An Efficient and Accurate Scene Text Detector)模型,通過訓練可以比較準確的定位文字類圖形。


EAST模型的Pipeline直接預測圖像中任意方向和矩形形狀的文本或文本行,通過單個神經網絡消除不必要的中間步驟(例如候選聚合和單詞分割)。EAST有三個重要的特點:

  1. 提出了一個由兩階段組成的場景文本檢測方法:FCN階段和NMS階段。FCN直接生成文本區域,不包括冗餘和耗時的中間步驟。
  2. 該pipeline可靈活生成單字級或行級文本預測,其幾何形狀可為旋轉框或矩形。
  3. 算法在準確性和速度上有明顯性能優勢。


完成字符提取之後,就可以根據字符的位置關係和連通性,補充連接,最終能夠提取出連續文本框。連接補充主要基於傳統的圖像處理算法。首先採用形態學變換,將離散的文字變換為連通的區域。形態學變換基本操作是膨脹(Dilation)和腐蝕(Erosion),高級的包括開運算(Opening)、閉運算(Closing)、形態梯度(Morphological Gradient)等。然後通過業界比較流行的CNN+BiLSTM+CTC網絡來識別文字序列,轉化為文字、數字。


總體來說,我們的思路如下:由於涉及表格樣式較多(有無底紋、有無表格線、有無跨頁等,為了提高通用性,採用Fast-RCNN,Yolo V3等目標檢測算法來獲取表格區域,然後通過OCR技術實現文字區域提取,恢復表格線,再提取文字塊做文字識別,最後導出成Excel。


自然語言處理(NLP)在金融投資領域的應用


六、智能外呼服務

6.1 智能外呼的場景分析

智能外呼顧名思義就是自動給客戶打電話,從提效的方向考慮,可以自動對用戶進行回訪,調查客戶滿意度。


6.2 智能外呼算法技術分析

這裡清洗、標註了上萬條的語料,把用戶的意圖分為34類,如下:

自然語言處理(NLP)在金融投資領域的應用


通過整理語料,分詞、特徵的提取、詞向量以及分類算法(例如FastText、TextCNN等),配合具備兼容性和可擴展性的規則系統。


這裡有必要解釋一下為什麼要加上規則系統,因為對於深度學習來說,他並不是萬能的,能夠通過深度學習解決的問題一般都是重複出現,有一定積累的問題,而對於新問題而言,由於沒有歷史數據的積累,無法進行學習,此時就有必要加入規則系統。這個問題不僅在NLP方面會遇到,在人工智能的任一領域都會遇到。所以必須要有規則,80%的自動化+20%的人工,才能得到問題的最優解。


6.3 智能外呼的未來——全自動視頻聊天機器人


自然語言處理(NLP)在金融投資領域的應用


(1) 從“DeepFake”換臉到“生成新面孔”

利用DeepFake技術,只需要一個GPU和一些訓練數據,就能夠製作出以假亂真的換臉視頻。這是AI技術的突破,卻也讓人覺得恐慌。這意味著,任何一張臉都可以被替換。為了避免這種恐慌,下一代技術可能就是直接生成一張沒有看過的臉,比如生成一個虛擬的人物作為客服,來和客戶溝通。


(2)從“呼出”智能到“呼入”智能

前面做的工作主要是智能呼出,意思是一般我們都是準備好了話術,根據話術中客戶有可能的問題來做不同的意圖識別,未來將做到“呼入”智能,接入客戶來電,並實時回答問題。


2018年5月,Google IO大會上,谷歌CEO桑達爾.皮查伊展示了Google Assistant打電話的過程,直接打給美國中餐館的服務員,自動完成了整個訂餐過程。Google在這個技術上持續耕耘多年,產品叫Google Duplex,後面也會持續研發,當然微軟也有微軟小冰。


所有的這些都預示著未來一定會有一個智能客服,會和客戶智能通話,甚至是視頻電話。


自然語言處理結合金融業務的未來


自然語言處理(NLP)在金融投資領域的應用


一、全自動的文檔智能化

現在的金融文檔智能化主要是處理公告、年報、募股說明書、合同、債券募集說明書等,實現60%左右的智能化,剩下都是各色各樣比較難啃的骨頭。


例如針對公告,對於非掃描版文件,能達到90%的自動化處理,pdf裡面有表格標籤,可以很方便地把pdf轉為html格式,然後還原出表格。對於掃描版文件(佔公告總體的10%左右),這裡面只有60%能處理掉,剩餘的40%樣式各異,主要包括:無邊框缺邊框、標題反色、有底紋、跨頁、單頁多欄表格等各種格式的處理。


對於大多數同類型的公告,我們通過積累標註好的訓練數據,來訓練一個深度學習的黑盒子,來識別表格。這依賴於這個數據前提是同樣模式、範式的數據,隨著訓練數據的增加,人工智能邊際效應遞減,也就是隨著數據規模的增大,網絡複雜度的增大,算力的提升,獲得的進步越來越少,例如表格,我們如果標註的表格是實線表格,那麼波浪線、虛線組成的表格深度學習網絡可以識別嗎?人的認知不是這樣的,這種問題人也可以很快地識別出來,我們認為深度學習的模擬的工作模式仍然接近於對生物神經系統的模仿,而這種模仿其實並不能算是效率很高的模仿。人工智能有沒有思維,有沒有意識是另外的話題,但目前來看它的訓練數據都是高度單一的,它的結構或者結構的規則也是比較單一的,難以形成更復雜的思維結構。人的經驗、直覺、發散性思維、糾偏能力(類似於人工智能理論研究中的小樣本學習、遷移學習等問題)可以解決這樣的邊際效應問題,但是對於目前的AI來說還是個待解的難題。這其實是目前人工智能技術理論的缺憾。


二、全網風險輿情+社交圈風險輿情監控+知識圖譜

未來的金融爬蟲應該是接近於百度的搜索引擎,甚至發展成為金融社區、自媒體等。除此之外,我們也在考慮如何拿到自媒體的數據做監控。例如我們面向目標對象評價的情感算法精準度、召回率有多高,如何保證穩定精準地運行。例如“天嘉宜化工廠爆炸”事件,它初步來看是負面的,負面新聞的主體是天嘉宜化工廠,然後爆炸事件可能是非常嚴重的負面事件。這個事件的嚴重等級需要人工列出來。它會影響到上下游哪些公司,上下游產業鏈怎麼自動、半自動地構建?知識圖譜可以在這裡做得非常深入。


科創板出臺後,相信其對於中小型科技企業的關係查詢、全面的風險控制能力提出了更全面、更實時的要求,所以爬蟲能力+NLP算法技術能力+知識圖譜是我們持續跟進的方向。


三、自然語言處理在投資交易領域的探索

在投研領域,數據是業務的核心和基礎。金融行業的數據基本上分為兩種類型,一種是傳統金融數據,通過自動化的方式收集、整理市場公開信息,將非機構化的數據轉化為結構化數據。另外一種是特色數據或者另類數據,例如衛星圖片、某些通過App攔截的特殊數據等。


在投資交易方面需要事件識別的技術。當特定事件發生後,例如“發佈季度報告”,提取出營收,看是否達到預期,類似於Econob的基於自然語言處理的交易系統。但是投資交易是個多因子問題,拿到信號後,需要先加入人工審核,才能進入下一步。


至於事件驅動投資的信號也是越來越難找,以前“高送轉、股東分紅”都基本失效了,在海量信息噪聲中,如何找到有效的投資事件信號?我們將重點基於極速的爬蟲+事件信號的提取技術進行攻關。


四、研究報告智能化的業務演進步驟

在A股市場上,包括各大券商的研究所有上萬的研究員,他們研究行業、公司、公告、財務數據,有明確的研究思路、特定的研究框架,隨著時間的積累,他們的研究都比較透徹。但是這些研究工作總體來看,也有特定的格式,那麼基於上述我們的自然語言處理工作,是否能夠實現一些研報的自動化生產工作呢?


事實上,我們也做過一些探索。大致思路如下:數據是血液,研究框架是筋骨,自然語言的語句生成是皮膚是包裝。舉個例子,如果研究汽車行業,我們得了解汽車行業的研究背景、宏觀發展,上下游產業鏈,國家政策等宏觀數據,這些就是數據,然後可能分為新能源電動車、豪華車等,最後提出對幾個龍頭企業例如福特、大眾的看法。例如家電行業的框架圖:


自然語言處理(NLP)在金融投資領域的應用


把這個框架圖可以集成到知識圖譜,然後通過爬蟲、採購數據的方式去獲取每一個節點的數據,最後通過自然語言生成話術模板,形成報告。


這裡面可能需要用到一些文本摘要技術,例如家電行業是不是出了國家的什麼政策,就要把政策摘要出來,然後放到相應的研究框架節點裡。最後還可以通過一些CopyNet的技術讓語句更通順。


五、智能投顧機器人

外呼用到了智能對話的技術,主要是意圖分類、相似句識別以及槽位填充,即:問“海康威視股價是多少”,要把意圖確定為問股價,然後還要把屬性的槽位給提取出來“海康威視”,然後根據這個意圖和屬性數據在數據庫裡進行查詢並返回數據。


面向C端的智能投顧,在對話技術越加成熟以後,也可能會用到這些來應對投資者的問題,投資者可以簡單問“招商銀行怎麼樣”,我們能自動地應答,這樣就節省了人力,另外還能解決一些普通查詢不好查的問題,例如i問財的“貴州茅臺過去十年的roe情況”,“macd底部趨勢反轉的股票有哪些”等問題。


但對於智能投顧來說,這種對話機器人只是解決了效率提升的問題,沒有解決根本的資產配置問題,總體來講在中國金融機構中是“雷聲大雨點小”。目前所謂熱門的智能投顧都有如下幾個問題:


(1) 智能投顧真的能給客戶賺錢嗎?還只是一個“智能”的營銷工具?

源自《金融界銀行》的報告中說,中國銀行“中銀慧投”、工商銀行“AI投”、招行的“摩羯智投”都表現不佳,有的跑輸貨幣基金有的跑輸股票型基金。目前中國全市場沒有一款敢號稱賺錢的智能投顧,這當然也有另外一個原因,中國的市場和美國的市場不太一樣,美國市場重視基本面價值投資,中國的股票市場充滿了短期投機的氛圍,客戶的錢給了智能投顧,三個月內虧了,客戶就心虛了要贖回,巨幅回撤帶給客戶的壓力是巨大的,虧損20%能忍,但如果一直往下走,虧到40%怎麼辦?50%呢?投資人往往在快熬到頭的時候,心裡的最後一道防線被突破,清倉走人。所以短期的智能投顧很難做,甚至有的人提出智能投顧要做一年期以上。


目前來看,面向C端的智能投顧淪為營銷工具,某些公司拿來宣傳金融科技是可以的,但實際情況差強人意。


(2) 智能投顧的費率能大幅度降低嗎?

智能投顧的優勢是提升了效率,也不用人去管理,所以就可以大幅度降低費率。例如對於一支ETF指數基金,對於被動型管理基金,完全可以通過全自動的模型算法來去做,例如國外的Schwab公司可以做到0費率,中國對於基金管理費還是過高。


(3) 智能投顧自動調倉暫時無法實現

智能投顧自動調倉功能涉及我國的資產管理業務。該自動調倉功能在澳大利亞證券業內被稱為“全權委託賬戶”服務,在我國法律法規中稱作“代客理財”業務。智能投顧在業務方位、自動調倉、客戶適當性義務上還存在一定的不確定性的合規法律風險,調倉涉及的管理費也是個問題。


(4) 智能投顧如何識別“黑天鵝”?

智能投顧是模型是基於風險組合、統計學模型的,那麼如何應付黑天鵝?這也是很複雜的事情,光是組合管理是不夠的,基於馬科維茨風險均值方差理論的組合管理只是在鈍化你對於風險的感受,但是它並不能防止虧錢。

自然語言處理技術的未來展望


一、無監督學習

吳恩達大家都知道,他最知名的是人工神經網絡通過觀看一週YouTube視頻,自主學會識別哪些是關於貓的視頻。這個案例為人工智能領域翻開嶄新一頁。


現在自然語言處理其實也呈現出這個趨勢,例如最新的Bert、Gpt2模型都是往無監督學習方向發展。對於這種發展趨勢,能否訓練一個對話的Robot,能否讓對話機器人閱讀一些對話,識別裡面的套路、思維邏輯,然後進行回覆?這樣都是未來發展的趨勢,當然底層技術也需要發展。


二、解決邊際效用問題——“邊際人工智能”、“實時人工智能”

之前提過幾次,人工智能能解決通用模式的問題,例如表格檢測,字符識別,情感識別,公告的自動分類和結構化,但是它在達到一定的自動化處理程度後,就無效了。就好比給出人工智能海量的黑色斑馬照片,它有可能把黑色當成一個標誌,識別不出斑馬來。


公告裡提取表格,有可能識別出有線框的表格,但是跨頁的、無線框的識別不出來,識別出來之後的表格合併又將是一個新問題。同時這種訓練語料又非常有限,怎麼能做好呢?這就是需要用到遷移學習、小樣本學習的能力,可能還要加入一些規則。


所以我們提出一個概念“邊際人工智能”,未來的人工智能不僅僅是一個識別器,它還要是一個模仿的機器,一旦識別錯誤,立即發出反饋,同時還需要具備糾錯的能力。例如訓練了一個通用的表格檢測模塊,但有一個奇怪的表格沒有識別出來,就把它標出來,送給模型,模型就能立即糾正(可能是加了一個規則系統)。


但是這不是一個辦法,傳統的機器學習是基於統計學的,意思就是必須有大量數據,才能識別出某些模式來,但是有些模式是很少見的,例如火山噴發。但是這個規則又必須具有一定的彈性,當符合這個規則的數據量達到一定程度以後,它又能轉換為一個識別的模型。


怎麼樣把這個數據通用化,實現小樣本、遷移學習、實時智能反饋,這樣真正實現“邊際人工智能”、“實時人工智能”,解決邊際效應的問題,是我們未來自然語言處理技術的一個方向。


道路是曲折的,未來是光明的。人工智能大數據技術不斷植入到金融體系之後,金融的DNA已悄然改變,這種說法有一種科幻和冒昧的味道。但人工智能、自然語言處理背後絕不是投機主義,而是基於算法、算力、數據、經驗規則的持續積累,對科技文化、對人才的尊重和渴求,對行業格局的深邃洞悉,是對人類最初夢想的追逐,是長期堅持要形成的助力金融創新的“硬科技”。


分享到:


相關文章: