華為雲獲CCF BDCI 2019金融實體級情感分析大賽冠軍

近日,在2019 CCF大數據與計算智能大賽(CCF Big Data & Computing Intelligence Contest,簡稱CCF BDCI)決賽中,華為雲語音語義創新Lab獲得金融實體級情感分析大賽冠軍,體現了在文本情感分析和知識圖譜領域的實力。

華為雲獲CCF BDCI 2019金融實體級情感分析大賽冠軍

CCF BDCI是由教育部高等學校計算機類專業教學指導委員會、國家自然科學基金委員會信息科學部及鄭州市人民政府指導,中國計算機學會主辦的重量級大賽,今年已經是第七屆了,本次大賽共吸引了來自全球25個國家,1500餘所高校及科研院所,1800餘所企事業單位的60000餘人參加。

隨著互聯網的飛速進步和全球金融的高速發展,金融信息呈現出爆炸式增長的態勢。如何從海量的金融文本中快速準確地挖掘出關鍵信息一直是金融領域研究的熱點,其效果好壞對投資者和決策者有至關重要的影響,其難點在於如何識別出海量文本中針對不同實體的報道的正負面,核心技術是實體級情感分析,而這也成為了本次大賽“金融信息負面及實體判定”賽道的重點解決問題。

本賽題關注金融文本中信息主體的挖掘和麵向主體的負面消息檢測,在風控和輿情分析等領域有較大現實意義,如及時發現對企業的負面報道,然後及時客服跟進或採取改進措施,對企業有非常大的幫助。

挑戰情感分析技術高點

該任務分為兩個子任務:給定金融文本和文本中出現的金融實體列表,

1.負面信息判定:判定該文本是否包含金融實體的負面信息。如果該文本不包含負面信息,或者包含負面信息但負面信息未涉及到金融實體,則負面信息判定結果為0。

2.負面主體判定:如果任務1中包含金融實體的負面信息,繼續判斷負面信息的主體對象是實體列表中的哪些實體。

實際上,該問題屬於NLP情感分析領域的一個技術分支——實體級情感分析,傳統情感分析任務都是文本級的,即只判定一個文本整體的正負面,不涉及具體的正負面評價的對象或實體,但基於這種方式有時並不能作出準確判斷。如圖2的新聞報道,對實體“A公司”和“B公司”來說是正面的,但是對實體“C公司”則是負面的。

華為雲獲CCF BDCI 2019金融實體級情感分析大賽冠軍

實體級情感分析

本次大賽華為雲聯合武漢大學、重慶郵電大學,設計了三種基於深度學習技術的方案:

  • 方案一:將問題轉化為一個二分類問題,通過合併文本和實體構造新樣本,判斷該實體是否為文本的負面實體;
  • 方案二:先判斷文本是否是負面文本,再在負面文本樣本中針對每個實體判定該文本是否針對該實體;
  • 方案三:採用多任務模型,將情感分析與實體判別同時訓練優化。

最終,通過情感校驗和模型融合三個方案獲得的最終結果為F值0.959,獲得該賽道的冠軍。

持續在語音語義領域創新

實際上,華為雲語音語義創新Lab長期在自然語言基礎(如詞法、句法等)、語言理解、語言生成、知識圖譜等進行持續的研究創新,並將成果以雲服務的形式呈現出來,為客戶服務。2019年,華為雲推出了知識計算即服務(KaaS)框架,助力政企客戶破解大型企業和政府機構的智能化知識挖掘和管理難題,實現知識化轉型。

具體來說,基於在自然語言處理、知識圖譜、深度學習、圖計算等領域的技術積累和實踐,該框架能夠以知識計算雲服務形式提供全棧知識計算流水線平臺,能夠針對不同行業多源異構數據進行分析和處理,通過流水線平臺幫助客戶構建知識獲取、知識建模、知識管理和知識應用的全套知識管理體系。基於知識圖譜底座,衍生出各種知識增強的自然語言處理服務,如分詞、命名實體識別、句子級情感分析、屬性級情感分析、對話機器人服務、機器翻譯等。

在2019年華為全聯接大會上,華為就攜手中石油聯合發佈了勘探開發人工智能平臺。基於KaaS框架,華為雲助力中石油進行勘探開發知識體系的構建、計算和應用,為油氣勘探開發科研、生產管理提供智能化分析手段,實現油氣行業的知識化轉型。

今年5月,憑藉創新性和技術先進性,“華為雲知識計算雲服務”獲得了行業權威獎項“2019數博會領先科技成果獎”。在不久前的全國知識圖譜及語義計算大會(CCKS 2019)上,華為雲也獲得了中文知識圖譜問答大賽“創新技術獎”、DigSci科學數據挖掘大賽冠軍。

目前,華為雲語音語義相關服務已經成功應用於政務、金融、油氣、醫療、汽車、物流、保險、電商、稅務、媒體等領域,為客戶提供智能客服、對話助手、知識圖譜等產品服務。相關服務歡迎到“EI體驗空間”小程序體驗。


分享到:


相關文章: