本文為3月29日晚,達觀數據聯合創始人張健在將門技術社群,分享如何在海量的文本數據中提煉出有價值觀點的內容的回顧。
主要內容包括結合實踐經驗,盤點觀點挖掘的應用場景及價值、目前業界主流的觀點挖掘技術以及該技術目前面臨的挑戰。
以下為根據直播整理的文字內容:
一、什麼是文本觀點挖掘?
在簡單介紹觀點挖掘的基本概念之後,張健首先對“觀點”的五個組成要素進行了強調:
1. 觀點評價對象(客體);
2. 觀點評價對象的屬性。例如,我評價誰哪裡哪裡好,又哪裡哪裡不好,“哪裡”就是屬性;
3. 觀點所蘊含的情感極性。包括正面、負面、中性等;
4. 觀點的持有者。在考慮到處理問答、對話的流程,涉及到主體的識別;
5. 觀點的時間。這對觀點是有一定影響意義在的,因為隨著時間變化,觀點持有者也可能改變自己的觀點。
結合自己的業務經驗,張健羅列了觀點挖掘可能涉及到的一些任務類型,具體而言:
情感分類
我們所收集到的一些觀點文本,可能都存在一定的情感傾向性,覺得XX是好的,XX是不好的,這可以幫助分析文本的傾向性;
觀點抽取
從一段文本中屬於觀點的文本內容抽取出來,主要是為了方便分析人員從文本中獲取結構化的有用的信息;
觀點過濾
主要是由於海量數據當中會存在大量無效的信息,這需要被清理掉,以免影響觀點挖掘的處理效率和準確率;
評價質量
這並非評價好壞之分,而是對於分析人員來說,這些評價需要有足夠的信息量,能夠對銷售決策更有幫助。這在電商場景當中最為常見;
意圖識別
在很多場景下,都是可以根據觀點來發現觀點持有者真正的意圖,例如可以發現這個觀點持有者究竟想不想要購買商品。
二、為什麼要做文本觀點挖掘?
![回顾|达观数据联合创始人张健:文本观点挖掘技术及其应用(含文字整理)](http://p2.ttnews.xyz/loading.gif)
如上圖所列舉的,文本觀點挖掘有非常豐富的應用場景,因而相對來說,也會有較高的商業價值。
1. 產品營銷分析。例如我們可以用來分析運營商的營銷策略是否恰當,通過對消費者的評價文本進行情感分類,可以獲得一些正向或負向的反饋,由此來幫助改進策略;
2. 競品對比分析。例如需要將自己的產品與競品進行對比,來分析出產品的優劣勢及發展策略。
以上這兩方面,最主要是可為產品輔助決策。以前存在的大多是一些數值型的分析結果,例如網站的日活、流失率、留存率等,但卻不能很直觀地表現出究竟是什麼樣的原因導致了這樣的結果。如果擁有產品的評價文本數據,那麼我們就可以通過觀點挖掘技術,將非結構化數據轉化為結構化數據,從觀點中獲取更加直觀、感性的信息,從而可能發現更多的問題。
3. 大眾輿論導向。這是政府比較關注的項目,例如出臺政策,想要調研該政策發佈後的民意情況;
4. 用戶畫像。最簡單的,會根據容易獲取到的一些用戶行為來進行判斷,如果要做得更精細一點,那麼我們就可以從用戶自身留下的聲音來挖掘出有效的信息。例如在小說網站的觀點挖掘中,我們可以通過用戶的書評來分析他對某些類型的偏好情況;
5. 精準推送。在做好用戶畫像之後,我們就可以根據用戶的偏好情況來實現精準推送,提升收益率;
6. 預測分析。例如PPT右圖的股票趨勢預測圖。我們可以通過社交平臺評論觀點挖掘,來分析輿論情緒分佈,如圖中的兩條紅色的情緒線(冷靜、警惕),我們會發現股票指數與情緒指數是存在一定關聯的。在業務場景中,我們對大量的股評報告進行語義分析,利用股評報告中蘊含的觀點信息結合股市信息及其他可能的影響因素,來預測股票走勢。
三、文本觀點挖掘處理任務
情感分類
情感分類最主要的目標就是情感文本的情感傾向,例如正面、負面、中性等。某些企業可能要求更高,會要求分析出高興、驚訝、憤怒等維度,這已經屬於情緒分析的範疇了,需要更多數據的支持。本次課程僅止於正負面分析判斷的介紹。
文本的情感分類包含三大類別:
1. 文檔級別(document-level)的情感分類。判斷文本整體情感態度。
2. 句子級別(sentence-level)的情感分類。 判斷句子這個層次上的情感分類。
3. 屬性級別(apect-level)的情感分類。因為一個文檔/句子會表達很多觀點,不同觀點可能有不同的情感屬性。倘使我們分析時需要聚焦到某個屬性,就可用到這個層次的分析。
句子級別的情感分類
張健首先依次列舉了句子級別情感分類所使用的一些方法,包括監督方法和無監督方法。無監督方法中介紹了基於句法模板的情感分類和基於情感詞典的情感分類。
其中,情感詞典的構建是一件比較費力的事。因為不同領域的情感詞典並不統一,需要有針對性地進行構建。
監督方式的情感分類部分,介紹了基於機器學習的有監督方法與基於深度學習的有監督方法。
屬性級別的情感分類
回到情感分類的命題當中,剛才提到的更多是對一個句子或者一段文本計算出文本的情感極性。但如果一個句子當中,存在多種評價對象,或要獲取到指定評價對象的情感傾向時,就需要用到屬性級別的情感分類。
跨領域情感分類
情感分類對於領域比較敏感,不同領域下的情感分類通常存在較大差異。跨領域情感分類是比較有實用意義的領域,近期的論文聚焦在遷移學習的方法來提升跨領域文本分類的準確性,但在實際應用方面還需進一步提升效果。
多語種情感分類
多語種情感分類是為了解決指定語種標註數據不足的問題,使用語料充裕的語種(例如英語)的標註數據來提升情感分類效果。具體實現可基於翻譯引擎,或基於語言分佈表示。
觀點抽取
觀點挖掘當中除了情感分類,很重要的一步就是觀點抽取,需要將文本當中有價值的信息提取出來。張健列舉了電商場景下的案例來對實際操作方法進行了說明。
觀點過濾
例如一些虛假評論,從評論本身難以分辨,所以這個時候就需要結合多個維度的信息來構建特徵,進行訓練和判斷。
在特徵類型當中,如語言特徵。英文當中會有固定的頻率,例如喜歡都大寫,都發表在30字以內等語言特徵。而行為特徵也比較重要,例如網絡水軍,最基本的行為特徵就是一條評論文本重複發,或者多次發佈相似度較高的文本。
評價質量
最後需要提到觀點挖掘當中的任務,是評價質量的問題。
觀點挖掘的挑戰
總 結
文本的觀點挖掘,目前的技術手段已經能夠分析出比較不錯的結果。但是仍然存在很多處理得不夠徹底的方面,譬如說上面提到的幾方面挑戰,或者文本中很多隱式的語義表達,很多情況下還需要依賴於標記數據集的增加,無法通過更好的技術手段去處理。
觀點挖掘目前比較熱門的是使用深度學習的方式去解決其中一些子問題。另外,觀點挖掘可以通過與像知識圖譜等其他領域的結合,獲取更有價值的分析結果。例如情感分析與問答結合,通過分析如果存在情感交互的話,用戶體驗會更好。
此外,文本觀點挖掘的發展還是主要依賴於NLP技術的整體提升。在工業實踐當中,目前文本語料數據的積累還是比較困難,特別是短文本,具有稀疏性,很難通過簡單模型去表達複雜語義。
......
-The End-
將門是一家專注於發掘、加速並投資技術創新激活商業價值的創業公司 的創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。
將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門投資基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾傢俱有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]
將門2018招聘看這裡!
企業戰略合作、新媒體運營、技術專家、行業專家等多個崗位期待您的加入~
也歡迎您轉給身邊優秀的朋友!推薦成功、一經錄用將獲得15000元現金作為答謝!
點擊右上角,把文章朋友圈
將門創投
讓創新獲得認可!
閱讀更多 將門創投 的文章