專欄｜雲腦科技-實習僧文本匹配模型及基於百度PaddlePaddle的應用科技頭條網

機器之心發佈

雲腦科技

1. 上下文理解理論基礎
在語言模型中，當前句子段落裡的語義，語法，在很大程度上決定了下一個詞是什麼，如何表達。對一個由 n 個詞組成的語句，傳統語言模型通過對條件概率
進行建模，來估計整個語句的概率分佈：
然而很多時候稀疏的數據，對上下文長度有限的覆蓋，離散的概率分佈空間侷限了傳統語言模型的效果。在深度學習中，基於詞向量和循環神經網絡 (RNN) 的語言模型很好的解決了這些問題。但普通的 RNN，受限於梯度消失和梯度飽和，在訓練時更新信息可能傳播不到序列所有的位置上。因此對於較長的語句，RNN 並不能很好的整合上文信息。GRU 和 LSTM 這兩種特殊的 RNN，在每一個循環單元內引入了「門」的結構，如輸入門，輸出門，遺忘門，等等。這些特殊的結構避免了梯度在循環單元之間傳播時，必須通過非線性激活函數的現象。從而能夠保證信息在長距離上的更新，進而使得當前的詞能很好的承接上文。普通 RNN 的語言模型在訓練時速度較慢，GRU/LSTM 在普通 RNN 的基礎上，由於其複雜的循環單元結構，更加降低了執行速度。在自然語言處理的很多問題，比如句法分析，命名實體識別中，需要考慮一個詞在上下文中的含義和作用。因此，這些問題在隱藏層往往需要正向傳播，反向傳播的兩條 GRU/LSTM 鏈。在工業級生產上，由於大數據集的普遍性，以及對速度的需求，侷限了 GRU/LSTM 的實際應用。
卷積神經網絡 (CNN) 一直以來的主要應用都是在基於圖像的深度學習算法上。近些年 CNN 在自然語言處理上的應用證明，CNN 系列的算法可以高效的對語言進行建模，在更快的執行速度下，達到或超過 GRU/LSTM 的效果。以短文本分類為例，CNN 在這一問題上的應用如下圖所示：
輸入層語句可以看作是一個文本長度為 7，詞向量維度為 5 的文本「矩陣」。對於 3 組長度分別為 {2, 3, 4} 的上下文，每組有 2 個卷積核。在圖像的應用中，卷積核的長寬一般均小於圖像矩陣，而在文本的應用中，卷積核長度雖然小於文本矩陣的長度，但其寬度一定等於文本矩陣寬度，即詞向量的維度。於是卷積核只在長度的方向上做卷積。以上下文長度為 2 的一個卷積核 K 為例，在如上圖所示的沒有填充的文本矩陣下，K 分別作用於「I like」,「like this」,「this movie」,「movie very」,「very much」,「much !」，6 個子矩陣。K 將每個映射為一個實數後，得到一個 6 維向量 U，U 可以看作一個局部上下文特徵向量。之後將最大池化層作用於 U 上，過濾掉該局部上下文裡不重要的特徵，只保留最重要的一個。對於上面 6 個卷積內核，都完成這樣的操作後，構成可以代表整個文本的全局上下文特徵向量 V。最後，對於文本分類問題，將 softmax 函數作用於 V 上，作為整個網絡的輸出層。
對於較長的文本，單個卷積-最大池化層也許不能夠完全覆蓋整個文本，因此對於全局上下文特徵的提取，就需要多個卷積層的疊加。對於 RNN 來說，當前的循環單元在很大程度上決定於之前的循環單元。而 CNN 的卷積核獨立作用於子文本窗，因此可以並行同步處理，進而大大地提高了算法的執行速度。
2. 文本匹配模型理論基礎
文本匹配顧名思義，就是對給定的文本，在文本庫中找到與其最為相似的匹配文本。文本匹配較為廣泛的一個應用實例是搜索引擎。很多搜索引擎對查詢文本進行關鍵詞抽取，通過關鍵詞來找到文本庫中最為相似的文本進行返回。然而很多時候，同一個意思在不同的環境下有很多不同的表達方式，所以這種基於詞法的匹配在廣義的文本匹配應用中也就很可能出現不準確的現象。從這個角度出發，便有了基於語義的模型，比如 Latent Semantic Analysis (LSA)，Latent Dirichlet Allocation (LDA)，Semantic Hashing，等等。然而這些語義模型有著非監督性學習的性質。比如 LSA 是對詞條-文本共生矩陣做 SVD 降維，在低維空間中用聚類或餘弦相似度尋找文本間的相似性，但並沒有特別明確具體的目標函數以及匹配度評測標準；Semantic Hashing 是基於 Restricted Boltzman Machine，將文本轉化為形同內存地址的 0-1 形式，它的參數估計過程不是以區分相關文本和不相關文本來進行最優化。
Deep Structured Semantic Model(DSSM) 是語義層面上的監督性學習文本匹配模型。DSSM 通過深度神經網絡單元 (DNN Unit)，將查詢文本 Q 和匹配文本 D 映射為同一語義空間下的語義向量對，並用的餘弦相似度來表達 Q 與 D 的匹配度。因此對於給定的 Q，以及潛在匹配候選文本
，可通過得到的餘弦相似度來進行匹配度排序。DSSM 的結構如下圖所示：

x 為輸入向量，y 為語義向量，為 DNN Unit 的隱藏層，為對應隱藏層的權重參數與偏差參數。具體地，
其中，g 為激活函數。一對 Q,D 文本的相似度定義為：

訓練數據集中，對於每一個 Q，都有對應的候選匹配文本集 D，以及在 D 中被實際選取的單個匹配文本。對於每一個，有匹配條件概率
其中平滑因子γ是可調試的 hyper parameter. 在訓練的時候，我們的目標函數為：

，即交叉熵損失函數，其中。之後便可用基於梯度下降的優化算法來得到參數的估計。
一些時候，在訓練數據集中，對於每一個 Q，對應的候選匹配文本集 D 中的文本是根據匹配程度排好序的。這種情況下，對於任意兩個候選文本，有
如果真實的排序，那麼真實概率
，這個時候的損失函數為：

可以看出是上述全局單一匹配下的一種特殊情況。
雖然 DSSM 相比較於之前的匹配模型有著顯著的效果提升，但是 DSSM 的輸入是普通的詞哈希向量，並且其 DNN Unit 是疊加的全連接層，並沒有考慮文本的上下文聯繫。
Convolutional DSSM(CDSSM) 在 DSSM 的詞哈希向量的基礎上，引入了卷積層和最大池化層，進行上下文顯著特徵提取，並將提取的特徵通過非線性映射得到語義向量 (semantic feature)，C-DSSM 的 DNN Unit 的結構如下圖所示：
同第一部分所描述的 CNN 作用原理，卷積層會考慮每一個上下文窗口中的詞哈希向量，再將此向量映射為較低維的局部上下文向量。對於一系列相關的局部上下文向量，最大池化層可以過濾掉不重要的文本特徵，只保留最顯著的，形成全局上下文向量。進而在 DSSM 的基礎上，更進一步的考慮並聯繫了上下文的語義特徵，達到更好的文本匹配效果。
PaddlePaddle 於 2016 年開源，對自己的定義是「easy-to-use, efficient, flexible, scalable」. PaddlePaddle 封裝了許多經典的神經網絡算法，因此，用 PaddlePaddle 實現一些基於經典結構，較為複雜但效果很好的神經網絡時，就十分方便。比如在機器翻譯中，一個比較流行的模型是帶有注意力機制的編碼-解碼器。在編碼器中，輸入為詞向量或獨熱向量，隱藏層為正向傳播的循環神經網絡 (F-RNN)，以及反向傳播的 B-RNN，循環單元可以是 GRU 或者 LSTM。對每一個輸入詞向量，對應位置上正向反向兩個循環單元的輸出結合起來，得到對應詞向量的隱含狀態。在解碼器中，隱藏層由一個正向傳播的 F-RNN 構成，其每一個循環單元
的輸入取決於的輸出，以及所對應的位於編碼器中的上下文
。而 , 即注意力機制是通過對編碼器中各時刻的隱含狀態進行加權平均實現的。
在注意力模型的思想中，任意兩個目標語言和源語言詞間均存在一定的關聯，且這個關聯強度是由模型計算得到的實數。在 PaddlePaddle 裡，對這些重要的組成部分，都有對應的 Python API 可以調用。比如「paddle.layer」的「paddle.layer.data」,「paddle.layer.embedding」,「paddle.layer.fc」;「paddle.networks」下的「paddle.networks.gru_unit」,「paddle.networks.simple_attention」，等等。通過這些組成部分來實現上面所描述的機器翻譯模型只需要簡單的 100 行 python 代碼。在模型訓練的過程中，PaddlePaddle 同樣封裝了豐富的 API 比如各種 optimizer，以及實現 callback，early stopping 機制的方法，等等。

雖然 PaddlePaddle 的 Python API 覆蓋了大部分的主流神經網絡結構，但在模型開發中，對應於實際的問題，仍然需要自己實現神經網絡組成部分。在 TensorFlow 中，這些新的構架可以直接在 Python 裡通過 TensorFlow 的基礎單元進行實現。在 PaddlePaddle 裡，新的 layer，operator，必須通過較為底層的 C++來實現，而這些單元中對於梯度計算的 forward/backward 結構設計和 Caffe 又比較類似。新的單元實現之後，需要封裝相應的 Python 接口，通過 make，編譯，組件測試，才能在自己的網絡結構中使用這個新的 layer/operator. 這樣的好處是更快的執行速度。
在數據讀取方面，PaddlePaddle 需要開發者實現 dataprovider，並在 config 文件中調用這個 dataprovider。在 TensorFlow 裡，並沒有這樣比較直接的讀取機制。TensorFlow 中普遍使用的 feed_dict/placeholder 是單線程運行，讀取速度較慢。如果要實現多線程快速的數據輸入，數據的批量讀取，數據讀取順序重洗等功能，開發者必須預先將原始數據序列化成 tfrecords 格式，再從序列化的數據讀取到定義的 TensorFlow 模型圖中。而在 PaddlePaddle 中，實現如同 tfrecords 的讀取功能並不需要預先的序列化，只用在 dataprovider 裡實現 reader 和相應的 reader decorator 即可。
總體上而言，PaddlePaddle 可以很好的適用於實際生產線而不單單是研發模型原型。PaddlePaddle 支持模型並行，數據並行，多機多卡，多種集群方式，即使在缺少 GPU 的情況下也可以在較大的數據集上進行深度模型訓練。在雲腦科技與合作伙伴的眾多項目中，既有來自於傳統行業的大數據集，也有對實時行為的預測，智能推薦，等多種需求。PaddlePaddle 幫助雲腦科技的工程師有效的利用計算資源，實現模型研發，迭代以及實際應用。
參考文獻：
P. Huang, X. He., J. Gao, L. Deng, A. Acero, L. Heck. Learning Deep Structured Semantic Models for web search using clickthrough data. In CIKM, 2013
Y. Shen, X. He, J. Gao, L. Deng, G. Mesnil. Learning semantic representations using convolutional neural networks for web search. Models for web search using clickthrough data. In Proceedings of the 23rd International Conference on World Wide Web, 2014
Y. Zhang, B.C. Wallace. A sensitivity analysis of (and practitioners' guide to) convolutional neural networks for sentence classification. arXiv:1510.03820, 2016
✄------------------------------------------------
廣告&商務合作：[email protected]

分享到:

閱讀更多 坤艮機器之心 的文章

關鍵字: Python 專欄編程語言

專欄｜雲腦科技-實習僧文本匹配模型及基於百度PaddlePaddle的應用

相關文章:

異步社區在行動：開放VIP會員卡，電子書、專欄、視頻課免費學

02.01 快手上線“停課不停學”專欄，提供從K12到職教免費課程

【專欄—回顧】2018第七屆時尚品供應鏈高峰論壇演講實錄

【專欄—評析】物流地產大盤點，誰正獨領風騷

「專欄」從鮁魚圈到廣州，扒一扒「北材南運」背後的數據祕密丨航運界

知乎開通《靜語》專欄

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

互聯網流量需求增大 希臘民眾“宅生活”考驗網速

互聯網科技企業，傳統辦公模式該走向何處?

微信又悄悄上線一新功能～網友卻開始擔心

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

科技添柴“非接觸經濟”升溫

好像在哪見過？華為nova7官宣 餘承東:何必只有一點點

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

實例 | 200 SMART運動控制基本指令詳解

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點