TensorFlow實現文本分類(Sentence Classification)

TensorFlow實現文本分類(Sentence Classification)


前面講了使用CNN和RNN對於圖像的分類,所謂文本的分類指的是根據一段文字,辨別這一段文字所屬的類別,本文是基於TensorFlow在中文數據集上的簡化實現,使用了字符級CNN和RNN對中文文本進行分類,達到了較好的效果。


CNN做句子分類的論文可以參看:

Convolutional Neural Networks for Sentence Classification

還可以去讀dennybritz大牛的博客:

Implementing a CNN for Text Classification in TensorFlow

Character-level Convolutional Networks for Text Classification

如今,TensorFlow大版本已經升級到了1.3,對很多的網絡層實現了更高層次的封裝和實現,甚至還整合瞭如Keras這樣優秀的一些高層次框架,使得其易用性大大提升。相比早起的底層代碼,如今的實現更加簡潔和優雅。

本文是基於TensorFlow在中文數據集上的簡化實現,使用了字符級CNN和RNN對中文文本進行分類,達到了較好的效果。


數據集

本文采用了清華NLP組提供的THUCNews新聞文本分類數據集的一個子集(原始的數據集大約74萬篇文檔,訓練起來需要花較長的時間)。數據集請自行到THUCTC:一個高效的中文文本分類工具包下載,請遵循數據提供方的開源協議。(下載地址:http://thuctc.thunlp.org/)

本次訓練使用了其中的10個分類,每個分類6500條數據。

類別如下:

體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

數據集劃分如下:

  • 訓練集: 5000*10
  • 驗證集: 500*10
  • 測試集: 1000*10

從原數據集生成子集的過程請參看helper下的兩個腳本。其中,copy_data.sh用於從每個分類拷貝6500個文件,cnews_group.py用於將多個文件整合到一個文件中。

執行該文件後,得到三個數據文件:

  • cnews.train.txt: 訓練集(50000條)
  • cnews.val.txt: 驗證集(5000條)
  • cnews.test.txt: 測試集(10000條)

預處理

data/cnews_loader.py為數據的預處理文件。

  • read_file(): 讀取文件數據;
  • build_vocab(): 構建詞彙表,使用字符級的表示,這一函數會將詞彙表存儲下來,避免每一次重複處理;
  • read_vocab(): 讀取上一步存儲的詞彙表,轉換為 {詞:id} 表示;
  • read_category(): 將分類目錄固定,轉換為 {類別: id}表示;
  • to_words(): 將一條由id表示的數據重新轉換為文字;
  • preocess_file(): 將數據集從文字轉換為固定長度的id序列表示;
  • batch_iter(): 為神經網絡的訓練準備經過shuffle的批次的數據。

經過數據預處理,數據的格式如下:

TensorFlow實現文本分類(Sentence Classification)

CNN卷積神經網絡

配置項

CNN可配置的參數如下所示,在cnn_model.py中。

TensorFlow實現文本分類(Sentence Classification)

CNN模型

具體參看cnn_model.py的實現。

大致結構如下:

TensorFlow實現文本分類(Sentence Classification)

訓練與驗證

運行 python run_cnn.py train,可以開始訓練。

若之前進行過訓練,請把tensorboard/textcnn刪除,避免TensorBoard多次訓練結果重疊。

TensorFlow實現文本分類(Sentence Classification)

在驗證集上的最佳效果為94.12%,且只經過了3輪迭代就已經停止。

準確率和誤差如圖所示:

TensorFlow實現文本分類(Sentence Classification)

測試

運行 python run_cnn.py test 在測試集上進行測試。

TensorFlow實現文本分類(Sentence Classification)

TensorFlow實現文本分類(Sentence Classification)

在測試集上的準確率達到了96.04%,且各類的precision, recall和f1-score都超過了0.9。

從混淆矩陣也可以看出分類效果非常優秀。

RNN循環神經網絡

配置項

RNN可配置的參數如下所示,在rnn_model.py中。

TensorFlow實現文本分類(Sentence Classification)

RNN模型

具體參看 rnn_model.py 的實現。

大致結構如下:

TensorFlow實現文本分類(Sentence Classification)

訓練與驗證

這部分的代碼與 run_cnn.py極為相似,只需要將模型和部分目錄稍微修改。

運行 python run_rnn.py train,可以開始訓練。

若之前進行過訓練,請把tensorboard/textrnn刪除,避免TensorBoard多次訓練結果重疊。

TensorFlow實現文本分類(Sentence Classification)

TensorFlow實現文本分類(Sentence Classification)

在驗證集上的最佳效果為91.42%,經過了8輪迭代停止,速度相比CNN慢很多。

準確率和誤差如圖所示:

TensorFlow實現文本分類(Sentence Classification)

測試

運行 python run_rnn.py test 在測試集上進行測試。

TensorFlow實現文本分類(Sentence Classification)

在測試集上的準確率達到了94.22%,且各類的precision, recall和f1-score,除了家居這一類別,都超過了0.9。

從混淆矩陣可以看出分類效果非常優秀。

對比兩個模型,可見RNN除了在家居分類的表現不是很理想,其他幾個類別較CNN差別不大。

還可以通過進一步的調節參數,來達到更好的效果。

為方便預測,repo 中 predict.py 提供了 CNN 模型的預測方法。


分享到:


相關文章: