基於 CNN 的文本分類算法_技术 _ 頭條網

CNN 是卷積神經網絡，通常用於圖像領域，並且在圖像分類取得非常好的效果。2014 年 Yoon Kim 在論文《Convolutional Neural Networks for Sentence Classification》中將 CNN 的思想應用到文本處理中，後續很多把 ConvNet 用在 NLP 任務上的工作都是基於這篇論文進行的。

1. CNN 文本分類模型

本文主要是對原始論文《Convolutional Neural Networks for Sentence Classification》內容的整理，首先了解 CNN 文本分類模型整體結構，下圖是論文中的模型圖。

CNN 文本分類模型

可以看到模型比較簡單，主要分為四個部分：輸入層、卷積層、最大池化層、全連接層。

1.1 輸入層

給定一個句子，輸入層接收的輸入是一個句子單詞詞向量矩陣 X，X 是一個 (n×k) 的矩陣，n 表示句子中單詞數量，k 表示詞向量維度。可以看到 X 的每一行對應了一個單詞的詞向量，而單詞的詞向量按照它們在句子中的順序進行排列。

1.2 卷積層

在得到輸入的詞向量矩陣 X 之後，需要對

X 進行卷積操作。卷積核是一個 (h×k) 的矩陣，注意卷積核的列數是固定的 (為 k)，與詞向量維度一樣。卷積核不斷地向下移動，得到卷積後的值。

卷積核

因為卷積核的列數與詞向量矩陣 X 是一樣的，所以經過卷積後的 feature map 也只有一列。有多個卷積核會生成多列向量，如下圖所示，下圖為 4 個卷積核卷積後的輸出。

卷積後的輸出

1.3 最大池化層

在卷積層中，多個不同的卷積核會生成多列向量 (feature map)，最大池化會取出每一列中的最大值，最終形成一個一維向量。

1.4 全連接層

最後一層是全連接層，全連接層使用了 Dropout 防止過擬合，然後利用 Softmax 進行分類。

2. 模型的其他細節

2.1 使用多個不同尺寸的卷積核

剛剛我們瞭解到這個模型的卷積核列數必須為 k，但是其高度 (行數) 是可以變的，在使用的過程中可以採用不同高度的卷積核進行卷積操作，如下圖所示。

採用不同尺寸的卷積核

2.2 模型的變種

作者在論文中還提出了模型的 4 種變種

CNN-rand，單詞的詞向量是隨機初始化的，並且在訓練的過程中不斷地更新。CNN-static，使用已經訓練好的詞向量，例如 Word2Vec，並且在後續訓練中保持詞向量不變。CNN-non-static，與 CNN-static 類似，都是使用已經訓練好的詞向量，但是在後續的訓練中還會繼續微調詞向量。CNN-multichannel，使用兩套詞向量，均是用 Word2Vec 進行初始化，其中一套詞向量在訓練中保持不變，另一套會在訓練中微調。輸入的句子可以獲取兩種不同的詞向量。可以理解為類似圖像中的 RGB 通道，在這裡兩個通道分別表示兩種詞向量。

下圖是 4 種模型的結果，可以看到 CNN-static 比 CNN-rand 效果更好，說明使用預訓練的詞向量比較有效；另外 CNN-non-static 比 CNN-static 效果要好，說明微調會使詞向量更加適合當前任務。在實驗中 CNN-multichannel 通常在小數據集效果更好。

4 種 CNN 模型的效果

3. CNN 文本分類總結

CNN 用於 NLP 任務中與 N-Gram 有相似之處，我們定義卷積核的高度為 3，則相當於使用卷積核在句子中進行一個 3-Gram 的操作，同時 CNN 具有很高的效率，比傳統 N-Gram 要快很多。

CNN 中的卷積核寬度要與詞向量的維度一樣大，並且卷積核是在句子中單詞的方向上進行移動的。

參考文獻

1.論文:Convolutional Neural Networks for Sentence Classification

https://aclweb.org/anthology/D14-1181

2.Understanding Convolutional Neural Networks for NLP

http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/

1. CNN 文本分類模型

2. 模型的其他細節

3. CNN 文本分類總結

參考文獻

相關文章:

Genetic CNN: 經典NAS算法，遺傳算法的標準套用

目標檢測之GA-RPN

卷積神經網絡CNN的基本結構

後R-CNN時代，Faster R-CNN、SSD...Faster R-CNN系列勝了嗎？

用漸進打磨獲得最佳的顯著性目標檢測結果

深入理解卷積神經網絡(CNN)的原理(難，就要廣泛看，多看)

Attention 機制的學習

CNN vs RNN vs ANN——3種神經網絡分析模型，你pick誰？

Day6:殘差網絡中的Skip Connection

人工智能Keras圖像分類器（CNN卷積神經網絡的圖片識別篇）

人工智能Keras CNN卷積神經網絡的圖片識別

CNN中的反向傳播

開源MatrixNets：用於對象檢測的新的比例和長寬比感知體系結構

01.13 推薦系統中的深度匹配模型（下）

python3 32.keras使用卷積神經網絡(CNN)完成貓狗分類 學習筆記

11.24 使用卷積神經網絡進行文本分類

ICCV 2019論文解讀：數據有噪聲怎麼辦？你可以考慮負學習

基於 CNN 的驗證碼破解實戰

目標檢測算法系列】二、SPP-Net算法

CNN，RNN，LSTM 都是什麼？（小白深度學習入門）

常用的 Normalization 方法：BN、LN、IN、GN（附代碼＆鏈接）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

卷積神經網絡CNN

遷移學習在自然語言處理中的應用

TensorFlow系列專題（十二）：CNN最全原理剖析（序）

卷積神經網絡(CNN)的相關概念

案例｜如何用Python 和 Mask R-CNN 自動尋找停車位（附源碼）

CNN 風格遷移實戰（附python代碼）

CNN，GAN，AE和VAE概述

梯度下降優化算法概述

08.20 機器不學習：卷積神經網絡 CNN 筆記-目標探測2

機器不學習：卷積神經網絡 CNN 筆記-目標探測1

機器不學習：CNN-RNN結合的3D物體識別分類

了解卷積神經網絡如何使用TDA學習

深度卷積對抗生成網絡(DCGAN)

基於深度學習的目標檢測算法詳解（二）:Faster R-CNN與Mask R-CNN

基於深度學習的目標檢測算法詳解（一）:R-CNN與Fast R-CNN

入門｜一文簡述循環神經網絡

卷積神經網絡深入解析-CNN

06.17 卷積神經網絡深入解析-CNN

06.13 圖像語義分割的工作原理和CNN架構變遷

05.18 「薦讀」卷積神經網絡的通俗易懂解讀（後篇）

05.16 如何構建卷積網絡 Convolutional Network？

學界｜DeepMind論文：CNN的變形穩定性和池化無關，濾波器平滑度才是關鍵

04.23 全連接網絡到卷積神經網絡逐步推導（組圖無公式）

程式設計師小伙9行tensorflow代碼，演示卷積網絡(CNN),有代碼

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

python3 32.keras使用卷積神經網絡(CNN)完成貓狗分類學習筆記

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪