入門｜CNN也能用於NLP任務，一文簡述文本分類任務的7個模型

2018-06-30 11:23:58 機器之心

選自Ahmed BESBES

機器之心編譯

參與：李詩萌、路

本文介紹了用於文本分類任務的 7 個模型，包括傳統的詞袋模型、循環神經網絡，也有常用於計算機視覺任務的卷積神經網絡，以及 RNN + CNN。

本文是我之前寫過的一篇基於推特數據進行情感分析的文章（https://ahmedbesbes.com/sentiment-analysis-on-twitter-using-word2vec-and-keras.html）的延伸內容。那時我建立了一個簡單的模型：基於 keras 訓練的兩層前饋神經網絡。用組成推文的詞嵌入的加權平均值作為文檔向量來表示輸入推文。

我用的嵌入是用 gensim 基於語料庫從頭訓練出來的 word2vec 模型。該是一個二分類任務，準確率能達到 79%。

本文目標在於探索其他在相同數據集上訓練出來的 NLP 模型，然後在給定的測試集上對這些模型的性能進行評估。

我們將通過不同的模型（從依賴於詞袋錶徵的簡單模型到部署了卷積/循環網絡的複雜模型）瞭解能否得到高於 79% 的準確率！

首先，將從簡單的模型開始，逐步增加模型的複雜度。這項工作是為了說明簡單的模型也能很有效。

我會進行這些嘗試：

用詞級的 ngram 做 logistic 迴歸
用字符級的 ngram 做 logistic 迴歸
用詞級的 ngram 和字符級的 ngram 做 Logistic 迴歸
在沒有對詞嵌入進行預訓練的情況下訓練循環神經網絡（雙向 GRU）
用 GloVe 對詞嵌入進行預訓練，然後訓練循環神經網絡
多通道卷積神經網絡
RNN（雙向 GRU）+ CNN 模型

文末附有這些 NLP 技術的樣板代碼。這些代碼可以幫助你開啟自己的 NLP 項目並獲得最優結果（這些模型中有一些非常強大）。

我們還可以提供一個綜合基準，我們可以利用該基準分辨哪個模型最適合預測推文中的情緒。

在相關的 GitHub 庫中還有不同的模型、這些模型的預測結果以及測試集。你可以自己嘗試並得到可信的結果。

import osimport reimport warningswarnings.simplefilter("ignore", UserWarning)from matplotlib import pyplot as plt%matplotlib inlineimport pandas as pdpd.options.mode.chained_assignment = Noneimport numpy as np from string import punctuationfrom nltk.tokenize import word_tokenizefrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, auc, roc_auc_scorefrom sklearn.externals import joblibimport scipyfrom scipy.sparse import hstack

0. 數據預處理

你可以從該鏈接（http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/）下載數據集。

加載數據並提取所需變量（情感及情感文本）。

該數據集包含 1,578,614 個分好類的推文，每一行都用 1（積極情緒）和 0（消極情緒）進行了標記。

作者建議用 1/10 的數據進行測試，其餘數據用於訓練。

data = pd.read_csv('./data/tweets.csv', encoding='latin1', usecols=['Sentiment', 'SentimentText'])

data.columns = ['sentiment', 'text']

data = data.sample(frac=1, random_state=42)

print(data.shape)

(1578614, 2)

for row in data.head(10).iterrows():

print(row[1]['sentiment'], row[1]['text'])

1 http://www.popsugar.com/2999655 keep voting for robert pattinson in the popsugar100 as well!!

1 @GamrothTaylor I am starting to worry about you, only I have Navy Seal type sleep hours.

0 sunburned...no sunbaked! ow. it hurts to sit.

1 Celebrating my 50th birthday by doing exactly the same as I do every other day - working on our websites. It's just another day.

1 Leah and Aiden Gosselin are the cutest kids on the face of the Earth

1 @MissHell23 Oh. I didn't even notice.

0 WTF is wrong with me?!!! I'm completely miserable. I need to snap out of this

0 Was having the best time in the gym until I got to the car and had messages waiting for me... back to the down stage!

1 @JENTSYY oh what happened??

0 @catawu Ghod forbid he should feel responsible for anything!

推文數據中存在很多噪聲，我們刪除了推文中的網址、主題標籤和用戶提及來清理數據。

def tokenize(tweet): tweet = re.sub(r'http\S+', '', tweet) tweet = re.sub(r"#(\w+)", '', tweet) tweet = re.sub(r"@(\w+)", '', tweet) tweet = re.sub(r'[^\w\s]', '', tweet) tweet = tweet.strip().lower() tokens = word_tokenize(tweet) return tokens

將清理好的數據保存在硬盤上。

data['tokens'] = data.text.progress_map(tokenize)data['cleaned_text'] = data['tokens'].map(lambda tokens: ' '.join(tokens))data[['sentiment', 'cleaned_text']].to_csv('./data/cleaned_text.csv')data = pd.read_csv('./data/cleaned_text.csv')print(data.shape)(1575026, 2)data.head()

既然數據集已經清理乾淨了，就可以準備分割訓練集和測試集來建立模型了。

本文數據都是用這種方式分割的。

x_train, x_test, y_train, y_test = train_test_split(data['cleaned_text'],  data['sentiment'],  test_size=0.1,  random_state=42, stratify=data['sentiment'])print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)(1417523,) (157503,) (1417523,) (157503,)

將測試集標籤存儲在硬盤上以便後續使用。

pd.DataFrame(y_test).to_csv('./predictions/y_true.csv', index=False, encoding='utf-8')

接下來就可以應用機器學習方法了。

1. 基於詞級 ngram 的詞袋模型

那麼，什麼是 n-gram 呢？

如圖所示，ngram 是將可在源文本中找到的長度為 n 的相鄰詞的所有組合。

我們的模型將以 unigrams（n=1）和 bigrams（n=2）為特徵。

用矩陣表示數據集，矩陣的每一行表示一條推文，每一列表示從推文（已經經過分詞和清理）中提取的特徵（一元模型或二元模型）。每個單元格是 tf-idf 分數（也可以用更簡單的值，但 tf-idf 比較通用且效果較好）。我們將該矩陣稱為文檔-詞項矩陣。

略經思考可知，擁有 150 萬推文的語料庫的一元模型和二元模型去重後的數量還是很大的。事實上，出於計算力的考慮，我們可將這個數設置為固定值。你可以通過交叉驗證來確定這個值。

在向量化之後，語料庫如下圖所示：

I like pizza a lot

假設使用上述特徵讓模型對這句話進行預測。

由於我們使用的是一元模型和二元模型後，因此模型提取出了下列特徵：

i, like, pizza, a, lot, i like, like pizza, pizza a, a lot

因此，句子變成了大小為 N（分詞總數）的向量，這個向量中包含 0 和這些 ngram 的 tf-idf 分數。所以接下來其實是要處理這個大而稀疏的向量。

一般而言，線性模型可以很好地處理大而稀疏的數據。此外，與其他模型相比，線性模型的訓練速度也更快。

從過去的經驗可知，logistic 迴歸可以在稀疏的 tf-idf 矩陣上良好地運作。

vectorizer_word = TfidfVectorizer(max_features=40000, min_df=5,  max_df=0.5,  analyzer='word',  stop_words='english',  ngram_range=(1, 2))vectorizer_word.fit(x_train, leave=False)tfidf_matrix_word_train = vectorizer_word.transform(x_train)tfidf_matrix_word_test = vectorizer_word.transform(x_test)

在為訓練集和測試集生成了 tf-idf 矩陣後，就可以建立第一個模型並對其進行測試。

tf-idf 矩陣是 logistic 迴歸的特徵。

lr_word = LogisticRegression(solver='sag', verbose=2)lr_word.fit(tfidf_matrix_word_train, y_train)

一旦訓練好模型後，就可以將其應用於測試數據以獲得預測值。然後將這些值和模型一併存儲在硬盤上。

joblib.dump(lr_word, './models/lr_word_ngram.pkl')y_pred_word = lr_word.predict(tfidf_matrix_word_test)pd.DataFrame(y_pred_word, columns=['y_pred']).to_csv('./predictions/lr_word_ngram.csv', index=False)

得到準確率：

y_pred_word = pd.read_csv('./predictions/lr_word_ngram.csv')print(accuracy_score(y_test, y_pred_word))0.782042246814

第一個模型得到了 78.2% 的準確率！真不賴。接下來了解一下第二個模型。

2. 基於字符級 ngram 的詞袋模型

我們從未說過 ngram 僅為詞服務，也可將其應用於字符上。

如你所見，我們將對字符級 ngram 使用與圖中一樣的代碼，現在直接來看 4-grams 建模。

基本上這意味著，像「I like this movie」這樣的句子會有下列特徵：

I, l, i, k, e, ..., I li, lik, like, ..., this, ... , is m, s mo, movi, ...

字符級 ngram 很有效，在語言建模任務中，甚至可以比分詞表現得更好。像垃圾郵件過濾或自然語言識別這樣的任務就高度依賴字符級 ngram。

與之前學習單詞組合的模型不同，該模型學習的是字母組合，這樣就可以處理單詞的形態構成。

基於字符的表徵的一個優勢是可以更好地解決單詞拼寫錯誤的問題。

我們來運行同樣的流程：

vectorizer_char = TfidfVectorizer(max_features=40000, min_df=5,  max_df=0.5,  analyzer='char',  ngram_range=(1, 4))vectorizer_char.fit(tqdm_notebook(x_train, leave=False));tfidf_matrix_char_train = vectorizer_char.transform(x_train)tfidf_matrix_char_test = vectorizer_char.transform(x_test)lr_char = LogisticRegression(solver='sag', verbose=2)lr_char.fit(tfidf_matrix_char_train, y_train)y_pred_char = lr_char.predict(tfidf_matrix_char_test)joblib.dump(lr_char, './models/lr_char_ngram.pkl')pd.DataFrame(y_pred_char, columns=['y_pred']).to_csv('./predictions/lr_char_ngram.csv', index=False)y_pred_char = pd.read_csv('./predictions/lr_char_ngram.csv')print(accuracy_score(y_test, y_pred_char))0.80420055491

80.4% 的準確率！字符級 ngram 模型的性能要比詞級的 ngram 更好。

3. 基於詞級 ngram 和字符級 ngram 的詞袋模型

與詞級 ngram 的特徵相比，字符級 ngram 特徵似乎提供了更好的準確率。那麼將字符級 ngram 和詞級 ngram 結合效果又怎麼樣呢？

我們將兩個 tf-idf 矩陣連接在一起，建立一個新的、混合 tf-idf 矩陣。該模型有助於學習單詞形態結構以及與這個單詞大概率相鄰單詞的形態結構。

將這些屬性結合在一起。

tfidf_matrix_word_char_train = hstack((tfidf_matrix_word_train, tfidf_matrix_char_train))tfidf_matrix_word_char_test = hstack((tfidf_matrix_word_test, tfidf_matrix_char_test))lr_word_char = LogisticRegression(solver='sag', verbose=2)lr_word_char.fit(tfidf_matrix_word_char_train, y_train)y_pred_word_char = lr_word_char.predict(tfidf_matrix_word_char_test)joblib.dump(lr_word_char, './models/lr_word_char_ngram.pkl')pd.DataFrame(y_pred_word_char, columns=['y_pred']).to_csv('./predictions/lr_word_char_ngram.csv', index=False)y_pred_word_char = pd.read_csv('./predictions/lr_word_char_ngram.csv')print(accuracy_score(y_test, y_pred_word_char))0.81423845895

得到了 81.4% 的準確率。該模型只加了一個整體單元，但結果比之前的兩個都要好。

關於詞袋模型

優點：考慮到其簡單的特性，詞袋模型已經很強大了，它們訓練速度快，且易於理解。
缺點：即使 ngram 帶有一些單詞間的語境，但詞袋模型無法建模序列中單詞間的長期依賴關係。

現在要用到深度學習模型了。深度學習模型的表現優於詞袋模型是因為深度學習模型能夠捕捉到句子中單詞間的順序依賴關係。這可能要歸功於循環神經網絡這一特殊神經網絡結構的出現了。

在開始之前，要先設置一個深度學習專用的環境，以便在 TensorFlow 上使用 Keras。誠實地講，我試著在個人筆記本上運行這些代碼，但考慮到數據集的大小和 RNN 架構的複雜程度，這是很不實際的。還有一個很好的選擇是 AWS。我一般在 EC2 p2.xlarge 實例上用深度學習 AMI（https://aws.amazon.com/marketplace/pp/B077GCH38C?qid=1527197041958&sr=0-1&ref_=srh_res_product_title）。亞馬遜 AMI 是安裝了所有包（TensorFlow、PyTorch 和 Keras 等）的預先配置過的 VM 圖。強烈推薦大家使用！

from keras.preprocessing.text import Tokenizerfrom keras.preprocessing.text import text_to_word_sequencefrom keras.preprocessing.sequence import pad_sequencesfrom keras.models import Modelfrom keras.models import Sequentialfrom keras.layers import Input, Dense, Embedding, Conv1D, Conv2D, MaxPooling1D, MaxPool2Dfrom keras.layers import Reshape, Flatten, Dropout, Concatenatefrom keras.layers import SpatialDropout1D, concatenatefrom keras.layers import GRU, Bidirectional, GlobalAveragePooling1D, GlobalMaxPooling1Dfrom keras.callbacks import Callbackfrom keras.optimizers import Adamfrom keras.callbacks import ModelCheckpoint, EarlyStoppingfrom keras.models import load_modelfrom keras.utils.vis_utils import plot_model

4. 沒有預訓練詞嵌入的循環神經網絡

RNN 可能看起來很可怕。儘管它們因為複雜而難以理解，但非常有趣。RNN 模型封裝了一個非常漂亮的設計，以克服傳統神經網絡在處理序列數據（文本、時間序列、視頻、DNA 序列等）時的短板。

我們要處理的序列類型是文本數據。對意義而言，單詞順序很重要。RNN 考慮到了這一點，它可以捕捉長期依賴關係。

為了在文本數據上使用 Keras，我們首先要對數據進行預處理。可以用 Keras 的 Tokenizer 類。該對象用 num_words 作為參數，num_words 是根據詞頻進行分詞後保留下來的最大詞數。

MAX_NB_WORDS = 80000tokenizer = Tokenizer(num_words=MAX_NB_WORDS)tokenizer.fit_on_texts(data['cleaned_text'])

當分詞器適用於數據時，我們就可以用分詞器將文本字符級 ngram 轉換為數字序列。

這些數字表示每個單詞在字典中的位置（將其視為映射）。

如下例所示：

x_train[15]'breakfast time happy time'

這裡說明了分詞器是如何將其轉換為數字序列的。

tokenizer.texts_to_sequences([x_train[15]])[[530, 50, 119, 50]]

接下來在訓練序列和測試序列中應用該分詞器：

train_sequences = tokenizer.texts_to_sequences(x_train)test_sequences = tokenizer.texts_to_sequences(x_test)

將推文映射到整數列表中。但是由於長度不同，還是沒法將它們在矩陣中堆疊在一起。還好 Keras 允許用 0 將序列填充至最大長度。我們將這個長度設置為 35（這是推文中的最大分詞數）。

MAX_LENGTH = 35padded_train_sequences = pad_sequences(train_sequences, maxlen=MAX_LENGTH)padded_test_sequences = pad_sequences(test_sequences, maxlen=MAX_LENGTH)padded_train_sequencesarray([[ 0, 0, 0, ..., 2383, 284, 9], [ 0, 0, 0, ..., 13, 30, 76], [ 0, 0, 0, ..., 19, 37, 45231], ...,  [ 0, 0, 0, ..., 43, 502, 1653], [ 0, 0, 0, ..., 5, 1045, 890], [ 0, 0, 0, ..., 13748, 38750, 154]])padded_train_sequences.shape(1417523, 35)

現在就可以將數據傳入 RNN 了。

以下是我將使用的架構的一些元素：

嵌入維度為 300。這意味著我們使用的 8 萬個單詞中的每一個都被映射至 300 維的密集（浮點數）向量。該映射將在訓練過程中進行調整。
在嵌入層上應用 spatial dropout 層以減少過擬合：按批次查看 35*300 的矩陣，隨機刪除每個矩陣中（設置為 0）的詞向量（行）。這有助於將注意力不集中在特定的詞語上，有利於模型的泛化。
雙向門控循環單元（GRU）：這是循環網絡部分。這是 LSTM 架構更快的變體。將其視為兩個循環網絡的組合，這樣就可以從兩個方向同時掃描文本序列：從左到右和從右到左。這使得網絡在閱讀給定單詞時，可以結合之前和之後的內容理解文本。GRU 中每個網絡塊的輸出 h_t 的維度即單元數，將這個值設置為 100。由於用了雙向 GRU，因此每個 RNN 塊的最終輸出都是 200 維的。

雙向 GRU 的輸出是有維度的（批尺寸、時間步和單元）。這意味著如果用的是經典的 256 的批尺寸，維度將會是 (256, 35, 200)。

在每個批次上應用的是全局平均池化，其中包含了每個時間步（即單詞）對應的輸出向量的平均值。
我們應用了相同的操作，只是用最大池化替代了平均池化。
將前兩個操作的輸出連接在了一起。

def get_simple_rnn_model(): embedding_dim = 300 embedding_matrix = np.random.random((MAX_NB_WORDS, embedding_dim)) inp = Input(shape=(MAX_LENGTH, )) x = Embedding(input_dim=MAX_NB_WORDS, output_dim=embedding_dim, input_length=MAX_LENGTH,  weights=[embedding_matrix], trainable=True)(inp) x = SpatialDropout1D(0.3)(x) x = Bidirectional(GRU(100, return_sequences=True))(x) avg_pool = GlobalAveragePooling1D()(x) max_pool = GlobalMaxPooling1D()(x) conc = concatenate([avg_pool, max_pool]) outp = Dense(1, activation="sigmoid")(conc) model = Model(inputs=inp, outputs=outp) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) return modelrnn_simple_model = get_simple_rnn_model()

該模型的不同層如下所示：

plot_model(rnn_simple_model,  to_file='./images/article_5/rnn_simple_model.png',  show_shapes=True,  show_layer_names=True)

在訓練期間使用了模型檢查點。這樣可以在每個 epoch 的最後將最佳模型（可以用準確率度量）自動存儲（在硬盤上）。

filepath="./models/rnn_no_embeddings/weights-improvement-{epoch:02d}-{val_acc:.4f}.hdf5"checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True, mode='max')batch_size = 256epochs = 2history = rnn_simple_model.fit(x=padded_train_sequences,  y=y_train,  validation_data=(padded_test_sequences, y_test),  batch_size=batch_size,  callbacks=[checkpoint],  epochs=epochs,  verbose=1)best_rnn_simple_model = load_model('./models/rnn_no_embeddings/weights-improvement-01-0.8262.hdf5')y_pred_rnn_simple = best_rnn_simple_model.predict(padded_test_sequences, verbose=1, batch_size=2048)y_pred_rnn_simple = pd.DataFrame(y_pred_rnn_simple, columns=['prediction'])y_pred_rnn_simple['prediction'] = y_pred_rnn_simple['prediction'].map(lambda p: 1 if p >= 0.5 else 0)y_pred_rnn_simple.to_csv('./predictions/y_pred_rnn_simple.csv', index=False)y_pred_rnn_simple = pd.read_csv('./predictions/y_pred_rnn_simple.csv')print(accuracy_score(y_test, y_pred_rnn_simple))0.826219183127

準確率達到了 82.6%！這真是很不錯的結果了！現在的模型表現已經比之前的詞袋模型更好了，因為我們將文本的序列性質考慮在內了。

還能做得更好嗎？

5. 用 GloVe 預訓練詞嵌入的循環神經網絡

在最後一個模型中，嵌入矩陣被隨機初始化了。那麼如果用預訓練過的詞嵌入對其進行初始化又當如何呢？舉個例子：假設在語料庫中有「pizza」這個詞。遵循之前的架構對其進行初始化後，可以得到一個 300 維的隨機浮點值向量。這當然是很好的。這很好實現，而且這個嵌入可以在訓練過程中進行調整。但你還可以使用在很大的語料庫上訓練出來的另一個模型，為「pizza」生成詞嵌入來代替隨機選擇的向量。這是一種特殊的遷移學習。

使用來自外部嵌入的知識可以提高 RNN 的精度，因為它整合了這個單詞的相關新信息（詞彙和語義），而這些信息是基於大規模數據語料庫訓練和提煉出來的。

我們使用的預訓練嵌入是 GloVe。

官方描述是這樣的：GloVe 是一種獲取單詞向量表徵的無監督學習算法。該算法的訓練基於語料庫全局詞-詞共現數據，得到的表徵展示出詞向量空間有趣的線性子結構。

本文使用的 GloVe 嵌入的訓練數據是數據量很大的網絡抓取，包括：

8400 億個分詞；
220 萬詞。

下載壓縮文件要 2.03GB。請注意，該文件無法輕鬆地加載在標準筆記本電腦上。

GloVe 嵌入有 300 維。

GloVe 嵌入來自原始文本數據，在該數據中每一行都包含一個單詞和 300 個浮點數（對應嵌入）。所以首先要將這種結構轉換為 Python 字典。

def get_coefs(word, *arr): try: return word, np.asarray(arr, dtype='float32') except: return None, Noneembeddings_index = dict(get_coefs(*o.strip().split()) for o in tqdm_notebook(open('./embeddings/glove.840B.300d.txt')))embed_size=300for k in tqdm_notebook(list(embeddings_index.keys())): v = embeddings_index[k] try: if v.shape != (embed_size, ): embeddings_index.pop(k) except: passembeddings_index.pop(None)

一旦創建了嵌入索引，我們就可以提取所有的向量，將其堆疊在一起並計算它們的平均值和標準差。

values = list(embeddings_index.values())all_embs = np.stack(values)emb_mean, emb_std = all_embs.mean(), all_embs.std()

現在生成了嵌入矩陣。按照 mean=emb_mean 和 std=emb_std 的正態分佈對矩陣進行初始化。遍歷語料庫中的 80000 個單詞。對每一個單詞而言，如果這個單詞存在於 GloVe 中，我們就可以得到這個單詞的嵌入，如果不存在那就略過。

word_index = tokenizer.word_index

nb_words = MAX_NB_WORDS

embedding_matrix = np.random.normal(emb_mean, emb_std, (nb_words, embed_size))

oov = 0

for word, i in tqdm_notebook(word_index.items()):

if i >= MAX_NB_WORDS: continue

embedding_vector = embeddings_index.get(word)

if embedding_vector is not None:

embedding_matrix[i] = embedding_vector

else:

oov += 1

print(oov)

def get_rnn_model_with_glove_embeddings():

embedding_dim = 300

inp = Input(shape=(MAX_LENGTH, ))

x = Embedding(MAX_NB_WORDS, embedding_dim, weights=[embedding_matrix], input_length=MAX_LENGTH, trainable=True)(inp)

x = SpatialDropout1D(0.3)(x)

x = Bidirectional(GRU(100, return_sequences=True))(x)

avg_pool = GlobalAveragePooling1D()(x)

max_pool = GlobalMaxPooling1D()(x)

conc = concatenate([avg_pool, max_pool])

outp = Dense(1, activation="sigmoid")(conc)

model = Model(inputs=inp, outputs=outp)

model.compile(loss='binary_crossentropy',

optimizer='adam',

metrics=['accuracy'])

return model

rnn_model_with_embeddings = get_rnn_model_with_glove_embeddings()

filepath="./models/rnn_with_embeddings/weights-improvement-{epoch:02d}-{val_acc:.4f}.hdf5"

checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True, mode='max')

batch_size = 256

epochs = 4

history = rnn_model_with_embeddings.fit(x=padded_train_sequences,

y=y_train,

validation_data=(padded_test_sequences, y_test),

batch_size=batch_size,

callbacks=[checkpoint],

epochs=epochs,

verbose=1)

best_rnn_model_with_glove_embeddings = load_model('./models/rnn_with_embeddings/weights-improvement-03-0.8372.hdf5')

y_pred_rnn_with_glove_embeddings = best_rnn_model_with_glove_embeddings.predict(

padded_test_sequences, verbose=1, batch_size=2048)

y_pred_rnn_with_glove_embeddings = pd.DataFrame(y_pred_rnn_with_glove_embeddings, columns=['prediction'])

y_pred_rnn_with_glove_embeddings['prediction'] = y_pred_rnn_with_glove_embeddings['prediction'].map(lambda p:

1 if p >= 0.5 else 0)

y_pred_rnn_with_glove_embeddings.to_csv('./predictions/y_pred_rnn_with_glove_embeddings.csv', index=False)

y_pred_rnn_with_glove_embeddings = pd.read_csv('./predictions/y_pred_rnn_with_glove_embeddings.csv')

print(accuracy_score(y_test, y_pred_rnn_with_glove_embeddings))

0.837203100893

準確率達到了 83.7%！來自外部詞嵌入的遷移學習起了作用！本教程剩餘部分都會在嵌入矩陣中使用 GloVe 嵌入。

6. 多通道卷積神經網絡

這一部分實驗了我曾瞭解過的卷積神經網絡結構（http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/）。CNN 常用於計算機視覺任務。但最近我試著將其應用於 NLP 任務，而結果也希望滿滿。

簡要了解一下當在文本數據上使用卷積網絡時會發生什麼。為了解釋這一點，我從 wildm.com（一個很好的博客）中找到了這張非常有名的圖（如下所示）。

瞭解一下使用的例子：I like this movie very much！（7 個分詞）

每個單詞的嵌入維度是 5。因此，可以用一個維度為 (7,5 的矩陣表示這句話。你可以將其視為一張「圖」（數字或浮點數的矩陣）。
6 個濾波器，大小為 (2, 5) (3, 5) 和 (4, 5) 的濾波器各兩個。這些濾波器應用於該矩陣上，它們的特殊之處在於都不是方矩陣，但它們的寬度和嵌入矩陣的寬度相等。所以每個卷積的結果將是一個列向量。
卷積產生的每一列向量都使用了最大池化操作進行下采樣。
將最大池化操作的結果連接至將要傳遞給 softmax 函數進行分類的最終向量。

背後的原理是什麼？

檢測到特殊模式會激活每一次卷積的結果。通過改變卷積核的大小和連接它們的輸出，你可以檢測多個尺寸（2 個、3 個或 5 個相鄰單詞）的模式。

模式可以是像是「我討厭」、「非常好」這樣的表達式（詞級的 ngram？），因此 CNN 可以在不考慮其位置的情況下從句子中分辨它們。

def get_cnn_model(): embedding_dim = 300 filter_sizes = [2, 3, 5] num_filters = 256 drop = 0.3 inputs = Input(shape=(MAX_LENGTH,), dtype='int32') embedding = Embedding(input_dim=MAX_NB_WORDS, output_dim=embedding_dim, weights=[embedding_matrix], input_length=MAX_LENGTH, trainable=True)(inputs) reshape = Reshape((MAX_LENGTH, embedding_dim, 1))(embedding) conv_0 = Conv2D(num_filters,  kernel_size=(filter_sizes[0], embedding_dim),  padding='valid', kernel_initializer='normal',  activation='relu')(reshape) conv_1 = Conv2D(num_filters,  kernel_size=(filter_sizes[1], embedding_dim),  padding='valid', kernel_initializer='normal',  activation='relu')(reshape) conv_2 = Conv2D(num_filters,  kernel_size=(filter_sizes[2], embedding_dim),  padding='valid', kernel_initializer='normal',  activation='relu')(reshape) maxpool_0 = MaxPool2D(pool_size=(MAX_LENGTH - filter_sizes[0] + 1, 1),  strides=(1,1), padding='valid')(conv_0) maxpool_1 = MaxPool2D(pool_size=(MAX_LENGTH - filter_sizes[1] + 1, 1),  strides=(1,1), padding='valid')(conv_1) maxpool_2 = MaxPool2D(pool_size=(MAX_LENGTH - filter_sizes[2] + 1, 1),  strides=(1,1), padding='valid')(conv_2) concatenated_tensor = Concatenate(axis=1)( [maxpool_0, maxpool_1, maxpool_2]) flatten = Flatten()(concatenated_tensor) dropout = Dropout(drop)(flatten) output = Dense(units=1, activation='sigmoid')(dropout) model = Model(inputs=inputs, outputs=output) adam = Adam(lr=1e-4, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0) model.compile(optimizer=adam, loss='binary_crossentropy', metrics=['accuracy']) return modelcnn_model_multi_channel = get_cnn_model()plot_model(cnn_model_multi_channel,  to_file='./images/article_5/cnn_model_multi_channel.png',  show_shapes=True,  show_layer_names=True)

filepath="./models/cnn_multi_channel/weights-improvement-{epoch:02d}-{val_acc:.4f}.hdf5"checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True, mode='max')batch_size = 256epochs = 4history = cnn_model_multi_channel.fit(x=padded_train_sequences,  y=y_train,  validation_data=(padded_test_sequences, y_test),  batch_size=batch_size,  callbacks=[checkpoint],  epochs=epochs,  verbose=1)best_cnn_model = load_model('./models/cnn_multi_channel/weights-improvement-04-0.8264.hdf5')y_pred_cnn_multi_channel = best_cnn_model.predict(padded_test_sequences, verbose=1, batch_size=2048)y_pred_cnn_multi_channel = pd.DataFrame(y_pred_cnn_multi_channel, columns=['prediction'])y_pred_cnn_multi_channel['prediction'] = y_pred_cnn_multi_channel['prediction'].map(lambda p: 1 if p >= 0.5 else 0)y_pred_cnn_multi_channel.to_csv('./predictions/y_pred_cnn_multi_channel.csv', index=False)y_pred_cnn_multi_channel = pd.read_csv('./predictions/y_pred_cnn_multi_channel.csv')print(accuracy_score(y_test, y_pred_cnn_multi_channel))0.826409655689

準確率為 82.6%，沒有 RNN 那麼高，但是還是比 BOW 模型要好。也許調整超參數（濾波器的數量和大小）會帶來一些提升？

7. RNN + CNN

RNN 很強大。但有人發現可以通過在循環層上疊加捲積層使網絡變得更強大。

這背後的原理在於 RNN 允許嵌入序列和之前單詞的相關信息，CNN 可以使用這些嵌入並從中提取局部特徵。這兩個層一起工作可以稱得上是強強聯合。

更多相關信息請參閱：http://konukoii.com/blog/2018/02/19/twitter-sentiment-analysis-using-combined-lstm-cnn-models/

def get_rnn_cnn_model(): embedding_dim = 300 inp = Input(shape=(MAX_LENGTH, )) x = Embedding(MAX_NB_WORDS, embedding_dim, weights=[embedding_matrix], input_length=MAX_LENGTH, trainable=True)(inp) x = SpatialDropout1D(0.3)(x) x = Bidirectional(GRU(100, return_sequences=True))(x) x = Conv1D(64, kernel_size = 2, padding = "valid", kernel_initializer = "he_uniform")(x) avg_pool = GlobalAveragePooling1D()(x) max_pool = GlobalMaxPooling1D()(x) conc = concatenate([avg_pool, max_pool]) outp = Dense(1, activation="sigmoid")(conc) model = Model(inputs=inp, outputs=outp) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) return modelrnn_cnn_model = get_rnn_cnn_model()plot_model(rnn_cnn_model, to_file='./images/article_5/rnn_cnn_model.png', show_shapes=True, show_layer_names=True)

filepath="./models/rnn_cnn/weights-improvement-{epoch:02d}-{val_acc:.4f}.hdf5"checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True, mode='max')batch_size = 256epochs = 4history = rnn_cnn_model.fit(x=padded_train_sequences,  y=y_train,  validation_data=(padded_test_sequences, y_test),  batch_size=batch_size,  callbacks=[checkpoint],  epochs=epochs,  verbose=1)best_rnn_cnn_model = load_model('./models/rnn_cnn/weights-improvement-03-0.8379.hdf5')y_pred_rnn_cnn = best_rnn_cnn_model.predict(padded_test_sequences, verbose=1, batch_size=2048)y_pred_rnn_cnn = pd.DataFrame(y_pred_rnn_cnn, columns=['prediction'])y_pred_rnn_cnn['prediction'] = y_pred_rnn_cnn['prediction'].map(lambda p: 1 if p >= 0.5 else 0)y_pred_rnn_cnn.to_csv('./predictions/y_pred_rnn_cnn.csv', index=False)y_pred_rnn_cnn = pd.read_csv('./predictions/y_pred_rnn_cnn.csv')print(accuracy_score(y_test, y_pred_rnn_cnn))0.837882453033

這樣可得到 83.8% 的準確率，這也是到現在為止最好的結果。

8. 總結

在運行了 7 個不同的模型後，我們對比了一下：

import seaborn as snsfrom sklearn.metrics import roc_auc_scoresns.set_style("whitegrid")sns.set_palette("pastel")predictions_files = os.listdir('./predictions/')predictions_dfs = []for f in predictions_files: aux = pd.read_csv('./predictions/{0}'.format(f)) aux.columns = [f.strip('.csv')] predictions_dfs.append(aux)predictions = pd.concat(predictions_dfs, axis=1)scores = {}for column in tqdm_notebook(predictions.columns, leave=False): if column != 'y_true': s = accuracy_score(predictions['y_true'].values, predictions[column].values) scores[column] = sscores = pd.DataFrame([scores], index=['accuracy'])mapping_name = dict(zip(list(scores.columns),  ['Char ngram + LR', '(Word + Char ngram) + LR',  'Word ngram + LR', 'CNN (multi channel)', 'RNN + CNN', 'RNN no embd.', 'RNN + GloVe embds.']))scores = scores.rename(columns=mapping_name)scores = scores[['Word ngram + LR', 'Char ngram + LR', '(Word + Char ngram) + LR', 'RNN no embd.', 'RNN + GloVe embds.', 'CNN (multi channel)', 'RNN + CNN']]scores = scores.Tax = scores['accuracy'].plot(kind='bar',  figsize=(16, 5),  ylim=(scores.accuracy.min()*0.97, scores.accuracy.max() * 1.01),  color='red',  alpha=0.75,  rot=45,  fontsize=13)ax.set_title('Comparative accuracy of the different models')for i in ax.patches: ax.annotate(str(round(i.get_height(), 3)),  (i.get_x() + 0.1, i.get_height() * 1.002), color='dimgrey', fontsize=14)

我們可以很快地看出在這些模型的預測值之間的關聯。

fig = plt.figure(figsize=(10, 5))sns.heatmap(predictions.drop('y_true', axis=1).corr(method='kendall'), cmap="Blues", annot=True);

結論

以下是幾條我認為值得與大家分享的發現：

使用字符級 ngram 的詞袋模型很有效。不要低估詞袋模型，它計算成本低且易於解釋。
RNN 很強大。但你也可以用 GloVe 這樣的外部預訓練嵌入套在 RNN 模型上。當然也可以用 word2vec 和 FastText 等其他常見嵌入。
CNN 也可以應用於文本。CNN 的主要優勢在於訓練速度很快。此外，對 NLP 任務而言，CNN 從文本中提取局部特徵的能力也很有趣。
RNN 和 CNN 可以堆疊在一起，可以同時利用這兩種結構。

這篇文章很長。希望本文能對大家有所幫助。

分享到:

閱讀更多 機器之心 的文章

關鍵字: 任務 Word GitHub

Genetic CNN: 經典NAS算法，遺傳算法的標準套用

目標檢測之GA-RPN

卷積神經網絡CNN的基本結構

後R-CNN時代，Faster R-CNN、SSD...Faster R-CNN系列勝了嗎？

用漸進打磨獲得最佳的顯著性目標檢測結果

深入理解卷積神經網絡(CNN)的原理(難，就要廣泛看，多看)

CNN vs RNN vs ANN——3種神經網絡分析模型，你pick誰？

Day6:殘差網絡中的Skip Connection

人工智能Keras圖像分類器（CNN卷積神經網絡的圖片識別篇）

人工智能Keras CNN卷積神經網絡的圖片識別

CNN中的反向傳播

開源MatrixNets：用於對象檢測的新的比例和長寬比感知體系結構

01.13 推薦系統中的深度匹配模型（下）

python3 32.keras使用卷積神經網絡(CNN)完成貓狗分類學習筆記

基於 CNN 的文本分類算法

11.24 使用卷積神經網絡進行文本分類

ICCV 2019論文解讀：數據有噪聲怎麼辦？你可以考慮負學習

基於 CNN 的驗證碼破解實戰

目標檢測算法系列】二、SPP-Net算法

CNN，RNN，LSTM 都是什麼？（小白深度學習入門）

常用的 Normalization 方法：BN、LN、IN、GN（附代碼＆鏈接）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

卷積神經網絡CNN

遷移學習在自然語言處理中的應用

TensorFlow系列專題（十二）：CNN最全原理剖析（序）

卷積神經網絡(CNN)的相關概念

案例｜如何用Python 和 Mask R-CNN 自動尋找停車位（附源碼）

CNN 風格遷移實戰（附python代碼）

CNN，GAN，AE和VAE概述

梯度下降優化算法概述

08.20 機器不學習：卷積神經網絡 CNN 筆記-目標探測2

機器不學習：卷積神經網絡 CNN 筆記-目標探測1

機器不學習：CNN-RNN結合的3D物體識別分類

了解卷積神經網絡如何使用TDA學習

深度卷積對抗生成網絡(DCGAN)

基於深度學習的目標檢測算法詳解（二）:Faster R-CNN與Mask R-CNN

基於深度學習的目標檢測算法詳解（一）:R-CNN與Fast R-CNN

入門｜一文簡述循環神經網絡

卷積神經網絡深入解析-CNN

06.17 卷積神經網絡深入解析-CNN

06.13 圖像語義分割的工作原理和CNN架構變遷

05.18 「薦讀」卷積神經網絡的通俗易懂解讀（後篇）

05.16 如何構建卷積網絡 Convolutional Network？

學界｜DeepMind論文：CNN的變形穩定性和池化無關，濾波器平滑度才是關鍵

04.23 全連接網絡到卷積神經網絡逐步推導（組圖無公式）

程式設計師小伙9行tensorflow代碼，演示卷積網絡(CNN),有代碼

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"