2019-03-25 21:29:22 湃紳Python

簡單的製作神經機器翻譯技術為谷歌翻譯提供幫助

機器翻譯：

兩種思想流派：

使用統計方法的經驗試驗和誤差方法
理論方法涉及基礎語言研究

Babel's Fish： 1997年由AltaVista搜索引擎推出的世界上第一個網絡翻譯工具。

Seq2Seq建模簡介：用於NLP任務，如文本摘要，語音識別，DNA序列建模等。

典型的seq2seq模型有兩個主要成分：

a）編碼器

b）解碼器

使用Keras在Python中實現：

我們將使用來自http://www.manythings.org/anki/的中文 - 英語句子對數據。和文件夾名稱是cmn-eng，將包含cmn.txt。

1、導入所需的庫：

import string
import re
from numpy import array, argmax, random, take
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding, RepeatVector
from keras.preprocessing.text import Tokenizer
from keras.callbacks import ModelCheckpoint
from keras.preprocessing.sequence import pad_sequences
from keras.models import load_model
from keras import optimizers
import matplotlib.pyplot as plt
%matplotlib inline
pd.set_option('display.max_colwidth', 200)

2、閱讀IDE中的數據：

# function to read raw text file
def read_text(filename):
 # open the file
 file = open(filename, mode='rt', encoding='utf-8')
 
 # read all text
 text = file.read()
 file.close()
 return text
# split a text into sentences
def to_lines(text):
 sents = text.strip().split('\n')
 sents = [i.split('\t') for i in sents]
 return sents
data = read_text("cmn.txt")
cmn_eng = to_lines(data)
cmn_eng = array(cmn_eng)

我們使用50000個句子對來減少模型的訓練時間。

cmn_eng = cmn_eng[:50000,:]

文本預處理：

大多數數據都是非結構化的

a）文本清理

# Remove punctuation
cmn_eng[:,0] = [s.translate(str.maketrans('', '', string.punctuation)) for s in cmn_eng[:,0]]
cmn_eng[:,1] = [s.translate(str.maketrans('', '', string.punctuation)) for s in cmn_eng[:,1]]
cmn_eng

b）文本到序列轉換：

我們將分別在兩個單獨的英語和漢語列表中捕獲所有句子的長度。

# empty lists
eng_l = []
cmn_l = []
# populate the lists with sentence lengths
for i in cmn_eng[:,0]:
 eng_l.append(len(i.split()))
for i in cmn_eng[:,1]:
 cmn_l.append(len(i.split())) 

length_df = pd.DataFrame({'eng':eng_l, 'cmn':cmn_l})
length_df.hist(bins = 30)
plt.show()

接下來，我們使用Keras Tokenizer（）類對文本數據進行向量化。

# function to build a tokenizer
def tokenization(lines):
 tokenizer = Tokenizer()
 tokenizer.fit_on_texts(lines)
 return tokenizer
# prepare english tokenizer
eng_tokenizer = tokenization(cmn_eng[:, 0])
eng_vocab_size = len(eng_tokenizer.word_index) + 1
eng_length = 8
print('English Vocabulary Size: %d' % eng_vocab_size)
# prepare Deutch tokenizer
cmn_tokenizer = tokenization(cmn_eng[:, 1])
cmn_vocab_size = len(cmn_tokenizer.word_index) + 1
cmn_length = 8
print('Deutch Vocabulary Size: %d' % cmn_vocab_size)
# encode and pad sequences
def encode_sequences(tokenizer, length, lines):
 # integer encode sequences
 seq = tokenizer.texts_to_sequences(lines)
 # pad sequences with 0 values
 seq = pad_sequences(seq, maxlen=length, padding='post')
 return seq

3. 模型構建：

現在，我們將數據分成訓練和測試集，用於模型訓練和評估。

from sklearn.model_selection import train_test_split
# split data into train and test set
train, test = train_test_split(cmn_eng, test_size=0.2, random_state = 12)
# prepare training data
trainX = encode_sequences(cmn_tokenizer, cmn_length, train[:, 1])
trainY = encode_sequences(eng_tokenizer, eng_length, train[:, 0])
# prepare validation data
testX = encode_sequences(cmn_tokenizer, cmn_length, test[:, 1])
testY = encode_sequences(eng_tokenizer, eng_length, test[:, 0])

現在我們定義我們的Seq2Seq模型架構：

對於編碼器，我們將使用嵌入層和LSTM層
對於解碼器，我們將使用另一個LSTM層，然後是密集層

# build NMT model
def define_model(in_vocab,out_vocab, in_timesteps,out_timesteps,units):
 model = Sequential()
 model.add(Embedding(in_vocab, units, input_length=in_timesteps, mask_zero=True))
 model.add(LSTM(units))
 model.add(RepeatVector(out_timesteps))
 model.add(LSTM(units, return_sequences=True))
 model.add(Dense(out_vocab, activation='softmax'))
 return model
# model compilation
model = define_model(cmn_vocab_size, eng_vocab_size, cmn_length, eng_length, 512)

使用RMSprop優化器：

rms = optimizers.RMSprop(lr=0.001)
model.compile(optimizer=rms, loss='sparse_categorical_crossentropy')

sparse_categorical_crossentropy用作損失函數。

4. 訓練我們的模型

我們將訓練30個週期，batch為512，驗證分為20％。80％的數據將用於訓練模型，其餘數據用於評估模型。我們還將使用ModelCheckpoint（）函數來保存驗證損失最小的模型。

filename = 'model.h1.24_jan_19'
checkpoint = ModelCheckpoint(filename, monitor='val_loss', verbose=1, save_best_only=True, mode='min')
# train model
history = model.fit(trainX, trainY.reshape(trainY.shape[0], trainY.shape[1], 1),
 epochs=30, batch_size=512, validation_split = 0.2,callbacks=[checkpoint], 
 verbose=1)

5. 加載保存的模型並對不可見的data-testX進行預測。

model = load_model('model.h1.24_jan_19')
preds = model.predict_classes(testX.reshape((testX.shape[0],testX.shape[1])))

分享到:

閱讀更多 湃紳Python 的文章

關鍵字: 建模集成開發環境

神經機器翻譯技術為谷歌翻譯提供幫助

簡單的製作神經機器翻譯技術為谷歌翻譯提供幫助

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？