英文原味：詞袋模型 vs. 深度序列模型

2017-03-29 22:15:18 產品GEEK

The rise of Machine Learning, Deep Learning, and Artificial Intelligence more generally has been undeniable, and it has already had a massive impact on the field of computer science. By now, you might have heard how deep learning has surpassed super-human performance in a number of tasks ranging from image recognition to the game of Go.

The deep learning community is now eyeing natural language processing (NLP) as the next frontier of research and application.

One beauty of deep learning is that advances tend to be very generic. For example, techniques that make deep learning work for one domain can often be transferred to other domains with little to no modification. More specifically, the approach of building massive, computationally expensive, deep learning models for image and speech recognition has spilled into NLP. One can see this in the case of the most recent state-of-the-art translation system, which outperformed all previous results, but required an exorbitant amount of computers. Such demanding systems can capture very complex patterns occasionally found in real world data, but this has led many to apply these massive models to all tasks. This raises the question:

Do all tasks always have the complexity that requires such models?
Let's look at the innards of a two layered MLP trained on bag-of-words embeddings for sentiment analysis.

The innards of a simple deep learning system, known as the bag-of-words, classifying sentences as positive or negative. The visualization is a T-SNE of the last hidden layer from a in a two-layered MLP ontop of a bag-of-words. Each data point corresponds to a sentence and is coloured accordingly to the deep learning systems prediction and the true target. The bounding boxes are drawn according to the linguistic content in the sentences. Later you will get to inspect them for yourself with an interactive plot!

The boundary boxes in the plot above offers some important insights. Real world data comes in different difficulties, some sentences are easily classified while others contain complex semantic structures. In the case of easily classified sentences, running a high-capacity system might be unnessasary. A much simpler model could potentially do an equivalent job. This blog post will explore whether this is the case. It will show that we can often do with simple models.

Deep learning with text

Most deep learning methods require floating point numbers as input and, unless you have been working with text before, you might wonder:

How do I go from a piece of text to deep learning?

A core issue with text is how to represent an arbitrarily large amount of information, given the length of the material. A popular solution has been tokenizing text into either words, sub-words, or even characters. Each word is transformed into a floating point vector using well studied methods such as word2vec or GloVe. This provides for meaningful representations of a word through the implicit relationships between different words.

Take a word, turn it into a high dimensional embedding (e.g. 300 dimensions) and use PCA or T-SNE (popular tools to reduce dimensionality, e.g. to two dimensions in this case) and you will find interesting relationships between words. As one can see above the distance between uncle and aunt is similar to the distance between man and woman. (Source: Mikolov et al., 2013)

By using tokenization and the word2vec methods we can turn a piece of text into a sequence of floating point representations of each word.

Now, what can we use a sequence of word representations for?

Bag-of-words

Now let's talk about the bag-of-words (BoW), perhaps one of the simplest machine learning algorithms you will ever learn!

英文原味：詞袋模型 vs. 深度序列模型

Take a number of word representations (the bottom gray boxes) and either sum or average them into a common representation (blue box) that should then contain some information from each word. In this post, the common representation is used to predict whether the sentence is positive or negative (red box).

Simply take the mean of the words across each feature dimension. It turns out that simply averaging word embeddings, even though it completely ignores the order of the sentence, works well on many simple practical examples and will often give a strong baseline when combined with deep neural networks (shown later). Furthermore, taking the mean is a cheap operation and reduces the dimensionality of the sentence to a fixed sized vector.

Recurrent Neural Networks

Some sentences require high precision or rely on sentence structure. Using a bag-of-words for these problems might not cut it. Instead, you might want to consider the amazing recurrent neural network!

英文原味：詞袋模型 vs. 深度序列模型

At each timestep (going from left to right) an input (e.g. a word) is fed to the RNN (grey box) together with the previous internal memory (blue box). The RNN then perform some computation that results in a new internal memory (blue box) that represents all previous units seen (e.g. all previous words). The RNN should now contain information on a sentence level that allows it to better predict whether the sentence is positive or negative (red box).

Each word embedding is, in order, fed to a recurrent neural network that then manages to store previously seen information and combine it with new words. When using an RNN powered by the famous memory cells such as the long-short term memory cell (LSTM) or the gated recurrent unit (GRU), the RNN is capable of remembering what has happened in sentences with up to many words! (because of the LSTM's success, the RNN with LSTM memory cells is often referred to as the LSTM). The biggest of these models stack eight of these on top of one another.

英文原味：詞袋模型 vs. 深度序列模型

Welcome to probably the most advanced deep learning model ever created, which uses RNNs with LSTM cells to translate language pairs. The pink, orange and green boxes are recurrent neural networks with LSTM cells. They also applies tricks of the trade such as skip connections between the lstm layers and a method known as attention. Also notice that the green LSTM is heading in the opposite direction. When combined with a normal LSTM this is called a bidirectional LSTM, as it gains information from the sequence of data in both directions. For more information check out this blog post by Stephen Merity. (Source: Wu et al., 2016)

However, the LSTM is much, much more expensive than the cheap bag-of-words model and will often require an experienced deep learning engineer to implement and support efficiently with high-performance computing hardware.

分享到:

閱讀更多 產品GEEK 的文章

關鍵字: 原味 Word 教育

要對高校教育質量負責！網絡答辯不是降低標準的理由

論文答辯，是高校畢業生完成教育過程的重要一環。疫情期間，為了保證學生順利畢業，多所高校已開展或即將開展博士、碩士、學士等多層次的畢業論文網絡答辯。

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

經省委新冠肺炎疫情處置工作領導小組研究同意，開學條件核驗合格的高等學校，其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

陝西省：將公佈有招生資質中職學校名錄

昨日記者獲悉，省教育廳和省人社廳就做好今年全省中職學校招生有關事項發出通知。據悉，陝西省兩部門要求，各市要堅持職普比不低於4:6底線要求，編制高中階段學校招生計劃，5月11日前將今年高中階段教育學校招生計劃表報省教育廳備案，省政府教育督導委員會將對職普比進行督導檢查。

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

據天津市新型冠狀病毒感染的肺炎疫情防控工作指揮部，根據天津市新冠肺炎疫情防控工作情況，市防控指揮部決定，天津市2020年春季學期第三批學生復課開學安排如下:5月18日，全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

一場突如其來的疫情，讓教培市場迎來了2020年一次重新洗牌的機會。近日，記者調查發現，部分中小型教培機構為了規避疫情帶來的影響

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

量詞是小學語文必會的基礎知識，也是低年級考試中經常出現的考題但是孩子們學習起來並不容易，一是因為漢語包含的量詞很多，二是有的量詞使用並不唯一。下面是給低年級孩子整理了一份量詞大全及識記他們的順口溜，一起來看吧！

山東高校開學時間確定

經山東省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

春日漸遠，夏日初長。我和你，揮手作別於一月，重逢於五月，三個多月的小別離，那份假期不斷被充值的小興奮，不知何時變成了期待歸來的想念。廣電南路16號，鄭州市第四十七初級中學在想你們，想見到你們。

山東高校開學時間確定

經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

豔陽高照五月天逐夢前行正當時

猛獁新聞·東方今報記者

唐山檢查初三年級開學準備工作

5月6日，副市長曹全民在市教育局、市衛健委相關負責同志的陪同下，到我市部分初中檢查初三年級開學準備工作。

高三學生迎來複課後首次線下“大考”

6日，朝陽區4000多名高三學生迎來了新高考“一模”考試，這也是高三複課以來首次線下“大考“。“都是在行政班裡考試，每個學生考試的地點是不變的，這就防止了學生之間的這種交叉，當A學生考這科的時候，B學生沒有，那麼他有一個專門自己的獨立的一個自習室進行自習，或者說下午半天沒有考試的

山東高校要開學了

重磅！山東高校開學時間確定

大小新聞客戶端5月7日訊（YMG全媒體記者

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

為確保廣大師生身體健康和生命安全，保證學校2020年春季開學順利復課，2020年5月5日，莒縣第三中學召開了2020年春季復學準備暨教學銜接工作會議。學校黨總支書記、校長焦廣良帶領全校教師學習相關文件及會議精神，並提出了復課復學的具體工作要求。

山東高校開學時間確定 5月16日起開學返校

半島網5月7日訊今天，山東省教育廳公佈山東高校開學時間，經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等

山西忻州市第十一中學教師招聘7人啟事

忻州市第十一中學教師招聘啟事　　一、學校簡介　　忻州市第十一中學位於忻州市和平西街，是一所市直公立寄宿制初級中學。

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

根據《教育部辦公廳關於第十四屆宋慶齡獎學金評選工作的通知（教基廳函〔2019〕43號）》要求，在省級教育部門評審推薦，宋慶齡獎學金評審委員會認真審核的基礎上，教育部今天對擬認定的第十四屆宋慶齡獎學金獲獎候選人和優秀組織獎獲獎候選名單予以公示。

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

復學後，體育課怎麼上？市教育局昨日出臺工作指南，並且明確:上體育課如果能保持安全距離，可以不戴口罩。

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

5月6日，柳州市教育系統新型冠狀病毒感染的肺炎疫情防控工作領導小組發佈《關於做好2020年春季學期全市小學開學工作的通知》，明確5月11日（星期一）小學1-6年級開學。

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

上游新聞·重慶晚報慢新聞記者

教育部：努力開發適合畢業生的科研助理崗位

來源：科技日報6日，由教育部、人力資源和社會保障部、工業和信息化部、國資委、中央廣播電視總檯、共青團中央等6部門共同主辦的2020屆普通高校畢業生就業“百日衝刺”行動正式啟動。啟動儀式上發佈了促進高校畢業生就業創業十大專項行動。

轉起周知！天津初高中非畢業班18日開學

15月18日，天津全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。25月15日以後，天津各高等院校、中等職業學校非畢業年級由學校根據自身實際情況，自主確定學生返校時間。

秦皇島昌黎縣高端汲養助力教師專業發展

按照昌黎縣教育和體育局工作安排，4月29日，昌黎縣教師發展中心組織全縣中小學教師集體參與了由中國教育學會主辦，北京市海淀區教師進修學校承辦的“在線與在校——面向未來的混合式教學與教研”雲端研討會。

強基計劃：華中科技大學今年首招計劃不超過120人

記者今日從華中科技大學獲悉，該校發佈了《華中科技大學2020年強基計劃招生簡章》，正式啟動2020年基礎學科招生改革試點工作。

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

近段時間，美國大學紛紛出臺新的招生政策，例如接受申請者不提交標化成績、延長申請日期、降低最低分數線等等。

湖北3地確定初三開學和中考時間

為統籌推進疫情防控和經濟社會發展工作，安全有序恢復教育教學秩序，經市新冠肺炎疫情防控指揮部綜合研判、審慎研究決定，現就我市2020年中考時間和初中三年級春季學期開學時間安排通告如下:

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

作為2020屆普通高校畢業生就業“百日衝刺”行動的重要平臺，由中央廣播電視總檯與教育部共同發起，總檯央視頻攜手國投人力主辦的“24365國聘行動”聯合專場招聘活動，5月6日正式上線啟動。

市體育中學高三年級復學

黃岡新聞網訊（通訊員王雅蘭）5月6日，市體育中學高三年級復學第一天。市體育事業發展中心主任餘覓、副主任王立新到學校檢查疫情防控工作。當天上午，全體學生有序排隊進行核酸檢測，城區學生由家長帶回家自我隔離，非城區學生統一安排入住賓館，等待核酸檢測結果出來後統一返校。

考研雲複試準備好了嗎青島多所高校公佈分數線

原標題：考研“雲複試”你準備好了嗎島城多所高校公佈複試基本分數線及相關操作要求近日，海大、中石大、青大等駐青高校陸續公佈了碩士招生複試基本分數線及相關要求。網絡遠程複試成為高校研究生複試的主要方式。各高校也都根據自身專業需要，對考生複試安排做了要求。

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

經過漫長的近兩個月的線上教學，4月26日至4月30日，4—6年級度過了為期一週的線下教學。4月30日下午4點，五里中小召開了4—6年級的線上線下銜接交流會。

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

繼給2萬餘名學生退還3個月住宿費（總額1700萬）後，5月6日，陝西西安翻譯學院在學生正式開始返校後，又掏400萬元為2萬師生免費測核酸。該校5月5日給教職員工和後勤三產人員進行了檢測，從6日起一直持續到12日，每天都會對返校學生進行檢測。

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

現在參加高考的人是2000年左右出生的，每年全國出生人口大約1900萬，其中，全國參加高考的人大約是920萬人，本科錄取人數約309萬人，也就是說，不管你被什麼本科錄取了，就算是最普通的三本，也已經是6選1的突出人才。

研究馬克思主義要有立場有能力

“馬院姓馬，在馬言馬”的鮮明導向和辦學原則，既是基本標準、根本原則，又是高標準、高要求;在馬克思主義學院工作，由於環境使然，講立場很容易，不容易的是有真正的立場，有能力捍衛立場。

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

日前，國家人社部、教育部等七部委下發通知表示:經國務院同意，對《國家職業資格目錄》中部分職業資格實施“先上崗、再考證”階段性措施，用人單位在2020年12月31日前招聘高校畢業生，不得將取得教師資格、護士職業資格等作為限制性條件。

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

滄水鋪鎮位於湖南省益陽市東南部，是“湖南省百強鎮”，是益陽市的工業重鎮、益陽市東接東進戰略的“橋頭堡”。益陽市率先在赫山區滄水鋪開展“5G+智慧小鎮”建設，並爭取打造成為全國首個5G小鎮。

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

桑園鎮第二中學校長

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

桑園鎮中心初中校長

蘭山對29所初中學校開學條件進行核驗整改完畢

琅琊新聞網5月6日訊（臨報融媒記者

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

嶠山鎮中心初中校長

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

為加強對碩士研究生招生工作的管理，確保我校2020年研究生招生複試錄取工作規範有序安全進行，根據教育部、公安部、河北省有關文件規定，結合新冠疫情期間各項防控要求，依據《中國人民警察大學2020年碩士研究生招生複試錄取工作方案》，制定本辦法。

藁城這所小學，積極開展爭做新時代好少年活動

鑑於目前疫情還沒有徹底結束，在“五一”國際勞動節來臨之際，昌盛街小學在校長武保華的倡導下，在線上組織各班以“家務勞動我能行，親力親為勇當先”為主題的實踐教育活動，培養孩子們愛勞動意識，並懂得珍惜勞動人民的勞動成果。

剛剛，湖北一地公佈初三開學和中考時間安排

襄陽市新型冠狀病毒感染肺炎疫情防控指揮部關於2020年春季初三年級學生開學時間及中考安排的通告(第16號)為安全有序恢復我市教育教學秩序，經市疫情防控指揮部同意，現就全市2020年春季初三年級學生開學時間及中考安排通告如下：一、初三年級開學時間安排全市初三年級學生2020年5月1

現場實拍！羅山初中、小學開學第一天

羅山的初一二學生和小學四五六年級學生們終於結束了“超長待機”的寒假迎來了開學開學可能會遲到但是永遠不會缺席接下來跟隨小編直擊羅山今日開學現場！

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

5月6日，南京市小學五、六年級，五年制高職四、五年級，三年制中職三年級學生返校復學。當天，南京市雨花臺區文明辦開展“童心戰‘疫’啟程未來”主題教育活動，引導中小學生以積極的主人翁姿態踐行文明衛生生活、關注關心社會，讓疫情危機成為學生認識社會、堅強成長的人生經歷。

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

這個五一假期，有這樣一群人，他們放棄休假，堅守崗位，奮鬥不息，在不同的戰線默默揮灑汗水，持續發揚“盯著幹、快乾、幹好”的工作作風，用勞動和奮鬥奏響時代強音，用執著和忠誠踐行初心使命，用拼搏和擔當助推高質量發展、趕超發展，他們有一個響亮的名字——昌樂教育人！

大學國際化排名，上海交通大學第三

2019年，西南交通大學大學國際化評價研究中心發佈了中國大陸高校國際化排行，從學生國際化（15%）、教師國際化（15%）、教學國際化（10%）、科研國際化（15%）、文化交流（5%）、國際顯示度（10%）等維度，綜合同行專家評議（30%）、特色項目進行評價，全面、客觀、公正地檢驗

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作

山東各地制定嚴格開學條件核驗標準，科學防控，多措並舉，全力做好復學復課準備工作。德州市各學校制定嚴格開學工作方案，全面落實好細化人員摸排、衛生防疫、培訓演練、物資保障等各項措施。

英文原味：詞袋模型 vs. 深度序列模型

相關文章:

要對高校教育質量負責！網絡答辯不是降低標準的理由

最新！滬2020年普通高等學校招生志願填報與投檔錄取實施辦法公佈

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

陝西省：將公佈有招生資質中職學校名錄

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

山東高校開學時間確定

鶴壁看鄭州，夏初長 你歸來 廣電南路16號迎來大團圓

山東高校開學時間確定

豔陽高照五月天 逐夢前行正當時

唐山檢查初三年級開學準備工作

高三學生迎來複課後首次線下“大考”

山東高校要開學了

重磅！山東高校開學時間確定

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

山東高校開學時間確定 5月16日起開學返校

山西忻州市第十一中學教師招聘7人啟事

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

教育部：努力開發適合畢業生的科研助理崗位

轉起周知！天津初高中非畢業班18日開學

秦皇島昌黎縣高端汲養助力教師專業發展

強基計劃：華中科技大學今年首招計劃不超過120人

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

湖北3地確定初三開學和中考時間

百日衝刺促就業 萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

市體育中學高三年級復學

考研雲複試準備好了嗎 青島多所高校公佈分數線

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

研究馬克思主義要有立場有能力

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

蘭山對29所初中學校開學條件進行核驗 整改完畢

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

藁城這所小學，積極開展爭做新時代好少年活動

剛剛，湖北一地公佈初三開學和中考時間安排

現場實拍！羅山初中、小學開學第一天

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

堅守最美麗 勞動最光榮 昌樂縣教育工作者：愛崗敬業無私奉獻

大學國際化排名，上海交通大學第三

聽新聞丨德州：線上線下培訓防疫知識 全力做好開學復課準備工作

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

豔陽高照五月天逐夢前行正當時

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

考研雲複試準備好了嗎青島多所高校公佈分數線

蘭山對29所初中學校開學條件進行核驗整改完畢

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作