BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行

2019-12-11 10:59:19 中意就係中意

BERT，作為自然語言處理領域的C位選手，總是NLPer們逃不過的一環。

但是，如果是經驗匱乏、基礎薄弱的選手，想玩轉BERT還是有點難的。

現在，科技博主Jay Alammar創作了一篇《第一次使用BERT的圖形化指南》，用非常簡單清晰的方式介紹瞭如何上手BERT，從BERT的原理到實際操作的過程都有圖示，甚至圖比代碼都多。量子位為大家編譯搬運如下~

這篇文章主要以用BERT的變體對句子進行分類為例，介紹了BERT的使用方式。

最後的傳送門處還有Colab的地址。

數據集：SST2

首先，我們需要用到SST2數據集，裡面的句子來自於一些電影評論。

如果評論者對電影表示肯定讚賞，就會有“1”的標籤；

如果評論者不喜歡這個電影，發表了負面評論，就會有“0”的標籤。

數據集裡的電影評論是用英文寫的，大概長這樣：

句子情感分類模型

現在，藉助SST2影評數據集，我們需要創建一個自動對英文句子進行分類的模型。

如果判斷是肯定的、正面的，就標註1；如果判斷是否定的、負面的，就標註0。

大致的邏輯是這樣的：

輸入一句話，經過電影評論句子分類器，輸出積極或消極的結果。

這個模型實際上是兩個模型組成的。

DistilBERT負責處理句子，提取信息，然後傳遞給下一個模型，這是“抱抱臉公司”（HuggingFace）做的一個開源BERT版本，比較輕量級而且運行快，性能和原版差不多。

下一個模型就是一個基本的邏輯迴歸模型，它的輸入是DistilBERT的處理結果，輸出積極或消極的結果。

我們在兩個模型之間傳遞的數據是大小為768的向量，可以把這個向量當成可以用來分類的句子嵌入。

模型的訓練過程

雖然我們會用到兩個模型，但是我們只需要訓練邏輯迴歸模型就行了，DistilBERT可以直接用預訓練好的版本。

不過，這個模型從來都沒有針對句子分類任務被訓練或微調過，我們從通用目標BERT獲取一些句子分類能力，尤其是對於第一個位置的BERT輸出而言（與[CLS]token相關），這是BERT的第二個訓練目標，接下來就是句子分類了，這個目標似乎是訓練模型將全句意義封裝到第一位置的輸出位置。

這個Transformer庫為我們提供了DistilBERT的實施和模型的預訓練版本。

教程概述

這是本篇教程的整個計劃，我們先用訓練過的DistilBERT來生成2000個句子的句子嵌入。

之後就不用再碰DistilBERT了，這裡都是Scikit Learn，我們在這個數據集上做常規的訓練和測試：

針對第一個模型也就是DistilBERT進行訓練測試，創建我們訓練用的數據集並評估第二個模型也就是邏輯迴歸模型。

然後在訓練集上訓練邏輯迴歸模型：

單個預測是如何進行的

在研究代碼解釋如何訓練模型之前，我們先看看一個訓練後的模型如何進行預測。

我們試著給這句話進行分類預測：

a visually stunning rumination on love

關於愛情的視覺上令人驚歎的反省

第一步，用BERT tokenizer把句子分為兩個token；

第二步，我們加入句子分類用的特殊token（第一個位置的是[CLS]，句子結束的位置是[SEP]）。

第三步，tokenizer用嵌入表中的ID代替每個token，成為訓練模型的組件。

注意，tokenizer是在這一行代碼裡完成所有步驟的：

1tokenizer.encode("a visually stunning rumination on love", add_special_tokens=True)

現在我們的輸入句子是可以傳遞給DistilBERT的適當狀態了。

這個步驟可視化起來長這樣：

從DistilBERT經過

輸入向量從DistilBERT經過，輸出每個輸入token的向量，每個向量有768個數字組成。

因為這是個句子分類的任務，所以我們忽視掉除第一個向量之外的其他內容（第一個向量和[CLS]token相關），然後把第一個向量作為邏輯迴歸模型的輸入。

從這裡開始，邏輯迴歸模型的工作就是根據它從訓練過程中學到的經驗，把這個向量進行分類。

這個預測計算的過程是這樣的：

代碼

現在，開始看這整個過程的代碼，後面你也可以在傳送門裡看到GitHub代碼和Colab上的可運行版本。

首先，導入trade工具。

1import numpy as np
2import pandas as pd
3import torch
4import transformers as ppb # pytorch transformers
5from sklearn.linear_model import LogisticRegression
6from sklearn.model_selection import cross_val_score
7from sklearn.model_selection import train_test_split

你可以在GitHub裡找到這個數據集，所以我們可以直接把它導入到pandas dataframe裡。

1df = pd.read_csv('https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv', delimiter='\\t', header=None)

可以直接用df.head() 查看dataframe的前五行，看看數據集長啥樣。

1df.head()

然後就輸出：

導入預訓練DistilBERT模型和tokenizer

1model_class, tokenizer_class, pretrained_weights = (ppb.DistilBertModel, ppb.DistilBertTokenizer, 'distilbert-base-uncased')
2
3## Want BERT instead of distilBERT? Uncomment the following line:
4#model_class, tokenizer_class, pretrained_weights = (ppb.BertModel, ppb.BertTokenizer, 'bert-base-uncased')
5
6# Load pretrained model/tokenizer
7tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
8model = model_class.from_pretrained(pretrained_weights)

現在可以對這個數據集tokenize了。

注意，這一步和上面的例子不同，例子只處理了一個句子，但是我們要批處理所有的句子。

Tokenization

1tokenized = df[0].apply((lambda x: tokenizer.encode(x, add_special_tokens=True)))

這一步讓每個句子都變成ID列表。

數據集是當前的列表（或者pandas Series/DataFrame），在DistilBERT處理它之前，我們需要給所有向量統一規格，給短句子加上token 0。

填上0之後，現在就有了一個成形的矩陣/張量可以投餵給BERT了：

用DistilBERT處理

現在，為填充的token矩陣創造一個輸入張量，發送給DistilBERT。

1input_ids = torch.tensor(np.array(padded))
2
3with torch.no_grad():
4 last_hidden_states = model(input_ids)

運行這一步之後，last_hidden_states保留DistilBERT的輸出。

打開BERT的輸出張量

解壓縮這個3-d輸出張量，先檢查它的尺寸：

回顧處理句子的過程

每行都和我們數據集裡的一個句子關聯，回顧一下，整個處理過程是這樣的：

挑出重要部分

關於句子分類，我們只對BERT的[CLS] token輸出感興趣，所以我們只挑出重要部分就行了。

下面是從3D張量裡挑出我們需要的2D張量的辦法：

1# Slice the output for the first position for all the sequences, take all hidden unit outputs
2features = last_hidden_states[0][:,0,:].numpy()

現在的特徵是個2D numpy數組，裡面有我們數據集裡所有句子的句子嵌入。

邏輯迴歸數據集

現在我們有BERT的輸出了，前面邏輯迴歸模型已經已經訓練好了。下圖的798列是特徵，標籤是初始數據集裡面的。

在完成傳統的機器學習訓練測試後，我們可以拿邏輯迴歸模型再進行訓練。

1labels = df[1] 

2train_features, test_features, train_labels, test_labels = train_test_split(features, labels)

將數據分為訓練集/測試集：

接下來，在訓練集上訓練邏輯迴歸模型：

1lr_clf = LogisticRegression()
2lr_clf.fit(train_features, train_labels)

現在模型訓練完了，用測試集給它打分：

BERT，作為自然語言處理領域的C位選手，總是NLPer們逃不過的一環。 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
但是，如果是經驗匱乏、基礎薄弱的選手，想玩轉BERT還是有點難的。

現在，科技博主Jay Alammar創作了一篇《第一次使用BERT的圖形化指南》，用非常簡單清晰的方式介紹瞭如何上手BERT，從BERT的原理到實際操作的過程都有圖示，甚至圖比代碼都多。量子位為大家編譯搬運如下~

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
這篇文章主要以用BERT的變體對句子進行分類為例，介紹了BERT的使用方式。

最後的傳送門處還有Colab的地址。

數據集：SST2
首先，我們需要用到SST2數據集，裡面的句子來自於一些電影評論。

如果評論者對電影表示肯定讚賞，就會有“1”的標籤；

如果評論者不喜歡這個電影，發表了負面評論，就會有“0”的標籤。

數據集裡的電影評論是用英文寫的，大概長這樣： 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
句子情感分類模型
現在，藉助SST2影評數據集，我們需要創建一個自動對英文句子進行分類的模型。

如果判斷是肯定的、正面的，就標註1；如果判斷是否定的、負面的，就標註0。

大致的邏輯是這樣的：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
輸入一句話，經過電影評論句子分類器，輸出積極或消極的結果。

這個模型實際上是兩個模型組成的。

DistilBERT負責處理句子，提取信息，然後傳遞給下一個模型，這是“抱抱臉公司”（HuggingFace）做的一個開源BERT版本，比較輕量級而且運行快，性能和原版差不多。

下一個模型就是一個基本的邏輯迴歸模型，它的輸入是DistilBERT的處理結果，輸出積極或消極的結果。

我們在兩個模型之間傳遞的數據是大小為768的向量，可以把這個向量當成可以用來分類的句子嵌入。 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
模型的訓練過程
雖然我們會用到兩個模型，但是我們只需要訓練邏輯迴歸模型就行了，DistilBERT可以直接用預訓練好的版本。

不過，這個模型從來都沒有針對句子分類任務被訓練或微調過，我們從通用目標BERT獲取一些句子分類能力，尤其是對於第一個位置的BERT輸出而言（與[CLS]token相關），這是BERT的第二個訓練目標，接下來就是句子分類了，這個目標似乎是訓練模型將全句意義封裝到第一位置的輸出位置。

這個Transformer庫為我們提供了DistilBERT的實施和模型的預訓練版本。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
教程概述
這是本篇教程的整個計劃，我們先用訓練過的DistilBERT來生成2000個句子的句子嵌入。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
之後就不用再碰DistilBERT了，這裡都是Scikit Learn，我們在這個數據集上做常規的訓練和測試：
 

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
針對第一個模型也就是DistilBERT進行訓練測試，創建我們訓練用的數據集並評估第二個模型也就是邏輯迴歸模型。

然後在訓練集上訓練邏輯迴歸模型：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
單個預測是如何進行的
在研究代碼解釋如何訓練模型之前，我們先看看一個訓練後的模型如何進行預測。

我們試著給這句話進行分類預測：

a visually stunning rumination on love

關於愛情的視覺上令人驚歎的反省

第一步，用BERT tokenizer把句子分為兩個token；

第二步，我們加入句子分類用的特殊token（第一個位置的是[CLS]，句子結束的位置是[SEP]）。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
第三步，tokenizer用嵌入表中的ID代替每個token，成為訓練模型的組件。 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
注意，tokenizer是在這一行代碼裡完成所有步驟的：

1tokenizer.encode("a visually stunning rumination on love", add_special_tokens=True)
現在我們的輸入句子是可以傳遞給DistilBERT的適當狀態了。

這個步驟可視化起來長這樣：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
從DistilBERT經過
輸入向量從DistilBERT經過，輸出每個輸入token的向量，每個向量有768個數字組成。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
因為這是個句子分類的任務，所以我們忽視掉除第一個向量之外的其他內容（第一個向量和[CLS]token相關），然後把第一個向量作為邏輯迴歸模型的輸入。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
從這裡開始，邏輯迴歸模型的工作就是根據它從訓練過程中學到的經驗，把這個向量進行分類。

這個預測計算的過程是這樣的： 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
代碼
現在，開始看這整個過程的代碼，後面你也可以在傳送門裡看到GitHub代碼和Colab上的可運行版本。

首先，導入trade工具。

1import numpy as np
2import pandas as pd
3import torch
4import transformers as ppb # pytorch transformers
5from sklearn.linear_model import LogisticRegression
6from sklearn.model_selection import cross_val_score
7from sklearn.model_selection import train_test_split
你可以在GitHub裡找到這個數據集，所以我們可以直接把它導入到pandas dataframe裡。

1df = pd.read_csv('https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv', delimiter='\\t', header=None)
可以直接用df.head() 查看dataframe的前五行，看看數據集長啥樣。

1df.head()
然後就輸出：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
導入預訓練DistilBERT模型和tokenizer
1model_class, tokenizer_class, pretrained_weights = (ppb.DistilBertModel, ppb.DistilBertTokenizer, 'distilbert-base-uncased')
2
3## Want BERT instead of distilBERT? Uncomment the following line:
4#model_class, tokenizer_class, pretrained_weights = (ppb.BertModel, ppb.BertTokenizer, 'bert-base-uncased')
5
6# Load pretrained model/tokenizer
7tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
8model = model_class.from_pretrained(pretrained_weights)
現在可以對這個數據集tokenize了。 


注意，這一步和上面的例子不同，例子只處理了一個句子，但是我們要批處理所有的句子。

Tokenization
1tokenized = df[0].apply((lambda x: tokenizer.encode(x, add_special_tokens=True)))
這一步讓每個句子都變成ID列表。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
數據集是當前的列表（或者pandas Series/DataFrame），在DistilBERT處理它之前，我們需要給所有向量統一規格，給短句子加上token 0。

填上0之後，現在就有了一個成形的矩陣/張量可以投餵給BERT了：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
用DistilBERT處理
現在，為填充的token矩陣創造一個輸入張量，發送給DistilBERT。

1input_ids = torch.tensor(np.array(padded))
2
3with torch.no_grad():
4 last_hidden_states = model(input_ids)
運行這一步之後，last_hidden_states保留DistilBERT的輸出。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
打開BERT的輸出張量
解壓縮這個3-d輸出張量，先檢查它的尺寸： 


BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
回顧處理句子的過程
每行都和我們數據集裡的一個句子關聯，回顧一下，整個處理過程是這樣的：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
挑出重要部分
關於句子分類，我們只對BERT的[CLS] token輸出感興趣，所以我們只挑出重要部分就行了。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
下面是從3D張量裡挑出我們需要的2D張量的辦法：

1# Slice the output for the first position for all the sequences, take all hidden unit outputs
2features = last_hidden_states[0][:,0,:].numpy()
現在的特徵是個2D numpy數組，裡面有我們數據集裡所有句子的句子嵌入。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
邏輯迴歸數據集
現在我們有BERT的輸出了，前面邏輯迴歸模型已經已經訓練好了。下圖的798列是特徵，標籤是初始數據集裡面的。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行 

在完成傳統的機器學習訓練測試後，我們可以拿邏輯迴歸模型再進行訓練。

1labels = df[1]
2train_features, test_features, train_labels, test_labels = train_test_split(features, labels)
將數據分為訓練集/測試集：

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行
接下來，在訓練集上訓練邏輯迴歸模型：

1lr_clf = LogisticRegression()
2lr_clf.fit(train_features, train_labels)
現在模型訓練完了，用測試集給它打分：

1lr_clf.score(test_features, test_labels)
得出的模型準確度為81%。

Score Benchmarks
作為參考，這個數據集目前的最高準確率得分為96.8.

在這個任務裡，DistilBERT可以訓練來提升分數，這個過程叫做微調（fine-tuning），可以更新BERT的權重，來實現更好的分類句子。

微調後的DistilBERT可以實現90.7的準確率，完整的BERT模型能達到94.9的準確率。

傳送門
A Visual Guide to Using BERT for the First Time
https://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/

代碼
https://github.com/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb 


Colab
https://colab.research.google.com/github/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb

DistilBERT
https://medium.com/huggingface/distilbert-8cf3380435b51lr_clf.score(test_features, test_labels)

得出的模型準確度為81%。

Score Benchmarks

作為參考，這個數據集目前的最高準確率得分為96.8.

在這個任務裡，DistilBERT可以訓練來提升分數，這個過程叫做微調（fine-tuning），可以更新BERT的權重，來實現更好的分類句子。

微調後的DistilBERT可以實現90.7的準確率，完整的BERT模型能達到94.9的準確率。

傳送門

A Visual Guide to Using BERT for the First Time
https://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/

代碼
https://github.com/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb

Colab
https://colab.research.google.com/github/jalammar/jalammar.github.io/blob/master/notebooks/bert/A_Visual_Notebook_to_Using_BERT_for_the_First_Time.ipynb

DistilBERT
https://medium.com/huggingface/distilbert-8cf3380435b5

分享到:

閱讀更多 中意就係中意 的文章

關鍵字: 可視化技術變形金剛自然語言處理

要對高校教育質量負責！網絡答辯不是降低標準的理由

論文答辯，是高校畢業生完成教育過程的重要一環。疫情期間，為了保證學生順利畢業，多所高校已開展或即將開展博士、碩士、學士等多層次的畢業論文網絡答辯。

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

經省委新冠肺炎疫情處置工作領導小組研究同意，開學條件核驗合格的高等學校，其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

陝西省：將公佈有招生資質中職學校名錄

昨日記者獲悉，省教育廳和省人社廳就做好今年全省中職學校招生有關事項發出通知。據悉，陝西省兩部門要求，各市要堅持職普比不低於4:6底線要求，編制高中階段學校招生計劃，5月11日前將今年高中階段教育學校招生計劃表報省教育廳備案，省政府教育督導委員會將對職普比進行督導檢查。

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

據天津市新型冠狀病毒感染的肺炎疫情防控工作指揮部，根據天津市新冠肺炎疫情防控工作情況，市防控指揮部決定，天津市2020年春季學期第三批學生復課開學安排如下:5月18日，全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

一場突如其來的疫情，讓教培市場迎來了2020年一次重新洗牌的機會。近日，記者調查發現，部分中小型教培機構為了規避疫情帶來的影響

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

量詞是小學語文必會的基礎知識，也是低年級考試中經常出現的考題但是孩子們學習起來並不容易，一是因為漢語包含的量詞很多，二是有的量詞使用並不唯一。下面是給低年級孩子整理了一份量詞大全及識記他們的順口溜，一起來看吧！

山東高校開學時間確定

經山東省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

春日漸遠，夏日初長。我和你，揮手作別於一月，重逢於五月，三個多月的小別離，那份假期不斷被充值的小興奮，不知何時變成了期待歸來的想念。廣電南路16號，鄭州市第四十七初級中學在想你們，想見到你們。

山東高校開學時間確定

經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

豔陽高照五月天逐夢前行正當時

猛獁新聞·東方今報記者

唐山檢查初三年級開學準備工作

5月6日，副市長曹全民在市教育局、市衛健委相關負責同志的陪同下，到我市部分初中檢查初三年級開學準備工作。

高三學生迎來複課後首次線下“大考”

6日，朝陽區4000多名高三學生迎來了新高考“一模”考試，這也是高三複課以來首次線下“大考“。“都是在行政班裡考試，每個學生考試的地點是不變的，這就防止了學生之間的這種交叉，當A學生考這科的時候，B學生沒有，那麼他有一個專門自己的獨立的一個自習室進行自習，或者說下午半天沒有考試的

山東高校要開學了

重磅！山東高校開學時間確定

大小新聞客戶端5月7日訊（YMG全媒體記者

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

為確保廣大師生身體健康和生命安全，保證學校2020年春季開學順利復課，2020年5月5日，莒縣第三中學召開了2020年春季復學準備暨教學銜接工作會議。學校黨總支書記、校長焦廣良帶領全校教師學習相關文件及會議精神，並提出了復課復學的具體工作要求。

山東高校開學時間確定 5月16日起開學返校

半島網5月7日訊今天，山東省教育廳公佈山東高校開學時間，經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等

山西忻州市第十一中學教師招聘7人啟事

忻州市第十一中學教師招聘啟事　　一、學校簡介　　忻州市第十一中學位於忻州市和平西街，是一所市直公立寄宿制初級中學。

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

根據《教育部辦公廳關於第十四屆宋慶齡獎學金評選工作的通知（教基廳函〔2019〕43號）》要求，在省級教育部門評審推薦，宋慶齡獎學金評審委員會認真審核的基礎上，教育部今天對擬認定的第十四屆宋慶齡獎學金獲獎候選人和優秀組織獎獲獎候選名單予以公示。

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

復學後，體育課怎麼上？市教育局昨日出臺工作指南，並且明確:上體育課如果能保持安全距離，可以不戴口罩。

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

5月6日，柳州市教育系統新型冠狀病毒感染的肺炎疫情防控工作領導小組發佈《關於做好2020年春季學期全市小學開學工作的通知》，明確5月11日（星期一）小學1-6年級開學。

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

上游新聞·重慶晚報慢新聞記者

教育部：努力開發適合畢業生的科研助理崗位

來源：科技日報6日，由教育部、人力資源和社會保障部、工業和信息化部、國資委、中央廣播電視總檯、共青團中央等6部門共同主辦的2020屆普通高校畢業生就業“百日衝刺”行動正式啟動。啟動儀式上發佈了促進高校畢業生就業創業十大專項行動。

轉起周知！天津初高中非畢業班18日開學

15月18日，天津全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。25月15日以後，天津各高等院校、中等職業學校非畢業年級由學校根據自身實際情況，自主確定學生返校時間。

秦皇島昌黎縣高端汲養助力教師專業發展

按照昌黎縣教育和體育局工作安排，4月29日，昌黎縣教師發展中心組織全縣中小學教師集體參與了由中國教育學會主辦，北京市海淀區教師進修學校承辦的“在線與在校——面向未來的混合式教學與教研”雲端研討會。

強基計劃：華中科技大學今年首招計劃不超過120人

記者今日從華中科技大學獲悉，該校發佈了《華中科技大學2020年強基計劃招生簡章》，正式啟動2020年基礎學科招生改革試點工作。

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

近段時間，美國大學紛紛出臺新的招生政策，例如接受申請者不提交標化成績、延長申請日期、降低最低分數線等等。

湖北3地確定初三開學和中考時間

為統籌推進疫情防控和經濟社會發展工作，安全有序恢復教育教學秩序，經市新冠肺炎疫情防控指揮部綜合研判、審慎研究決定，現就我市2020年中考時間和初中三年級春季學期開學時間安排通告如下:

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

作為2020屆普通高校畢業生就業“百日衝刺”行動的重要平臺，由中央廣播電視總檯與教育部共同發起，總檯央視頻攜手國投人力主辦的“24365國聘行動”聯合專場招聘活動，5月6日正式上線啟動。

市體育中學高三年級復學

黃岡新聞網訊（通訊員王雅蘭）5月6日，市體育中學高三年級復學第一天。市體育事業發展中心主任餘覓、副主任王立新到學校檢查疫情防控工作。當天上午，全體學生有序排隊進行核酸檢測，城區學生由家長帶回家自我隔離，非城區學生統一安排入住賓館，等待核酸檢測結果出來後統一返校。

考研雲複試準備好了嗎青島多所高校公佈分數線

原標題：考研“雲複試”你準備好了嗎島城多所高校公佈複試基本分數線及相關操作要求近日，海大、中石大、青大等駐青高校陸續公佈了碩士招生複試基本分數線及相關要求。網絡遠程複試成為高校研究生複試的主要方式。各高校也都根據自身專業需要，對考生複試安排做了要求。

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

經過漫長的近兩個月的線上教學，4月26日至4月30日，4—6年級度過了為期一週的線下教學。4月30日下午4點，五里中小召開了4—6年級的線上線下銜接交流會。

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

繼給2萬餘名學生退還3個月住宿費（總額1700萬）後，5月6日，陝西西安翻譯學院在學生正式開始返校後，又掏400萬元為2萬師生免費測核酸。該校5月5日給教職員工和後勤三產人員進行了檢測，從6日起一直持續到12日，每天都會對返校學生進行檢測。

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

現在參加高考的人是2000年左右出生的，每年全國出生人口大約1900萬，其中，全國參加高考的人大約是920萬人，本科錄取人數約309萬人，也就是說，不管你被什麼本科錄取了，就算是最普通的三本，也已經是6選1的突出人才。

研究馬克思主義要有立場有能力

“馬院姓馬，在馬言馬”的鮮明導向和辦學原則，既是基本標準、根本原則，又是高標準、高要求;在馬克思主義學院工作，由於環境使然，講立場很容易，不容易的是有真正的立場，有能力捍衛立場。

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

日前，國家人社部、教育部等七部委下發通知表示:經國務院同意，對《國家職業資格目錄》中部分職業資格實施“先上崗、再考證”階段性措施，用人單位在2020年12月31日前招聘高校畢業生，不得將取得教師資格、護士職業資格等作為限制性條件。

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

滄水鋪鎮位於湖南省益陽市東南部，是“湖南省百強鎮”，是益陽市的工業重鎮、益陽市東接東進戰略的“橋頭堡”。益陽市率先在赫山區滄水鋪開展“5G+智慧小鎮”建設，並爭取打造成為全國首個5G小鎮。

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

桑園鎮第二中學校長

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

桑園鎮中心初中校長

蘭山對29所初中學校開學條件進行核驗整改完畢

琅琊新聞網5月6日訊（臨報融媒記者

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

嶠山鎮中心初中校長

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

為加強對碩士研究生招生工作的管理，確保我校2020年研究生招生複試錄取工作規範有序安全進行，根據教育部、公安部、河北省有關文件規定，結合新冠疫情期間各項防控要求，依據《中國人民警察大學2020年碩士研究生招生複試錄取工作方案》，制定本辦法。

藁城這所小學，積極開展爭做新時代好少年活動

鑑於目前疫情還沒有徹底結束，在“五一”國際勞動節來臨之際，昌盛街小學在校長武保華的倡導下，在線上組織各班以“家務勞動我能行，親力親為勇當先”為主題的實踐教育活動，培養孩子們愛勞動意識，並懂得珍惜勞動人民的勞動成果。

剛剛，湖北一地公佈初三開學和中考時間安排

襄陽市新型冠狀病毒感染肺炎疫情防控指揮部關於2020年春季初三年級學生開學時間及中考安排的通告(第16號)為安全有序恢復我市教育教學秩序，經市疫情防控指揮部同意，現就全市2020年春季初三年級學生開學時間及中考安排通告如下：一、初三年級開學時間安排全市初三年級學生2020年5月1

現場實拍！羅山初中、小學開學第一天

羅山的初一二學生和小學四五六年級學生們終於結束了“超長待機”的寒假迎來了開學開學可能會遲到但是永遠不會缺席接下來跟隨小編直擊羅山今日開學現場！

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

5月6日，南京市小學五、六年級，五年制高職四、五年級，三年制中職三年級學生返校復學。當天，南京市雨花臺區文明辦開展“童心戰‘疫’啟程未來”主題教育活動，引導中小學生以積極的主人翁姿態踐行文明衛生生活、關注關心社會，讓疫情危機成為學生認識社會、堅強成長的人生經歷。

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

這個五一假期，有這樣一群人，他們放棄休假，堅守崗位，奮鬥不息，在不同的戰線默默揮灑汗水，持續發揚“盯著幹、快乾、幹好”的工作作風，用勞動和奮鬥奏響時代強音，用執著和忠誠踐行初心使命，用拼搏和擔當助推高質量發展、趕超發展，他們有一個響亮的名字——昌樂教育人！

大學國際化排名，上海交通大學第三

2019年，西南交通大學大學國際化評價研究中心發佈了中國大陸高校國際化排行，從學生國際化（15%）、教師國際化（15%）、教學國際化（10%）、科研國際化（15%）、文化交流（5%）、國際顯示度（10%）等維度，綜合同行專家評議（30%）、特色項目進行評價，全面、客觀、公正地檢驗

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作

山東各地制定嚴格開學條件核驗標準，科學防控，多措並舉，全力做好復學復課準備工作。德州市各學校制定嚴格開學工作方案，全面落實好細化人員摸排、衛生防疫、培訓演練、物資保障等各項措施。

BERT小學生級上手教程，從原理到上手全有圖示，還能直接在線運行

數據集：SST2

句子情感分類模型

模型的訓練過程

教程概述

單個預測是如何進行的

從DistilBERT經過

代碼

導入預訓練DistilBERT模型和tokenizer

Tokenization

用DistilBERT處理

打開BERT的輸出張量

回顧處理句子的過程

挑出重要部分

邏輯迴歸數據集

Score Benchmarks

傳送門

相關文章:

要對高校教育質量負責！網絡答辯不是降低標準的理由

最新！滬2020年普通高等學校招生志願填報與投檔錄取實施辦法公佈

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

陝西省：將公佈有招生資質中職學校名錄

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

山東高校開學時間確定

鶴壁看鄭州，夏初長 你歸來 廣電南路16號迎來大團圓

山東高校開學時間確定

豔陽高照五月天 逐夢前行正當時

唐山檢查初三年級開學準備工作

高三學生迎來複課後首次線下“大考”

山東高校要開學了

重磅！山東高校開學時間確定

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

山東高校開學時間確定 5月16日起開學返校

山西忻州市第十一中學教師招聘7人啟事

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

教育部：努力開發適合畢業生的科研助理崗位

轉起周知！天津初高中非畢業班18日開學

秦皇島昌黎縣高端汲養助力教師專業發展

強基計劃：華中科技大學今年首招計劃不超過120人

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

湖北3地確定初三開學和中考時間

百日衝刺促就業 萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

市體育中學高三年級復學

考研雲複試準備好了嗎 青島多所高校公佈分數線

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

研究馬克思主義要有立場有能力

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

蘭山對29所初中學校開學條件進行核驗 整改完畢

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

藁城這所小學，積極開展爭做新時代好少年活動

剛剛，湖北一地公佈初三開學和中考時間安排

現場實拍！羅山初中、小學開學第一天

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

堅守最美麗 勞動最光榮 昌樂縣教育工作者：愛崗敬業無私奉獻

大學國際化排名，上海交通大學第三

聽新聞丨德州：線上線下培訓防疫知識 全力做好開學復課準備工作

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

豔陽高照五月天逐夢前行正當時

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

考研雲複試準備好了嗎青島多所高校公佈分數線

蘭山對29所初中學校開學條件進行核驗整改完畢

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作