文章自動打分算法

2020-04-09 23:42:19 NLP與人工智能

文章自動打分簡稱 AES (Automated Essay Scoring)，AES 系統利用 NLP 技術自動對文章進行打分，可以減輕閱卷人員的負擔。目前有不少大型的考試都採用了 AES 算法進行作文打分，例如 GRE 考試，GRE 考試會有一位閱卷老師和 AES 系統一起打分，如果 AES 的分數和閱卷老師的分數相差過大，才有再增加一位閱卷老師進行打分。本文主要介紹兩種比較經典的自動打分算法。

1.前言

自動打分算法從優化目標或者損失函數來說大致可以分為三種：

迴歸 Regression：可以把打分看成是迴歸問題，損失函數採用均方誤差。
分類 Classification：把打分看成是分類問題，例如文章打分是 0~10，則可以分成十一個類 0, 1, 2, ..., 10 進行分類學習，用交叉熵作為損失函數。
偏好排名 Rank Preference：不直接預測文章的得分，而是預測文章之間的排名順序。

傳統的自動打分算法通常會人工設置很多特徵，例如語法錯誤，N 元組，單詞數量，句子長度等，然後訓練機器學習模型進行打分。目前也有很多使用了神經網絡的方法，通過神經網絡學習出文章的特徵。

下面介紹兩種打分算法：

迴歸+人工特徵的打分算法
神經網絡的打分算法

2.迴歸+人工特徵的打分算法

出自論文《Regression based Automated Essay Scoring》。給定很多需要打分的文章後，首先需要構造出文章的特徵，用到了人工設置特徵和向量空間特徵。

2.1 人工設置的特徵

拼寫錯誤 Spelling Errors：使用 pyenchant 包統計出拼寫錯誤單詞數量佔總單詞數量的比例。

統計特徵 Statistical Features：統計字符數量，單詞數量，句子數量，段落數量，停止詞數量，命名實體數量，標點符號數量 (反映文章的組織情況)，文本長度 (反映寫作流暢程度)，不同詞彙的數量與總單詞數的佔比 (反映詞彙量水平)。

詞性統計 POS count：統計各種詞性出現的頻率，例如名詞，動詞，形容詞，副詞等，詞性通過 nltk 包獲取。

語法流暢特徵 Grammatical Fluency：使用 link grammar (鏈語法) 解析句子，然後統計 links 的個數；統計 n 元組出現的概率；統計詞性 n 元組出現的概率。

可讀性 Readability：可讀性分數是衡量文本組織以及文本句法和語義複雜程度的一個指標。採用了 Kincaid 可讀性分數作為一個特徵，計算公式如下

Kincaid 可讀性分數

本體特徵 Ontological Features：為每個句子打上標籤，例如研究、假設、主張、引用、支持和反對等。

2.2 向量空間特徵

可以將一篇文章投影到一個向量空間模型中 (VSM)，此時文章可以用向量空間中的一個特徵向量表示，例如可以用 one-hot 編碼表示一篇文章，長度等於詞彙表長度，如果一個單詞出現在文章中，則對應的位置置為 1，如下：

另外也可以使用 TF-IDF 向量表示文本，但是採用這種表示方式單詞之間不存在任何關聯，為了解決這個問題，文章中使用了一個單詞相關性矩陣 W 加上線性變換從而引入單詞之間的相關性。

單詞的相關性矩陣 W 通過 word2vec 生成的詞向量計算，即 W(i,j) = 單詞 i 和單詞 j 詞向量的餘弦相似度。

最後，為了考慮文章中單詞的順序問題，將文章拆分成 k 個段落，然後分別計算向量空間特徵，融合在一起。

2.3 迴歸模型

得到上述特徵之後，採用 SVR 算法進行迴歸學習。數據集是 kaggle ASAP 比賽數據集，數據集包含 8 個集合的文章，評價指標採用 KAPPA 和相關係數，以下是一些實驗效果。

這是在 8 個集合上分別使用 linear kernel 和 rbf kernel 的效果。

這是和人類打分者的對比。

3.神經網絡的打分算法

以下內容出自論文《Neural Networks for Automated Essay Grading》，可以採用迴歸或者分類的方法進行訓練，模型如下圖所示。

3.1 文章的特徵向量

論文中主要使用了三種方法構造出文章的特徵向量：

預訓練的 Glove 詞向量，對文章中所有單詞的詞向量求平均值，作為文章的特徵向量。
TF-IDF，使用 TF-IDF 作為文章的特徵向量，向量的維度等於詞彙表單詞數量。
訓練詞向量，使用 Glove 詞向量初始化，然後在訓練網絡的時候訓練詞向量。

3.2 損失函數

論文中主要用了三種神經網絡結構，NN (前向神經網絡)，LSTM 和 BiLSTM。所有的網絡都會輸出一個向量 h(out)，根據 h(out) 構造出損失函數，下面分別是迴歸和分類的損失函數。

迴歸損失

迴歸損失函數

分類損失

分類損失函數

3.3 神經網絡模型

第一種模型：NN (前向神經網絡)

使用了兩層前向神經網絡，網絡輸入的文章特徵向量是 Glove 詞向量的平均值或者訓練的詞向量平均值。h(out) 的計算公式如下。

第二種模型：LSTM

LSTM 模型接受的輸入是文章所有單詞的詞向量序列，然後將 LSTM 最後輸出的向量作為文章的特徵向量 h(out)。

第三種模型：BiLSTM

因為文章通常比較長，單向的 LSTM 容易丟失前面的信息，因此作者也使用了 BiLSTM 模型，將前向 LSTM 和後向 LSTM 模型的輸出加在一起作為 h(out)。

添加 TF-IDF 向量

以上模型的輸出 h(out) 都可以再加上 TF-IDF 向量提升性能，首先需要對 TF-IDF 向量降維，然後和模型的輸出拼接在一起，如下圖所示 (BiLSTM 為例子)。

4.參考文獻

《Regression based Automated Essay Scoring》

《Neural Networks for Automated Essay Grading》

分享到:

閱讀更多 NLP與人工智能 的文章

關鍵字: 人工智能打分 GRE

教師工作怎麼樣？家長學生來“打分”！

防疫做得如何？羅湖這所學校請家長體驗“打分”

06.19 昝崗鄉中心校——開展檢查觀摩促進學校管理

要對高校教育質量負責！網絡答辯不是降低標準的理由

論文答辯，是高校畢業生完成教育過程的重要一環。疫情期間，為了保證學生順利畢業，多所高校已開展或即將開展博士、碩士、學士等多層次的畢業論文網絡答辯。

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

經省委新冠肺炎疫情處置工作領導小組研究同意，開學條件核驗合格的高等學校，其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

陝西省：將公佈有招生資質中職學校名錄

昨日記者獲悉，省教育廳和省人社廳就做好今年全省中職學校招生有關事項發出通知。據悉，陝西省兩部門要求，各市要堅持職普比不低於4:6底線要求，編制高中階段學校招生計劃，5月11日前將今年高中階段教育學校招生計劃表報省教育廳備案，省政府教育督導委員會將對職普比進行督導檢查。

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

據天津市新型冠狀病毒感染的肺炎疫情防控工作指揮部，根據天津市新冠肺炎疫情防控工作情況，市防控指揮部決定，天津市2020年春季學期第三批學生復課開學安排如下:5月18日，全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

一場突如其來的疫情，讓教培市場迎來了2020年一次重新洗牌的機會。近日，記者調查發現，部分中小型教培機構為了規避疫情帶來的影響

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

量詞是小學語文必會的基礎知識，也是低年級考試中經常出現的考題但是孩子們學習起來並不容易，一是因為漢語包含的量詞很多，二是有的量詞使用並不唯一。下面是給低年級孩子整理了一份量詞大全及識記他們的順口溜，一起來看吧！

山東高校開學時間確定

經山東省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

春日漸遠，夏日初長。我和你，揮手作別於一月，重逢於五月，三個多月的小別離，那份假期不斷被充值的小興奮，不知何時變成了期待歸來的想念。廣電南路16號，鄭州市第四十七初級中學在想你們，想見到你們。

山東高校開學時間確定

經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

豔陽高照五月天逐夢前行正當時

猛獁新聞·東方今報記者

唐山檢查初三年級開學準備工作

5月6日，副市長曹全民在市教育局、市衛健委相關負責同志的陪同下，到我市部分初中檢查初三年級開學準備工作。

高三學生迎來複課後首次線下“大考”

6日，朝陽區4000多名高三學生迎來了新高考“一模”考試，這也是高三複課以來首次線下“大考“。“都是在行政班裡考試，每個學生考試的地點是不變的，這就防止了學生之間的這種交叉，當A學生考這科的時候，B學生沒有，那麼他有一個專門自己的獨立的一個自習室進行自習，或者說下午半天沒有考試的

山東高校要開學了

重磅！山東高校開學時間確定

大小新聞客戶端5月7日訊（YMG全媒體記者

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

為確保廣大師生身體健康和生命安全，保證學校2020年春季開學順利復課，2020年5月5日，莒縣第三中學召開了2020年春季復學準備暨教學銜接工作會議。學校黨總支書記、校長焦廣良帶領全校教師學習相關文件及會議精神，並提出了復課復學的具體工作要求。

山東高校開學時間確定 5月16日起開學返校

半島網5月7日訊今天，山東省教育廳公佈山東高校開學時間，經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等

山西忻州市第十一中學教師招聘7人啟事

忻州市第十一中學教師招聘啟事　　一、學校簡介　　忻州市第十一中學位於忻州市和平西街，是一所市直公立寄宿制初級中學。

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

根據《教育部辦公廳關於第十四屆宋慶齡獎學金評選工作的通知（教基廳函〔2019〕43號）》要求，在省級教育部門評審推薦，宋慶齡獎學金評審委員會認真審核的基礎上，教育部今天對擬認定的第十四屆宋慶齡獎學金獲獎候選人和優秀組織獎獲獎候選名單予以公示。

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

復學後，體育課怎麼上？市教育局昨日出臺工作指南，並且明確:上體育課如果能保持安全距離，可以不戴口罩。

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

5月6日，柳州市教育系統新型冠狀病毒感染的肺炎疫情防控工作領導小組發佈《關於做好2020年春季學期全市小學開學工作的通知》，明確5月11日（星期一）小學1-6年級開學。

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

上游新聞·重慶晚報慢新聞記者

教育部：努力開發適合畢業生的科研助理崗位

來源：科技日報6日，由教育部、人力資源和社會保障部、工業和信息化部、國資委、中央廣播電視總檯、共青團中央等6部門共同主辦的2020屆普通高校畢業生就業“百日衝刺”行動正式啟動。啟動儀式上發佈了促進高校畢業生就業創業十大專項行動。

轉起周知！天津初高中非畢業班18日開學

15月18日，天津全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。25月15日以後，天津各高等院校、中等職業學校非畢業年級由學校根據自身實際情況，自主確定學生返校時間。

秦皇島昌黎縣高端汲養助力教師專業發展

按照昌黎縣教育和體育局工作安排，4月29日，昌黎縣教師發展中心組織全縣中小學教師集體參與了由中國教育學會主辦，北京市海淀區教師進修學校承辦的“在線與在校——面向未來的混合式教學與教研”雲端研討會。

強基計劃：華中科技大學今年首招計劃不超過120人

記者今日從華中科技大學獲悉，該校發佈了《華中科技大學2020年強基計劃招生簡章》，正式啟動2020年基礎學科招生改革試點工作。

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

近段時間，美國大學紛紛出臺新的招生政策，例如接受申請者不提交標化成績、延長申請日期、降低最低分數線等等。

湖北3地確定初三開學和中考時間

為統籌推進疫情防控和經濟社會發展工作，安全有序恢復教育教學秩序，經市新冠肺炎疫情防控指揮部綜合研判、審慎研究決定，現就我市2020年中考時間和初中三年級春季學期開學時間安排通告如下:

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

作為2020屆普通高校畢業生就業“百日衝刺”行動的重要平臺，由中央廣播電視總檯與教育部共同發起，總檯央視頻攜手國投人力主辦的“24365國聘行動”聯合專場招聘活動，5月6日正式上線啟動。

市體育中學高三年級復學

黃岡新聞網訊（通訊員王雅蘭）5月6日，市體育中學高三年級復學第一天。市體育事業發展中心主任餘覓、副主任王立新到學校檢查疫情防控工作。當天上午，全體學生有序排隊進行核酸檢測，城區學生由家長帶回家自我隔離，非城區學生統一安排入住賓館，等待核酸檢測結果出來後統一返校。

考研雲複試準備好了嗎青島多所高校公佈分數線

原標題：考研“雲複試”你準備好了嗎島城多所高校公佈複試基本分數線及相關操作要求近日，海大、中石大、青大等駐青高校陸續公佈了碩士招生複試基本分數線及相關要求。網絡遠程複試成為高校研究生複試的主要方式。各高校也都根據自身專業需要，對考生複試安排做了要求。

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

經過漫長的近兩個月的線上教學，4月26日至4月30日，4—6年級度過了為期一週的線下教學。4月30日下午4點，五里中小召開了4—6年級的線上線下銜接交流會。

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

繼給2萬餘名學生退還3個月住宿費（總額1700萬）後，5月6日，陝西西安翻譯學院在學生正式開始返校後，又掏400萬元為2萬師生免費測核酸。該校5月5日給教職員工和後勤三產人員進行了檢測，從6日起一直持續到12日，每天都會對返校學生進行檢測。

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

現在參加高考的人是2000年左右出生的，每年全國出生人口大約1900萬，其中，全國參加高考的人大約是920萬人，本科錄取人數約309萬人，也就是說，不管你被什麼本科錄取了，就算是最普通的三本，也已經是6選1的突出人才。

研究馬克思主義要有立場有能力

“馬院姓馬，在馬言馬”的鮮明導向和辦學原則，既是基本標準、根本原則，又是高標準、高要求;在馬克思主義學院工作，由於環境使然，講立場很容易，不容易的是有真正的立場，有能力捍衛立場。

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

日前，國家人社部、教育部等七部委下發通知表示:經國務院同意，對《國家職業資格目錄》中部分職業資格實施“先上崗、再考證”階段性措施，用人單位在2020年12月31日前招聘高校畢業生，不得將取得教師資格、護士職業資格等作為限制性條件。

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

滄水鋪鎮位於湖南省益陽市東南部，是“湖南省百強鎮”，是益陽市的工業重鎮、益陽市東接東進戰略的“橋頭堡”。益陽市率先在赫山區滄水鋪開展“5G+智慧小鎮”建設，並爭取打造成為全國首個5G小鎮。

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

桑園鎮第二中學校長

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

桑園鎮中心初中校長

蘭山對29所初中學校開學條件進行核驗整改完畢

琅琊新聞網5月6日訊（臨報融媒記者

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

嶠山鎮中心初中校長

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

為加強對碩士研究生招生工作的管理，確保我校2020年研究生招生複試錄取工作規範有序安全進行，根據教育部、公安部、河北省有關文件規定，結合新冠疫情期間各項防控要求，依據《中國人民警察大學2020年碩士研究生招生複試錄取工作方案》，制定本辦法。

藁城這所小學，積極開展爭做新時代好少年活動

鑑於目前疫情還沒有徹底結束，在“五一”國際勞動節來臨之際，昌盛街小學在校長武保華的倡導下，在線上組織各班以“家務勞動我能行，親力親為勇當先”為主題的實踐教育活動，培養孩子們愛勞動意識，並懂得珍惜勞動人民的勞動成果。

剛剛，湖北一地公佈初三開學和中考時間安排

襄陽市新型冠狀病毒感染肺炎疫情防控指揮部關於2020年春季初三年級學生開學時間及中考安排的通告(第16號)為安全有序恢復我市教育教學秩序，經市疫情防控指揮部同意，現就全市2020年春季初三年級學生開學時間及中考安排通告如下：一、初三年級開學時間安排全市初三年級學生2020年5月1

現場實拍！羅山初中、小學開學第一天

羅山的初一二學生和小學四五六年級學生們終於結束了“超長待機”的寒假迎來了開學開學可能會遲到但是永遠不會缺席接下來跟隨小編直擊羅山今日開學現場！

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

5月6日，南京市小學五、六年級，五年制高職四、五年級，三年制中職三年級學生返校復學。當天，南京市雨花臺區文明辦開展“童心戰‘疫’啟程未來”主題教育活動，引導中小學生以積極的主人翁姿態踐行文明衛生生活、關注關心社會，讓疫情危機成為學生認識社會、堅強成長的人生經歷。

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

這個五一假期，有這樣一群人，他們放棄休假，堅守崗位，奮鬥不息，在不同的戰線默默揮灑汗水，持續發揚“盯著幹、快乾、幹好”的工作作風，用勞動和奮鬥奏響時代強音，用執著和忠誠踐行初心使命，用拼搏和擔當助推高質量發展、趕超發展，他們有一個響亮的名字——昌樂教育人！

大學國際化排名，上海交通大學第三

2019年，西南交通大學大學國際化評價研究中心發佈了中國大陸高校國際化排行，從學生國際化（15%）、教師國際化（15%）、教學國際化（10%）、科研國際化（15%）、文化交流（5%）、國際顯示度（10%）等維度，綜合同行專家評議（30%）、特色項目進行評價，全面、客觀、公正地檢驗

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作

山東各地制定嚴格開學條件核驗標準，科學防控，多措並舉，全力做好復學復課準備工作。德州市各學校制定嚴格開學工作方案，全面落實好細化人員摸排、衛生防疫、培訓演練、物資保障等各項措施。

文章自動打分算法

1.前言

2.迴歸+人工特徵的打分算法

3.神經網絡的打分算法

4.參考文獻

相關文章:

教師工作怎麼樣？家長學生來“打分”！

防疫做得如何？羅湖這所學校請家長體驗“打分”

06.19 昝崗鄉中心校——開展檢查觀摩 促進學校管理

要對高校教育質量負責！網絡答辯不是降低標準的理由

最新！滬2020年普通高等學校招生志願填報與投檔錄取實施辦法公佈

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

陝西省：將公佈有招生資質中職學校名錄

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

山東高校開學時間確定

鶴壁看鄭州，夏初長 你歸來 廣電南路16號迎來大團圓

山東高校開學時間確定

豔陽高照五月天 逐夢前行正當時

唐山檢查初三年級開學準備工作

高三學生迎來複課後首次線下“大考”

山東高校要開學了

重磅！山東高校開學時間確定

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

山東高校開學時間確定 5月16日起開學返校

山西忻州市第十一中學教師招聘7人啟事

山東高校開學時間確定

濟寧這6名學生入選國家級獎學金名單

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

教育部：努力開發適合畢業生的科研助理崗位

轉起周知！天津初高中非畢業班18日開學

秦皇島昌黎縣高端汲養助力教師專業發展

強基計劃：華中科技大學今年首招計劃不超過120人

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

湖北3地確定初三開學和中考時間

百日衝刺促就業 萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

市體育中學高三年級復學

考研雲複試準備好了嗎 青島多所高校公佈分數線

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

研究馬克思主義要有立場有能力

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

蘭山對29所初中學校開學條件進行核驗 整改完畢

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

藁城這所小學，積極開展爭做新時代好少年活動

剛剛，湖北一地公佈初三開學和中考時間安排

現場實拍！羅山初中、小學開學第一天

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

堅守最美麗 勞動最光榮 昌樂縣教育工作者：愛崗敬業無私奉獻

大學國際化排名，上海交通大學第三

聽新聞丨德州：線上線下培訓防疫知識 全力做好開學復課準備工作

06.19 昝崗鄉中心校——開展檢查觀摩促進學校管理

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

豔陽高照五月天逐夢前行正當時

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

考研雲複試準備好了嗎青島多所高校公佈分數線

蘭山對29所初中學校開學條件進行核驗整改完畢

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作