運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


VICE調查了美國的50個州,發現有至少21個州 (包括加州) 的教育系統,已經把AI當成作文打分的主要/第二主要工具,用在標準化考試裡。


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?

△ 藍=AI打分,淺藍=有試點,紅=無AI打分,桃紅=看學區,灰=未回應


這21個州里,只有3個州表示,人類也會參與作文打分;餘下18個州,只會隨機抽出5%-20%的作文,交給人類複核一下AI給的成績。


問題是,標準化考試常常作為選拔依據,左右人類前途。AI打分的話,命運就在AI手裡了。


這時,人們不免想起了GRE,這個20年前就開始用AI判作文的大前輩。


有不少研究表明,包括GRE打分機器e-rater在內,許多AI評判文章的機制,都有明顯的缺陷。


不過經年累月,AI不但沒有被各種作文考試拋棄,反而越發受歡迎了。


於是,Hacker News網友開啟了激烈的討論,不到一日熱度便有了330+。


GRE:機器比人更偏愛中國考生


早在1999年,主辦GRE的美國教育考試服務中心 (ETS) ,就開始用e-rater給作文打分了。


根據官方信息,這個自然語言處理 (NLP) 模型,評分標準有以下8條:


· 基於詞彙考量的內容分析 (Content Analysis Based on Vocabulary Measures)

· 詞彙複雜度/措辭 (Lexical Comlexity/Diction)

· 語法錯誤比例 (Proportion of Grammar Errors)

· 用法錯誤比例 (Proportion of Usage Errors)

· 機械錯誤比例 (Proportion of Mechanics Errors)

指拼寫錯、大小寫錯、標點錯等等技術問題。

· 風格評論比例 (Proportion of Style Comments)

比如,某個短語出現過多,太短的句子過多,太長的句子過多等等。

· 文章組織和發展分 (Organization and Development Scores)

· 地道用語 (Features Rewarding Idiomatic Phraseology)


當然,這隻AI不止服務GRE。至少,託福和GRE一樣,也是ETS出品的考試。


至於這套算法的缺陷都出在哪,ETS官方就做過不少研究,且從不避諱研究結果。


在1999、2004、2007、2008、2012和2018年的作文裡,都能發現AI給中國大陸考生的分數,普遍比人類打分要高。


相反,在非裔美國人身上,AI常常比人類給分要低。在母語是阿拉伯語、西班牙語和印地語的考生那裡,也有相似的情況。即便團隊一直改進算法,也沒有消除這個問題。


ETS的一位高級研究員說:


如果我們想讓算法對某個國家的某個群體友好一些,那就很可能會傷害到其他群體了。


再進一步,分單項來觀察AI的打分情況。


會發現在全部考生裡面,e-rater給中國大陸考生的語法 (Grammar) 和寫作技巧 (Mechanics) 分,整體偏低;


而在文章長度和複雜單詞的選用上,中國大陸考生的AI打分超過平均。最終,AI給大陸考生的總分,整體比人類打分更高。GRE作文滿分6分,AI比人類打分平均高出1.3分。


相比之下,在非裔美國人身上,AI比人類打分平均要低0.81分。以及,這只是平均數據,在許多考生那裡,差異來得比這更劇烈。


不論是1.3還是0.81,在6分制的考試裡都不是小數字,可能嚴重影響考生的成績。


越來越多人認為作文評分引擎並不能真正分析文章的質量。系統是通過成千上萬的作文案例訓練,學會識別哪些模式會被閱卷者打高分,哪些模式會被打低分。然後,評分引擎會根據這些模式來預測閱卷者會給一篇作文打多少分。


“問題在於歧視也是一種模式,所以這些機器學習系統也會學會這種歧視。”


華盛頓大學計算語言學教授艾米麗·M·班德(Emily M. Bender)說,


“這些機器學習程序不僅會在訓練過程中學會這種歧視,還會把這種歧視放大 。”


來自某些特定語言背景的學生經常會遭到有意識或無意識的歧視。長久以來,教育行業一直在設法應對這種歧視,比如美國有好幾個州就禁止教授黑人英語用語 。


不止如此,MIT的小夥伴們開發過一個叫BABEL的算法,把複雜的詞句拼貼在一起,得出的文章沒有任何實在的意義,卻被GRE的線上評分工具ScoreItNow!打出了4分

的好成績。


但ETS說,AI不是單獨判卷,每篇AI打分的作文,都有一個人類同時打分。然後,把人機打分之間的差異,交給第二個人類去判斷,得出最終的分數。


所以,ETS認為考生並不會受到AI缺陷的不利影響。


不過對比一下,傳統方法是兩個人類同時給一篇文章打分;而當AI替代其中一人打分,相當於這個人的職責變成了複核。


成本大概下降了不少,對結果的影響有多大就很難說,至少打分機制和AI參與之前有差別了。


另外,AI的存在不止影響評分,也直接影響考生的應試策略。這些年,討好AI的攻略越來越多:


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?

△來自ChaseDream論壇@竹林中人


還好,GRE有人類和AI一起打分。


可還有許多考試是直接交給AI判作文的:


不止GRE算法有問題


比如,VICE調查發現,猶他州把AI作為主要 (Primary) 作文評分工具,已經有些年頭了。


州內的一位官員解釋了原因:


手動打分除了耗費時間之外,也是本州一項重大開支。


所以,用AI來為寫作評分,在降低成本的同時,能不能做到公平公正?


美國研究協會 (American Institutes of Research,AIR) 是一間非盈利機構,也是猶他州最主要的考試提供方。


關於交給AI打分的是怎樣的題目,AIR給出了一個範本:


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


這道題目是,看到一張海牛圖像,考生要寫出一個觀察 (A) ,和一個推理 (B) 。


而AIR每年都會做出一份報告,評估一些新題目的公平性。


評估的一個重點就是:女生和少數族裔學生,在特定考題上,是不是比男性/白人的表現要差。這個指標叫做“差異試題功能 (DIF) ”。


報告顯示,2017-2018學年、三至八年級的寫作考題裡,有348道題被判定為,對女生和少數族裔學生有輕微DIF;相比之下,對男生和白人學生有輕微DIF的題目有40道。


另外,還有3道題被判定為:對女生和少數族裔學生有嚴重DIF。這些題目會交由專門的委員會審核。


可能造成DIF的原因有多種,而算法偏見是大家最關心的因素。


一位來自猶他州的家長 (@dahart) ,佔據了Hacker News討論版的頂樓。


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


這位家長表示他很不喜歡聽那些官員講“成本”。他覺得,教育本來就是費時費力的,不可能又快又便宜。


他說,孩子的作文是機器打分,全家不滿意AI給的分數,愛人和孩子都會哭。


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


託福評分機制


最後再和大家聊下考生更多的托福考試中AI評分系統是怎麼發揮作用的:


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


自從2010年1月起,iBT(Internet-based Testing)就已對寫作評分系統進行了調整,由原來的2個閱卷人評分,取算術平均分作為原始分(raw score),改為1個閱卷人和1個電腦評分系統(E-Rater)評分。我們其實可以更形象地把他們理解成為分工協作,聯合判分。


電腦評分最大的優勢就是具備足夠的客觀性,不存在閱卷的疲憊度,能夠關注每一個評分標準,考慮到文章中的每一個細節和每一個特徵。沒有情緒,也就不存在主觀印象,對於同一篇文章永遠只會給出一個不變的分數;對於每一篇文章所給出的分數都能給出具體的解釋,這是人為評分無法做到的。


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


託福閱卷中使用的電腦評分系統與GRE打分的系統一樣也是E-Rater ,這個系統與人工評分互相分工,但它主要負責文章的Grammar(語法)、Usage(用法)、Mechanics(格式體例)、Style(風格)、Organization & Development(組織與展開),而人工主要負責文章的內容和含義的理解。


E-Rater的工作原理主要是利用計算機語言學中的自然語言處理(Natural Language Process,簡稱NLP)方法,對於文本相關信息進行標籤匹配,結合ETS的數據審查來評分,簡單點來說,和一些唱歌類 app 的打分模式是一樣的原理。


但它其實更像一個基於強大數據系統支持的一個運算系統,能夠將輸入的文章內容和數據庫裡面的內容進行比照式批閱,極大程度地增強了閱卷評分的靈活度和廣泛度,又節省了一大批人力。


人工評分和電腦評分是獨立的,相互之間看不到對方的分數。

兩者的分差在一定的區間內,取一個人工評分和一個 E-Rater 評分的算數平均分作為原始分(1—5分),然後再換算成滿分30分的分值,從而得出最終的得分。


運用在GRE、托福考試中的AI評分系統竟然自帶歧視傾向?


來看一個示範,系統會將考生的文章進行了不同色塊的標註,開頭段的黃色表示 background information

紅色表示 thesis statement;中間段藍色表示 topic sentence綠色表示 supporting information;結尾段橙色表示 conclusion


如果閱卷人和 E-Rater 的差值,超過合理的區間範圍,則電腦評分和人工評分都無效,改換成下一個評分組重新評分。


ETS稱現在的 E-Rater 和人工評分的準確性、一致性高達98%,但真實性如何不得而知。


在這次GRE打分事件受到越來越多關注的情況下,託福評分體系是否又會被曝光其他缺陷呢?我們將繼續關注。


參考資料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS發的許多NLP論文:

https://www.ets.org/research/topics/as_nlp/writing_quality/


*本文參考資料均來自“量子位”公眾號、VICE及公開新聞報道和網站消息


分享到:


相關文章: