EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲

遊戲設計 首先介紹抽象體系結構,具體的例子遵循第4節。根據Salen和Zimmerman的說法(2004年,第50頁),遊戲是一個由不同類型的交互實體組成的系統,它們具有一定的屬性。Argotario遵循這個結構,由世界、水平和遊戲回合(Hannemann,2015)的層次。

遊戲回合是一種原子迷你遊戲,玩家在遊戲中採取行動,並得到點數獎勵。從概念上講,每個遊戲回合都遵循相同的過程:用戶首先面對的是遊戲數據,他們需要與遊戲數據進行交互。他們的響應(一種選擇或自由文本輸入)通過當前的遊戲回合配置進行驗證,類似於web頁面上的表單驗證。如果遊戲判斷響應數據的正確性,它會給用戶提供一定數量的分數。

一系列的遊戲回合形成了一個等級。要完成一個級別,必須完成所有的遊戲回合,這個獨立於用戶是否成功的完成了各自的任務。雖然遊戲回合可以在不同的層次上被重新使用,但每一層都是獨一無二的,可以單獨設計來滿足某種特定的目的(例如只有一些類型的謬論被處理)。

最後,所有級別都駐留在一個包含所有級別的包裝器中,看起來像一個藏寶地圖(見圖1a)。他們的外觀可以自由定製,以視覺吸引並捕捉特定的氛圍或主題。遊戲中有多個相鄰世界。

EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲

圖1:在智能手機模擬器上運行的Argotrio截屏

用戶被描繪成小的圓形滑稽面孔(頭像)。第一個用戶的目標是在所有的世界中完成所有的級別。最初,遊戲世界被霧所覆蓋,用戶可以通過完成級別來清除。排名(得分)是第二個重要的比賽目標。重複的級別允許用戶收集更多的點,從而提高他們的全球排名。

EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲

4 遊戲化謬論識別

Argotario的主要原則可以概括如下。首先,因為一個謬誤論元是一個“似乎是有效的,但實際上不是這樣的”(Hamblin,1970),用戶必須通過寫一個給定類型的謬誤論元,而不被發現這實際上是一個謬論,去試圖“愚弄”其他用戶。通過寫一個謬誤論元以“偽裝”為一個有效論元,用戶會對謬誤辯論很敏感(如修辭策略、語言工具、邏輯等)。其次,用戶可以通過揭示已有論元的謬誤——無論是揭示正確的謬論類型,或者聲明給定的論元不是謬誤——得到關於他們的“揭穿”技能的反饋(參見圖1b),從而認識到現有爭論中的謬誤。(所有書面文本和用戶輸入都被CC-BY許可)。

在識別正確的謬論類型的von Ahn和Dabbish(2008,第61頁)系列遊戲術語結合反演問題的遊戲(猜測者產生最初用於描述者的輸入”)和輸出論元遊戲的修改(猜測者必須產生與人群相同的輸出,細節將在第4節稍後討論)。

謬論類型 我們收集了適合我們遊戲場景的謬論類型的詳細清單。考慮到謬誤類型的廣度和多樣性(Tindale, 2007;Govier, 2010),我們進行了幾項試點研究,以確定以下類型:(1)在日常爭論話語中常見的類型,(2)區分開來兩者,(3)有增加的困難。Argotario的謬誤類型庫存目前包含了人身攻擊,訴諸情感、轉移注意力、輕率泛化、無關權威,以及一個非謬誤的論元(Pollak,2016)。

當玩家完成每一級遊戲時,他們會逐漸認識到不同的謬誤類型。在第一個世界中的所有謬誤類型被掌握後,玩家可以參與玩家vs玩家的世界。在這裡,一場關於給定爭議的對話交流,要求用戶寫一些謬論論元(就像之前的世界一樣),並猜測其對手使用了哪種謬論(從而得到正確答案的點數;有關黃金數據估計的細節將在下一節中解釋)。這個級別是異步的,當一個用戶寫了一個新的論元時,他的對手就會得到關於轉換的通知,所以他們不需要同時玩(見圖1c)。

黃金標籤 估計因為所有內容都是由具有不同書寫或理解辯論能力的玩家在遊戲中創建的,我們首先將數據視為噪聲。首先,可以在所有回合中報告垃圾郵件,並提交給管理員採取行動。其次,我們依賴於MACE (Hovy et al .,2013)的黃金標籤估計,我們將其無縫集成到後端。例如,如果用戶必須編寫一個給定的謬誤類型的論元,我們只將類型視為單一的“投票”,並要求另外其他層次上的四名參與者猜測這種謬誤的正確類型。只有得到至少5張“選票”的論元才會被送入MACE,以建立他們的黃金標籤。

通過使用人群投票和垃圾郵件報告,我們間接的目標是高質量的標籤。預測黃金標籤可以被MACE的一個閾值進一步參數化,然後它只提供對低於閾值的實例的黃金標籤估計(Hovy et al .,2013,p . 1125)。然而,對數據質量的深入分析是我們當前的研究議程。

反饋和激勵 Argotario提供了兩種類型的反饋:軟的和硬的反饋。對於那些帶有未知標籤的標註論元,用戶只能得到一個點,而不知道他們的回答是否正確(軟反饋)。對於已經估計黃金標籤的論元,給出硬反饋(參見圖1d):如果用戶出錯,則不會得到任何獎勵。顯然,從教育的角度來看,硬反饋會更好,因為人們馬上就會知道她的回答是對還是錯;然而,用戶事先不知道當前評估是否給他們提供了軟或硬的反饋,因此他們天生就被鼓勵去嘗試他們最好的。

我們還建立了一些激勵機制來讓玩家參與進來。首先,Argotario展示了整個排行榜以及每週的排名,以確保新來者有機會獲得成功,詳情參見(Ipeirotis和Gabrilovich,2014)。本週玩家將被公開展示並獲得小額獎金。第二,據報道,對那些對修辭、辯論或公共審議感興趣的玩家來說,根據幾輪運行的用戶反饋,對熟悉的話題進行駁斥是很有趣的。

EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲

5 確定基準Benchmarking

到目前為止,我們在幾個用戶研究和beta測試會話中測試了Argotario。Argotario早期版本的第一個研究考察了硬反饋的影響,但缺乏對遊戲中整體用戶參與的影響。我們發現具有相同的遊戲配置,但只有軟性或硬反饋時,軟反饋對用戶體驗沒有顯著的負面影響(兩個用戶組(分別為20和17個參與者;最終的李克特量表問卷;曼恩-惠特尼-非參數檢驗)。(漢曼,2015)。

在隨後的一項研究中,我們用亞馬遜土耳其機器人(AMT)對玩家vs玩家的等級進行了基準測試。我們要求工人們玩一個特別配置的Argotario版本,以“贏得”20個點用於提交HIT。玩家vs玩家回合需要兩個用戶的兩個對話,因此兩個或更多的人在更長一段時間內積極參與,在這項研究中我們還實現了一個樸素機器人(我們在現有數據庫中的論元上使用卷積神經網絡基於GloVe嵌入訓練了一個謬誤分類器系統(彭寧頓et al .,2014)和Keras框架,所以機器人試圖在玩家vs玩家討論中識別對手論元的謬論;為了生成一個答案,它只是在給定的主題上查找一個現有的謬誤。一方面,它違背了話語的流動,因為它顯然沒有連貫地回應它的對手。另一方面,它允許我們去部署遊戲作為AMT上的一個HIT,並在短時間內獲得足夠數量的玩家vs機器人的遊戲)。與此同時,我們在社交媒體上推廣遊戲,吸引了一些非付費用戶。使用這個過程,我們可以讓更多的人快速測試整個遊戲機制,識別潛在的缺點,並收集大約1,160個手寫的謬論論元。我們也嘗試了關於平均遊戲時間的每個HIT的不同價格(1~2美元)。而拒絕的低質量HITs對所有配置仍然是微不足道的,我們沒有觀察到HIT價格和遊戲時間(≈18-26 min)之間任何相關性。我們的解釋是,用於基準研究的HIT價格應該是公平的,並反映研究時間,但不影響質量(Pollak,2016)。

EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲

6 結論和展望

Argotario是一款有多種用途的嚴肅遊戲。首先,它是計算語言學研究的一個軟件工具,它關注的是爭論話語中的謬誤,是計算論辯定性標準的重要組成部分。其次,它是支持學習和教育的軟件。它的主要教育目的是提高認識——不僅是存在的謬論,還包括在日常辯論中很容易被忽視和誤用的謬論。最後,Argotario也是一個數據獲取和標註工具,用它可以對源自眾包方法的數據成功進行質量評估。與通常的標註工具不同,所有內容都是由遊戲中的用戶創建。

從長遠來看,與標準眾包相比,我們認為Argotario提供了一種可行的數據獲取方法。首先,正如Eickhoff等人(2012)所示,純粹的貨幣驅動的視角並不總是決定額外水平的決定性因素。其次,來自人群的“專家”可能有助於參與(Ipeirotis和Gabrilovich,2014)。

在目前的版本中,Argotario仍然是一個概念的證明。它的功能需要大規模地驗證,以揭示遊戲中對動態整體用戶體驗和質量影響的模式;這些在小規模基準測試(第5節)中不容易實現。在這方面,任何手動干預(如垃圾郵件刪除)都需要自動化。

Argotario可以在www.argotario.net上訪問,同時可以在任何現代網絡瀏覽器上使用教程視頻和運行,最好是在智能手機上。它也是開源的,源代碼可以在ASL許可下從GitHub上下載使用(https://github.com/UKPLab/argotario)。

論文下載鏈接:

http://www.aclweb.org/anthology/D/D17/D17-2002.pdf

EMNLP 2017普適知識處理實驗室Argotario-計算論辯遇到嚴肅遊戲


分享到:


相關文章: