人群的 IQ:理解和提高結構化的用戶產生內容的質量

人群的 IQ:理解和提高結構化的用戶產生內容的質量

引用

Roman Lukyanenko, Jeffrey Parsons, and Yolanda F. Wiersma. "The IQ of the crowd: Understanding and improving information quality in structured user-generated content." Information Systems Research 25.4 (2014): 669-689.

摘要

用戶生成的內容(UGC)在許多情況下,被視為一種能被分析的大量信息。因此為了有效利用 UGC,必須瞭解其信息質量(IQ)。傳統的 IQ 研究專注於公司數據,並將用戶視為數據消費者。但是,由於具有不同專業知識水平的用戶在開放的環境中提供信息,因此,當前 IQ 的概念已經瓦解。而且按照固定的類(例如實體關係圖或關係數據庫表)對信息需求進行建模的做法不必要地限制了用戶生成的數據集的 IQ。我們進行了三個實驗評估基於類的建模方法對人群 IQ 的影響,並提供了使用基於實例和屬性的建模來改善人群 IQ 的途徑。結果表明,信息準確性取決於用於建模領域的類,參與者在更普遍的層次上對現象進行分類時會提供更準確的信息。此外,與參與者從受限選擇中選擇的條件相比,當參與者可以提供自由格式的數據時,總體準確性更高。並進一步證明,相對於基於屬性的數據收集,使用基於類的模型時會發生信息丟失。

關鍵字:系統設計與實施;實驗室實驗;信息質量;概念建模;眾包;社交媒體;公民科學;用戶生成內容

一、介紹

在眾包中具有不同專業知識水平的用戶提供信息,人群的 IQ 被定義為信息貢獻者認為存儲的信息代表了數據消費者和項目發起人感興趣的程度。首先貢獻者熟悉的類與用來處理 UGC 數據的信息系統中定義的類存在潛在的不匹配。其次,基於類的模型可能會對數據完整性產生負面影響。

之前已經有學者提出了兩種理解和提高人群的 IQ 的觀點(適合使用和以貢獻者為導向),本文中我們研究了概念建模對 UGC 中 IQ 的影響,進行了三個實驗來研究以類存儲的實例對 IQ 準確性和完整性這兩個維度的潛在影響。並提出以下兩個命題:

命題 1:當信息的提供者對信息系統中所定義的類不熟悉時,基於類的信息模型導致信息準確性降低。

命題 2:當信息的提供者使用不包含某些提供者觀察到的屬性的類來記錄實例時,基於類的信息模型會導致信息的丟失。

二、實驗

公民科學是 UGC 概念的縮影。重要的公民科學項目如 eBird,主張將實體關係圖作為“最佳實踐”,並在關係數據庫中實施。因此我們基於自然歷史領域的一項公民科學項目進行了三個實驗來評估基於類的模型對這些項目中貢獻質量的影響。

1、實驗一

實驗目的:在自由形式的數據輸入任務中,研究基於類的模型對準確性和信息丟失的影響。

假設 1.1 在自由形式的數據輸入任務中,當貢獻者對物種屬級別的類不熟悉時,他們將頻繁地在基礎級別上對實例進行分類,並且錯誤更少。

假設 1.2 在自由格式的數據輸入任務中,貢獻者將使用“基本級別之下”的屬性術語描述實例。

實驗過程:選擇了 247 名加拿大商科專業學生,選擇了 18 幅本土的植物和動物的圖像。這些參加者被隨機分配到兩個研究情境中。情境一中(類別和屬性,122 人)參與者獲得帶有兩列的表格。一列要求參與者(使用一個或多個單詞)在圖像上命名該對象;第二列要求他們列出最能描述圖像上對象的特徵。情境二中(只有類別,125 人)只要求他們列出最能描述圖像上對象的特徵。獲得結果後,對數據進行編碼,將類別編碼為“基本級別”,“物種屬級別”或“其他”。屬性被編碼為“基本級別”,“基本級別之上”,“基本級別之下”或“其他”。

實驗結果:(1)對情境一中 122 個參與者對圖像類別的描述結果進行分析,我們發現絕大多數圖像“基本級別”的類型描述頻率遠大於“物種屬級別”的描述頻率;之後對描述的正確性進行檢驗,發現絕大多數圖像中,“基本級別”的類型描述正確率遠大於“物種屬級別”(2)對情境二中 125 個參與者對圖像屬性的描述結果進行分析,發現絕大多數圖像“低於基本”的屬性描述頻率遠大於“基本級別”的屬性描述,這表明“基本級別”的描述不能有效地捕獲參與者提供的信息。

人群的 IQ:理解和提高結構化的用戶產生內容的質量

人群的 IQ:理解和提高結構化的用戶產生內容的質量

2、實驗二

實驗目的:在實施預定義的基於類的架構時,研究關於基本級別與物種級別分類的相對準確性的發現是否繼續成立。

假設 2:在受約束的(基於類的)數據輸入任務中,當貢獻者對物種級別的類不熟悉時,他們將在多級別條件下的基本級別對實例進行分類,並且錯誤更少。

實驗過程:選擇了 77 名商科專業學生,選擇了 10 幅本土的植物和動物的圖像。這些參加者被隨機分配到兩個研究情境中。情境一在單級別條件下(38 人),參與者從可能的物種級別列表中進行選擇。情景二在多級別條件下(39 人),參與者從包括基本級別以及基本級別之上和之下的選項中進行選擇。

實驗結果:在多級別條件下預測的基本水平上的響應比例顯著大於在單級別條件下物種水平上的正確響應且正確率更高。

3、實驗三

實驗目的:在實驗 3 中,我們試圖排除對實驗 1 和 2 中發現的可能替代解釋。

假設 3.1 在受約束的(基於類的)數據輸入任務中,當貢獻者對物種級別的類不熟悉時,他們將在多級別條件下的基本級別對實例進行分類,並且錯誤更少。

假設 3.2 與基於類的數據輸入任務相比,在自由格式的數據輸入任務中,貢獻者對實例進行分類時錯誤更少(無論前者使用的是單級分類還是多級分類)。

實驗過程:選擇了 66 名商科專業學生,使用的圖像與實驗二相同,但增加了實驗一中使用的三種熟悉的物種,這些參加者被隨機分配到三個研究情境中。情境一(單級別,23 人)參與者從可能的物種級別列表中進行選擇,情境二(多級別,21 人)參與者從包括基本級別以及基本級別之上和之下的選項中進行選擇,情境三(自由形式,23 人)發給他們空表要求對圖像命名。

實驗結果:(1)結果與 H1.1、H2 是一致的,這支持了 H3.1,表明準確性取決於向用戶提供與用戶更喜歡的分類模型更一致的分類結構。而且發現對用戶熟悉的物種來說,大多數貢獻者都願意在物種屬水平上進行分類。(2)自由形式下的整體準確性為 77.3%,而單級條件下為 35.5%,多級條件下為 66.7%也支持 H3.2。

三、結論

所有這三個實驗表明,無論是在自由形式還是在受約束的數據收集任務中,基本級別的類別通常是信息貢獻者最經常提供的,並且通常是最準確的分類級別;並且使用基本級別的類進行建模可能會導致嚴重的屬性信息損失。這樣的發現對於利用 UGC 有著重要的理論和實踐意義。我們的研究還指出了基於屬性和實例的建模方法對於改善人群 IQ 的潛力。

致謝

本文由南京大學工程管理學院 2019 級碩士李琰翻譯轉述。

感謝國家重點研發計劃(2018YFB1403400)和國家自然科學基金(71732003,61772014)支持!


分享到:


相關文章: