人群的 IQ:理解和提高結構化的用戶產生內容的質量

2020-03-12 05:49:00 慕測科技

引用

Roman Lukyanenko, Jeffrey Parsons, and Yolanda F. Wiersma. "The IQ of the crowd: Understanding and improving information quality in structured user-generated content." Information Systems Research 25.4 (2014): 669-689.

摘要

用戶生成的內容（UGC）在許多情況下，被視為一種能被分析的大量信息。因此為了有效利用 UGC，必須瞭解其信息質量（IQ）。傳統的 IQ 研究專注於公司數據，並將用戶視為數據消費者。但是，由於具有不同專業知識水平的用戶在開放的環境中提供信息，因此，當前 IQ 的概念已經瓦解。而且按照固定的類（例如實體關係圖或關係數據庫表）對信息需求進行建模的做法不必要地限制了用戶生成的數據集的 IQ。我們進行了三個實驗評估基於類的建模方法對人群 IQ 的影響，並提供了使用基於實例和屬性的建模來改善人群 IQ 的途徑。結果表明，信息準確性取決於用於建模領域的類，參與者在更普遍的層次上對現象進行分類時會提供更準確的信息。此外，與參與者從受限選擇中選擇的條件相比，當參與者可以提供自由格式的數據時，總體準確性更高。並進一步證明，相對於基於屬性的數據收集，使用基於類的模型時會發生信息丟失。

關鍵字：系統設計與實施；實驗室實驗；信息質量；概念建模；眾包；社交媒體;公民科學；用戶生成內容

一、介紹

在眾包中具有不同專業知識水平的用戶提供信息，人群的 IQ 被定義為信息貢獻者認為存儲的信息代表了數據消費者和項目發起人感興趣的程度。首先貢獻者熟悉的類與用來處理 UGC 數據的信息系統中定義的類存在潛在的不匹配。其次，基於類的模型可能會對數據完整性產生負面影響。

之前已經有學者提出了兩種理解和提高人群的 IQ 的觀點（適合使用和以貢獻者為導向），本文中我們研究了概念建模對 UGC 中 IQ 的影響，進行了三個實驗來研究以類存儲的實例對 IQ 準確性和完整性這兩個維度的潛在影響。並提出以下兩個命題：

命題 1：當信息的提供者對信息系統中所定義的類不熟悉時，基於類的信息模型導致信息準確性降低。

命題 2：當信息的提供者使用不包含某些提供者觀察到的屬性的類來記錄實例時，基於類的信息模型會導致信息的丟失。

二、實驗

公民科學是 UGC 概念的縮影。重要的公民科學項目如 eBird，主張將實體關係圖作為“最佳實踐”，並在關係數據庫中實施。因此我們基於自然歷史領域的一項公民科學項目進行了三個實驗來評估基於類的模型對這些項目中貢獻質量的影響。

1、實驗一

實驗目的：在自由形式的數據輸入任務中，研究基於類的模型對準確性和信息丟失的影響。

假設 1.1 在自由形式的數據輸入任務中，當貢獻者對物種屬級別的類不熟悉時，他們將頻繁地在基礎級別上對實例進行分類，並且錯誤更少。

假設 1.2 在自由格式的數據輸入任務中，貢獻者將使用“基本級別之下”的屬性術語描述實例。

實驗過程：選擇了 247 名加拿大商科專業學生，選擇了 18 幅本土的植物和動物的圖像。這些參加者被隨機分配到兩個研究情境中。情境一中（類別和屬性，122 人）參與者獲得帶有兩列的表格。一列要求參與者（使用一個或多個單詞）在圖像上命名該對象；第二列要求他們列出最能描述圖像上對象的特徵。情境二中（只有類別，125 人）只要求他們列出最能描述圖像上對象的特徵。獲得結果後，對數據進行編碼，將類別編碼為“基本級別”，“物種屬級別”或“其他”。屬性被編碼為“基本級別”，“基本級別之上”，“基本級別之下”或“其他”。

實驗結果：（1）對情境一中 122 個參與者對圖像類別的描述結果進行分析，我們發現絕大多數圖像“基本級別”的類型描述頻率遠大於“物種屬級別”的描述頻率；之後對描述的正確性進行檢驗，發現絕大多數圖像中，“基本級別”的類型描述正確率遠大於“物種屬級別”（2）對情境二中 125 個參與者對圖像屬性的描述結果進行分析，發現絕大多數圖像“低於基本”的屬性描述頻率遠大於“基本級別”的屬性描述，這表明“基本級別”的描述不能有效地捕獲參與者提供的信息。

2、實驗二

實驗目的：在實施預定義的基於類的架構時，研究關於基本級別與物種級別分類的相對準確性的發現是否繼續成立。

假設 2：在受約束的（基於類的）數據輸入任務中，當貢獻者對物種級別的類不熟悉時，他們將在多級別條件下的基本級別對實例進行分類，並且錯誤更少。

實驗過程：選擇了 77 名商科專業學生，選擇了 10 幅本土的植物和動物的圖像。這些參加者被隨機分配到兩個研究情境中。情境一在單級別條件下（38 人），參與者從可能的物種級別列表中進行選擇。情景二在多級別條件下（39 人），參與者從包括基本級別以及基本級別之上和之下的選項中進行選擇。

實驗結果：在多級別條件下預測的基本水平上的響應比例顯著大於在單級別條件下物種水平上的正確響應且正確率更高。

3、實驗三

實驗目的：在實驗 3 中，我們試圖排除對實驗 1 和 2 中發現的可能替代解釋。

假設 3.1 在受約束的（基於類的）數據輸入任務中，當貢獻者對物種級別的類不熟悉時，他們將在多級別條件下的基本級別對實例進行分類，並且錯誤更少。

假設 3.2 與基於類的數據輸入任務相比，在自由格式的數據輸入任務中，貢獻者對實例進行分類時錯誤更少（無論前者使用的是單級分類還是多級分類）。

實驗過程：選擇了 66 名商科專業學生，使用的圖像與實驗二相同，但增加了實驗一中使用的三種熟悉的物種，這些參加者被隨機分配到三個研究情境中。情境一（單級別，23 人）參與者從可能的物種級別列表中進行選擇，情境二（多級別，21 人）參與者從包括基本級別以及基本級別之上和之下的選項中進行選擇，情境三（自由形式，23 人）發給他們空表要求對圖像命名。

實驗結果：（1）結果與 H1.1、H2 是一致的，這支持了 H3.1，表明準確性取決於向用戶提供與用戶更喜歡的分類模型更一致的分類結構。而且發現對用戶熟悉的物種來說，大多數貢獻者都願意在物種屬水平上進行分類。（2）自由形式下的整體準確性為 77.3％，而單級條件下為 35.5％，多級條件下為 66.7％也支持 H3.2。

三、結論

所有這三個實驗表明，無論是在自由形式還是在受約束的數據收集任務中，基本級別的類別通常是信息貢獻者最經常提供的，並且通常是最準確的分類級別；並且使用基本級別的類進行建模可能會導致嚴重的屬性信息損失。這樣的發現對於利用 UGC 有著重要的理論和實踐意義。我們的研究還指出了基於屬性和實例的建模方法對於改善人群 IQ 的潛力。

致謝

本文由南京大學工程管理學院 2019 級碩士李琰翻譯轉述。

感謝國家重點研發計劃（2018YFB1403400）和國家自然科學基金（71732003，61772014）支持！

分享到:

閱讀更多 慕測科技 的文章

關鍵字: 設計動物引用

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"