AI學者也用維基百科「打廣告」?這個詞條有點可疑

機器之心報道

參與:張倩、澤南、蛋醬

維基百科上的詞條內容,可能會被人修改並謀取私利,而且這一情況就發生在 AI 學術圈。


AI學者也用維基百科「打廣告」?這個詞條有點可疑


「遇事不決先谷歌」已經是現在很多人查找信息的標準起手了。如果搜索一個詞條,百科網站的結果通常會被顯示在最顯眼的位置。這種人人皆可編輯的網站存儲著海量信息,雖然可能不夠嚴謹,但也被很多人作為重要的信息、知識來源。


不過,最近人工智能的研究者在維基百科上發現了不少「夾藏私貨」的詞條,比如 Reddit 網友發現的「SGD(隨機梯度下降)」一詞。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

這位發帖者表示,ta 本來打算讀一些關於梯度下降的資料,但卻發現維基百科有關這一主題的詞條就像一條廣告。

為什麼這麼說呢?我們先來看一下這個詞條的結構。除了常規的背景、示例、應用等介紹外,詞條還包含 SGD 的「擴展和變體」,這部分列出了 RMSProp、Adam 等知名算法和一些「二階方法」。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

「SGD」詞條的結構。上圖為歷史版本,新版本不包含圖中的 5.7。歷史版本鏈接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087

問題就出在這部分「擴展和變體」。要按說,能和 RMSProp、Adam 並列,這裡列出的方法肯定都不差。但發帖者卻發現,這部分包含了一篇比較冷門的論文(上圖中的 5.7),文中提到了一種基於 Kalman 的隨機梯度方法。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

詞條歷史版本中對上述方法的介紹。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

上文中提到的論文。數據來源:Google Scholar。

這是一篇 2016 年的論文,被引用量只有 22 次。要知道,與其並列的 Adam 在 Google Scholar 上的引用量高達 3 萬 9 千多次。

這事兒就非常可疑了,於是他決定進一步挖掘信息。這是一篇 2017 年 2 月添加的文章,被添加進詞條的時候,該論文的引用量似乎是 0,添加者是一位用戶名為「Vp314」的用戶。湊巧的是,論文作者的 gmail 用戶名也是「Vp314」。

而且,這位用戶對「SGD」詞條的唯一貢獻就是添加他的這項技術:第一次是將「Kalman-based Stochastic Gradient Descent」添加到「擴展和變體」;第二次是稍加改動;第三次是被刪除之後重新添加,被刪的理由是「最近幾乎沒有被學術界引用。」「這個詞條出現在維基百科上使其看起來像是一種成熟的技術,但其實並不是。」


AI學者也用維基百科「打廣告」?這個詞條有點可疑

「梯度下降」這種概念在機器學習領域肯定是必須要懂的知識,修改這個詞條頗有點修改教科書的意味。更令人擔心的是,這很可能僅僅是被個別研究員/學者惡意修改內容的一小部分。

機器學習領域自我宣傳的競爭已經到了這樣的程度,不禁令人感嘆。

其實在維基百科上,還有很多類似的奇葩操作,或許只是我們都沒發現。

比如有一位留言者回憶起自己讀大學的時候,他的室友成功編輯了維基百科詞條,說自己是網球的發明者。在這之後,有一些文章和書籍在援引材料時,就真的將此人視為網球發明者……


AI學者也用維基百科「打廣告」?這個詞條有點可疑

當然,這種惡作劇並未給篡改者本人帶來直接利益,更多的人或者機構會利用詞條來獲取商業利益。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

「如果你對維基百科足夠了解,就會發現這裡面充滿了政治、個人偏見、SEO 內容、學術廣告等等。相比其他,IT 領域的詞條內容質量還算可以的,因為這個領域的人都精通計算機(emmm 這麼說好像上世紀 90 年代的說法),他們一般都會檢查來源或者屏蔽垃圾內容。但是其他科學領域的詞條會更糟糕,充斥著大量的無用內容。」

這位留言者認為,在事實正確性和清晰度方面,維基百科甚至還不如高中教科書,更不能和正規的百科書籍相提並論。

早在 2005 年,《Nature》就曾對維基百科和代表傳統百科全書的《大英百科全書》各自全書間的 41 篇科學內容做過調查,最後得出結論,在科學文章這一領域,維基百科與《大英百科全書》有著相似的精確度,但兩者在內容上都有一定程度上的「嚴重缺失」。但至少,《大英百科全書》無法讓任意一個人「自由編輯」。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

有一位留言者提到,他最近聽說了一種針對維基百科詞條優化的「收費服務」,費用大概是 600 美元或者更多,可能讓你擁有、撰寫維基百科的詞條,同時及時修改其他任何人所做的編輯。你甚至可以利用這項服務撰寫支持或反對某個人/觀點/機構的文章,然後發佈相關報道和文章作為參考來源。


AI學者也用維基百科「打廣告」?這個詞條有點可疑

這類事情在其他領域也經常發生,一位留言者是信號處理領域的研究者,他指出,很多頁面上的參考文獻和方法都不是最新技術,並且內容也時常出錯。如果運氣好,你可能還會尷尬偶遇自己的同事在維基百科上「自吹自擂」。

他還提到了一個不算 ML 領域但也很有意思的事,2007 年的 Asilomar 大會上,他遇見了 James D. Johnston,James 曾經擔任微軟音頻工程師,此前在 AT&T 貝爾實驗室聲學研究部工作過。

當時 James 在會上發表了一篇標題為《感知音頻編碼的發展史及時間線》的正式論文。James 說他寫這篇論文的起因,其實是因為維基百科頁面的錯誤。每次 James 試圖更正維基百科頁面的時候,都會被問「您對此瞭解多少?」,然後每次都會被拒。

目前,在維基百科上共有超過 110 萬個詞條。除學者之外,很多公司和組織都有投入資金和精力在維基百科上編輯對自己有利信息的情況。雖然從長遠來看,人們總是會傾向於閱讀真正有價值的內容,但代表特定利益的內容總是令人難以接受的,而且有時候它們還會停留在網頁上很長一段時間。

看來在查找重要內容的時候,我們還需要更加嚴謹,至少要使用不同的信息來源進行一些對比。在這方面,你有更好的方法嗎?

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/


分享到:


相關文章: