沒有同行評議的 arXiv 如何識別偽科學?

arXiv 重塑了科學的大門——將門推得更開——但總有人要被困在門外。

撰文 | KATE BECKER

翻譯 | 金莊維

審校 | 趙維傑

沒有同行評議的 arXiv 如何識別偽科學?


xxx.lanl.gov,這個網址散發著誘人的神秘氣息——似乎和政府機密相關,或許還不止。

然而事實卻恰恰相反:它由洛斯阿拉莫斯國家實驗室進行管理(的確是政府機構!),是個開放存取的預印本大倉庫。學術論文的開放存取興起於上世紀90年代,至今仍在改變著學術出版業。

這個網站其實就是 arXiv(讀作“archive”):原網站早已被轉移到了大家熟知的新地址:arXiv.org,並由康奈爾大學圖書館負責管理。arXiv 上有大量的論文預印本,它們是尚未經過同行評議的論文草稿,或是不打算髮表在期刊上的文章。當然,論文在發表後也能以修訂版的形式出現在 arXiv 上。截至2019年10月,網站上的預印本數量超過160萬篇,主要集中在硬科學方向:數學、計算機科學、定量生物學、計量金融學、統計學,以及最主要的,物理學。

沒有同行評議的 arXiv 如何識別偽科學?

arXiv 之父

物理學家 Paul Ginsparg 於1991年創建了arXiv,當時他只希望收錄約100篇科研論文。然而隨著投稿如洪水般湧來,他只好求助於計算機程序,對文章進行半自動化處理。為了學習編程,他參加了十幾場機器學習研討會。Ginsparg 現在是康奈爾大學物理學與信息科學教授。

arXiv 是30多年前的科學家夢寐以求的文庫:全庫檢索、隨時隨地都可訪問、免費發表和閱讀、包含幾乎所有經典論文。在今天這個我們可以一邊在星巴克排隊,一邊在維基百科上查閱原子理論發展史的科技黃金時代,arXiv 的出現或許會顯得稀鬆平常,然而事實上,這是一場不折不扣的革命。

誠然,arXiv 使學術界受益良多,但鮮為人知的是,它必須回答一個適用於所有學科的棘手哲學問題:哪些文章值得讀?什麼是科學?

arXiv 出現之前,預印本只在小型學術圈中通過人工或者郵件分發。論文得過上幾個月才能正式發表在學術期刊上,而這些期刊只能在大學圖書館找到。arXiv 使這個“競技場”民主化:無論是頂尖大學德高望重的教授、不知名機構日夜奔忙的博士後,還是發展中國家缺乏資助的學者,你的新想法都可以被其他研究者立即看到。

Paul Ginsparg 於1991年創建了 arXiv,那年他35歲,是洛斯阿拉莫斯的物理學家。他起初只是想把大約100篇論文分享給幾百位電子郵件訂閱者。但到1992年夏天,他收到了1200多篇論文投稿,可謂喜憂參半!Ginsparg 並不打算仔細審閱所有論文,但他希望每位讀者都能找到最感興趣的文章。所以他開始將這些論文分門別類,並且召集到越來越多的審稿人,他們都是為學術界服務的志願者。

這些是科學嗎?

arXiv 的宗旨是收錄的論文應該“讓研究人員感興趣、與學科相關並且有價值”。隨著網站規模和知名度越來越大,arXiv 開始吸引學術圈外的文章,但是這些文章大多不滿足要求。它們壓根就不是科學,連偽科學也算不上(偽科學尚可被檢驗並駁倒)——它們高調地宣稱推翻了愛因斯坦、牛頓和霍金的理論,發現了物理和超能力、UFO 之間隱蔽的關聯,而文章中幾乎沒有數學推理和實驗依據。

arXiv 的默認立場是接收所有文章。Ginsparg 表示,論文也遵循無罪推定原則。但是瀏覽這些不科學的論文會浪費研究人員的時間。另外,arXiv 的讀者中有越來越多的記者和政策制定者,真假論文“共處一室”會引起他們的困惑。因此,審稿人必須對每篇文章做出判斷:這些是科學嗎?

大多數 arXiv 用戶對審稿人的判斷感到滿意,但也有人抱怨論文被扔在一旁,特別是處在學術邊緣的一些研究人員會控訴 arXiv 的審稿人忽視非主流想法。

arXiv 審稿人面對的不是個新問題。早在1959年,科學哲學家 Thomas Kuhn 就把這個問題概括為“必要的張力”:傳統學術界限和自由研究之間的衝突。Kuhn 認為,科學要想前進,兩者缺一不可。但如果新穎的想法常在不同學科的夾縫中產生,無法歸類的靠譜論文又是否會被誤判為假論文?

arXiv 的審稿人可沒那麼多時間進行 Kuhn 式的反思。很多讀者每天都刷 arXiv,網站希望他們總能看到最新的文章。所以 arXiv 從一開始就強制實行“24小時更新”原則:每個工作日下午4點(美國東部時間,相當於北京時間第二天早上5點)前收到的論文一般在當晚8點(北京時間第二天上午9點)上線。審稿人得在不到一天的時間內決定每篇文章的命運:拒絕還是有待進一步審查。

Ginsparg 注意到了這種忙碌的日常工作,他想到可以利用計算機程序協助處理大量投稿,讓志願者輕鬆些。

真科學確實會被誤判

Ginsparg 最初的目的很簡單:設計一種算法,將論文按學科分類,為審稿人省去瀏覽誤投稿件的麻煩——有些稿件會在提交時被錯誤分類。幾個小時後,新程序就誕生了,它能接收一篇新文章,提取關鍵詞,統計每個詞出現的次數,通過“學習”過去人工的分類方式對新論文進行分類。Ginsparg 沒有預先設置關鍵詞表,而是通過算法做出最佳選擇。因為審稿人會對每個分類進行檢查,算法能夠得到即時回饋,並且逐步完善,實現每天對幾百篇投稿逐篇處理。

然而他沒有想到,這種分類方法有個神奇的“附加屬性”:它能區分出“好”論文和“壞”論文!arXiv 意外地將“必要的張力”付諸了實踐,它是如何做到的?

審查了成千上萬篇文章之後,分類算法掌握了真科學的信號:語言。通過學習科學語言,程序可以用與審稿人類似的方式對文章進行判斷。被拒絕的論文不符合科學語言規範:偏離可能非常明顯,例如把不同學科的內容胡亂拼湊在一起;也可能不易察覺,像“ or ”、“ it ”和“ that ”之類無意義詞的錯誤分佈。

學術編輯、審稿人和科研人員在判斷論文好壞時早已關注到了語言問題。卡迪夫大學的科學社會學家 Luis Reyes-Galindo 表示,arXiv 反映了學術界的特性,將學界內外區分開來。

偽科學也有其特定的語言風格。加州大學河濱分校的數學物理學家 John Baez 設計了“民科指標”,將文章按37個“民科特徵”進行打分:全部大寫的單詞每個給5分,宣稱工作“處在‘範式轉移’最前沿”給10分,宣稱有個“革命性理論但沒給出具體的可檢驗預言”給50分。當然,最後一項和語言關係不大。

沒有同行評議的 arXiv 如何識別偽科學?

無罪推定。arXiv 的創建者 Paul Ginsparg 對大量湧入的文章採取這種態度。截圖顯示2016年10月,僅天體物理方向 arXiv 就接收了1058篇論文。而每年只有不到1%的文章因為偽科學被拒。

語言能夠分辨論文好壞是有原因的。受過正式科學訓練(包括4年大學,更長時間的研究生和博士後)的作者不僅掌握了一些基本事實、思考和實驗的方法,還學會了特定的交流方式。“成為科學家的關鍵在於科學語言:知道如何表達、演講。” Reyes-Galindo 說道。

arXiv 不會自動拒絕被算法判為“異常”的文章:它們被做上標記,等待進一步的人工審查。作為人類智慧成果的承載者,科學應當由內容而非風格進行衡量,所以有人爭論說,通過詞彙識別外行並將他們拒之門外的做法不夠穩妥。舉例來講,成績蜚然的交叉學科研究人員怎麼辦?

“早在互聯網出現之前,我們就看到過奇怪的非主流工作。”麻省理工物理學家 David Kaiser 說,“但它們中的一些的確是沙子裡的黃金。”現在很多習以為常的物理定律在當時看來簡直不可思議:日心說、場能夠傳遞相互作用、數學公式描述的物理定律等等。現代量子理論中有些不可或缺的研究在上世紀70年代根本不受待見:晦澀難懂,像是磕藥後的胡言亂語。

Kaiser 在2011年出版的新書《嬉皮士如何拯救了物理學》中寫道:“很多現在佔據量子信息科學核心地位的想法誕生於反主流文化運動。這個運動中還有湯匙彎折心靈感應、東方神秘主義、LSD 致幻之旅、中情局靈魂追夢、‘水瓶時代’狂熱等稀奇古怪的‘探索’。”為量子計算、量子加密和量子隱形傳輸奠定基礎的物理學家採用的方法並不時髦,並且處於學術邊緣,但時間證明了它們的價值。“我很懷疑早期那些豐富多彩的想法能否被 arXiv 接收。” Kaiser 說道。

現在也一樣,靠譜(至少不是離經叛道)的想法確實偶爾會被 arXiv 誤判。“在我熟知的領域內就有三個例子:專業的物理學家,包括聲譽良好的教授的論文被拒之門外或標記審查。”圓周理論物理研究所的物理學家 Lee Smolin 說。

審稿人的判斷

很多據理力爭才使論文出現在 arXiv 上的研究人員不願談起傷心往事,他們擔心被拉入黑名單。日內瓦大學的資深物理學家 Nicolas Gisin 卻是個例外,他在2015年12月公開為兩位學生申冤。他們向 arXiv 提交了一篇關於黑洞的文章,結論不同尋常:物質不可能掉進黑洞。同時,這兩名作者並不屬於黑洞研究的學者圈。但是 Gisin 覺得他們的計算非常清楚,邏輯也很清晰。“我很欣賞他們的勇氣,敢於逾越物理學不同研究方向間的壁壘。”他在維也納量子光學和量子信息研究所的博客上寫道。

苦等幾個月後——在 arXiv 快速更新的世界裡這簡直就是永恆——論文被拒了。系統標記了論文,隨後審稿人把文章斃掉。這兩名學生的第二篇論文同樣被拒,但這回快多了,Gisin 認為他們上了黑名單。

Ginsparg 否認 arXiv 有黑名單。他並未參與 Gisin 學生的文章審查,但在讀過他們的文章後,他覺得裡面存在基本錯誤。發表於 EMBO 期刊上的一篇關於 arXiv 的文章中,Ginsparg 提到了這件事,他表示,arXiv 的審稿人為魯莽的研究生避免了不必要的尷尬。

Ginsparg 解釋道,arXiv 的自動篩選系統可能標記曾經投稿被拒的用戶,也會拒絕用別名再次提交的被拒論文。arXiv 還為用戶提供申訴流程:作者可以要求被拒文章由原先的審稿人重審,如果再次被拒,作者還可以要求由仲裁審稿人進行第三輪審查。如果被拒論文隨後被同行評議的期刊接收,arXiv 也會重新接收這篇論文。但是 Gisin 的學生沒有申訴,論文最終被 Physics Letters A 接收後也沒再放到 arXiv 上。

儘管偶爾引起爭議,arXiv 的標準還是相當寬容的。Ginsparg 表示,去年只有不到1%的投稿由於內容問題被拒,而且很多像 Gisin 一樣的批評者仍然是網站的忠實用戶。

但是 arXiv 的處理程序仍然不夠透明。“arXiv 對投稿者的人身保護不夠。” Kaiser 說道。審稿人拒絕論文時只會按照 arXiv 的標準模板發送拒信,沒有更多具體的解釋。“被拒後的申訴過程也令人失望,”Smolin 說道,“根據我所瞭解的幾個例子,他們的申訴流程不夠完善,也沒有遵循最專業的做法,這與 arXiv 在物理界的重要地位並不相稱。”

在接收和拒絕之間,還存在一箇中間選項:存疑論文被歸類到“general physics”(“gen-ph”)中。說得好聽點,gen-ph 收容了無法與其他類別完全匹配的論文;說得難聽點,這就是個垃圾場。總之,審稿人可以藉此躲避拒稿帶來的糾紛。但是對於很多作者而言,被髮配到 gen-ph 和被直接拒絕一樣讓人難堪。有個研究人員告訴 Reyes-Galindo,把他的論文分類到 gen-ph 中就像是在故意降低文章的影響力。不過 gen-ph 只佔 arXiv 的一小部分:從2014年7月到2015年6月,arXiv 接收了超過10萬篇論文,其中只有302篇被髮配到 gen-ph。

對於 arXiv 的失望催生了另一個預印本網站:viXra。這個新網站由英格蘭獨立物理學家 Philip Gibbs 創建。每個人都可以在 viXra 上貼東西,但是網站禁止“粗俗、誹謗、抄襲和危險導向”的內容。有些人能在這裡找到論文的容身之所,對他們而言,viXra 是知識的避難所。但在學術界的很多人眼裡,viXra 更像錯位玩具島:古怪和破舊玩具的流放地。(對於 viXra,Ginsparg 譏諷道:“這個網站太棒了!下一回再有人問為什麼 arXiv 需要篩選機制時,我們就向他們推薦 viXra。”)Gibbs 在 viXra 的博客上發表了包含17部分的回顧文章“正確的民科”,他認為 viXra 作為歷史檔案,保留了走在時代之前的想法的雛形,也許這些想法能在將來得到承認。

何謂科學?大家往往認為這是互聯網帶來的新問題。但 Kaiser 認為 arXiv 正在試圖解決的是古老問題——“必要的張力”的放大版。長久以來,學者總是抱怨:需要一種工具來幫助人們規範出值得關注的科學範圍。arXiv 重塑了科學的大門——將門推得更開——但總有人要被困在門外。


本文來自微信公眾號“領研網”。如需轉載,請聯繫[email protected],或通過公眾號菜單與我們取得聯繫。戳“http://nautil.us/issue/41/selection/what-counts-as-science”可查看原文。

沒有同行評議的 arXiv 如何識別偽科學?

特 別 提 示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

《返樸》,科學家領航的好科普。國際著名物理學家文小剛與生物學家顏寧共同出任總編輯,與數十位不同領域一流學者組成的編委會一起,與你共同求索。關注《返樸》(微信號:fanpu2019)參與更多討論。二次轉載或合作請聯繫[email protected]


分享到:


相關文章: