讀研祕技十六:完備的實驗

“你前面吹的牛,都要在這裡一一實現。” -- 魯迅沒說過!

實踐是檢驗真理的唯一標準,而對於科學研究來說,如果不是純理論性的工作,實驗就是檢驗理論與方法是否正確的唯一準繩。它不僅能幫助我們驗證方法的性能,還能發現有意義的現象,以提出方法的不足和潛在的改進方向。而對於論文撰寫來說,它也是幫助封閉論文整體邏輯的關鍵一節。

一、有無實驗

沒有實驗的文章有兩種。一種是純理論性的,比如純數學研究的,其成果只需要通過嚴格的數學證明即可被認可。還比如人工智能領域中,基於統計理論,目的就是為了證明學習模型與理想模型之間的距離或界的。這兩種情況是可以不要實驗的。另一種則是明明需要有實驗來支持,卻根本不做實驗。在本應有實驗的部分,只是簡單的放個算法的操作界面。這種情況,往往是學生只想寫篇文章混畢業,需要指導老師進行嚴格把關、做大的改進才行。

而多數工作呢,往往是理論和實驗兼有。評審在審論文時,會顧及兩者工作量的平衡。如果理論方面的創新比較大的話,通常情況下,評審對實驗方面要求就不會太苛刻。即使文章只有一兩個仿真實驗,評審也不會因為實驗少而拒稿。而如果創新小的話,則作者需要用相對更完整的實驗來表明,這個創新是值得發表的。那麼,在論文的實驗部分,哪些是需要交待清楚的,哪些指標能做為評判標準,哪些又值得仔細分析呢?

二、實驗細節交待

科學研究和實驗的目的是要保證可重複性,因此各個細節都需要儘量說明清楚。

首先是數據的說明,需要明確實驗用的數據或數據集的細節,如數據採集方式、採集時間、採集設備、數據的大小,使用的特徵數量。另外, 實驗用的數據集是否為公用的,也影響對論文貢獻的評估。如在論文中,作者只在自建的數據集上進行了方法的評估,很容易讓評審和讀者覺得不具有可重複性和可信度。除此以外,數據集的選擇也很重要。比如在人臉識別中,在現階段應該儘可能選用大規模的數據集來進行評估,而非90年曾流行的ORL數據集(40個人,每個人10張人臉照片)。否則,評審從數據集的使用上就可以輕鬆判斷出方法存在問題,導致快速拒稿。

其次是方法的比較說明。各種方法的參數設置情況、軟硬件平臺是否相同、方法是否為最新的、是否是目前已知文獻的最佳性能,都應該交待清楚。如果需要在統一環境進行比較的,需要利用原文在共享網站如Github分享的代碼來重新實現。為了提高引用率,多數作者會分享代碼。如果找不到代碼的,要麼直接寫信給作者去索取,要麼自己按原文的偽代碼來重寫。

三、評判標準

要評判方法的有效性和效率,各行各業都有各自的一套標準。撰寫實驗報告時,需要根據自己研究方向的實際情況,以及廣泛選擇的評判標準來進行實驗。儘量不要漏掉相應的評價準則,以避免被評審要求整改,從而延長審稿週期、浪費不必要的時間。

這裡不準備枚舉所有可能的標準,只討論幾個相對比較常用的標準及可能存在的誤區。

1、預測性能是多數方法關心的指標,常用模型預測與真實值之間的差異來衡量,一般越小越好。當預測值是連續值時,可以表現為均方根誤差(MSE)或均方絕對值誤差(MAE)的形式。當預測值是離散值時,如識別人臉正確與否時,則表示成識別率、準確率或精度。為了檢驗實驗的穩定性,往往需要對實驗進行多次重複。重複的策略涉及到通過重新組合數據、重新訓練模型等產生的變化 。然後,通過平均各種變化的預測結果來獲得均值和圍繞均值抖動的方差標準偏差

。均值和方差從統計意義反應了模型的預測精度和穩定性。

除了預測性能準確外,有時候還得提防模型把不對的錯判成對的,對的判成錯的。這兩種錯判導致的後果或代價是不同的。舉例說,今年新冠病毒採用的核酸檢測方法。如果把感染了的人錯判成沒有感染的,就是假陰性;反之是假陽性。而目前出現了兩三次都沒有確診的情況,說明該方法在假陰性的指標上還比較高。另外,這兩類誤判的代價顯然也是不同的。在現階段,大家更希望能減少假陰性的情況。寧肯多確診一些,也不要漏過一例。

讀研秘技十六:完備的實驗

圖1:假陽性(左,你懷孕了) 與假陰性 (右,你沒懷孕) 示例

在綜合考慮預測準確性和假陽性的情況下,還可以分析模型或方法從完全不允許假陽性到完全允許假陽性時,預測準確率的變化情況。理想情況下,在完全沒有假陽性時,預測達到100%,此時的預測準確率變化就是從1開始的一條直線,如圖2所示。

讀研秘技十六:完備的實驗

圖2:識別率與(縱座標)假陽性曲線(橫座標)示意圖,三條曲線中,黃色的性能最好。

但多數情況,是遠離面積為1的直線的某條曲線。通過計算曲線下覆蓋的面積(常稱為AUC,即area under the curve),我們就能比較不同預測方法在這兩者之間平衡的統計性能。其結果,顯然是越接近1,越好。除此以外,在預測性能指標上還有很多變種的標準,這裡就不再贅述。

當不同方法性能相近時,比如A方法預測性能98.20%,B是98.15%。在差異比較小的情況下,評審專家有時會要求做顯著性檢驗,以便確信這樣的改進是顯著的,比如p-值檢驗就是常用的顯著性檢測方法。但p-值檢驗依賴於先驗信息這一特點,一直以來為不太喜歡貝葉斯學派的頻率派所認可 [1]。比如增加實驗次數就導致顯著性檢驗發生變化的做法,頻率派往往不太認可。極端情況,如某個新冠的新藥,在前幾次的測試中一直證明不了藥物是顯著有效的,但經過相同設置的多次臨床實驗後,就通過顯著性檢驗了。如果碰到負責新藥評價的是頻率派的,那這個新藥的上市路有可能就遙遙無期了。這一爭論自貝葉斯派建立至今,已經持續 了250年,比病毒才被發現100年多一點要早得多。孰是孰非,要靠自己來判斷。

2、代價。一個決定的做出總是要付出代價的。時間換空間,空間換時間。一部分時間的犧牲換取另一部分空間的獲得,一部分城市的管控換來了其它城市的安全,諸如此類。天下是沒有白白掉下來的餡餅。所以,另一個大家想了解的指標是代價。

如果一個方法的預測性能上來了,那麼代價是什麼是需要報道的。如果是通過過於複雜、收斂極慢的優化獲得的,也許這種代價就不一定合適。如果是通過依賴硬件的並行技術來獲得提高的,只要價格上承受得起,大家就不會覺得有問題,比如通過廣泛的、採用GPU來加速解決問題。另一種是通過大量增加數據量來實現提升。如果數據量可以通過便宜的人工智能標定、或者通過仿真的方式來獲得,那麼這種代價也是值得的。後兩者在現階段的人工智能研究中屢見不鮮,對深度學習的性能提升起了重要作用。

當然,也有反過來尋找代價的。即研究的原本目標和創新點就是要顯著提升計算的速度或降低算法收斂的次數。那麼,讀者也很想知道,它是否在預測性能或相關指標上付出了代價,而這種代價是否值得。同時,在實驗部分,論文也需要澄清算法的計算複雜度或實驗上表現出的運算時間是多少,以幫助讀者直觀瞭解算法的實際表現。

3、參數的影響

對多數方法來說,創新是在已知方法基礎上進行改進得到的。有的時候是A.1、A.2、A.3,有的時候是C=AB,有的時候是A+\lambda_1 B+\lambda+2 C。在複合模塊引入較多時,評審和讀者往往希望瞭解,到底哪個模塊在性能改進上起到了關鍵性的作用。作者也應該在論文中做詳細分析,找出到底是單個模塊的作用,還是組合獲得的效果提升。

另外,參數影響的實驗擺放位置也需要注意。在撰寫時,不妨把方法能獲得的最好性能、以及與其他方法的比較首先報道出來。這樣能給評審一個好的第一印象,知道該方法具有能與其他方法媲美甚至超越的性能。然後,在實驗的隨後部分,再逐層次地去做參數影響的分析,如執行深度學習流行的、通過分解模塊看效果的消融實驗。

4、主觀評價標準

除了定量評估的方法外,還有定性的評判在很多研究中也是必需的。如圖像放縮的應用中,到底放縮後的圖像是否和原圖內容保持一致、失真是什麼原因造成的(見圖3);或如圖像超分辨率的應用,放大後的圖片在哪些位置比之前馬賽克的圖片更清楚、為什麼?這都依賴於主觀的定性評價。

讀研秘技十六:完備的實驗

圖3:圖像放縮的方法比較。左一:原圖;其他為不同方法放縮的效果 [2]

比較普遍的做法是做用戶調查(user study)。但這一調查在選擇用戶的時候和讓用戶評價的時候,應最大化其客觀性。否則,找幾個實驗室的同學隨便標一標,那如何能保證用戶調查的結果是可信的呢?其次,用戶的數量也不能少,否則不具備統計意義。

要達到這些要求,最合理的辦法是進行雙盲研究。比如新冠病毒的藥物有效性測試,就需要用雙盲來評估。首先要將病人隨機分成若干組,一組不給藥,只給安慰劑;另外幾組則服用不同劑量的抗新冠病毒的藥物。在臨床試驗過程中,受試者和參與試驗的醫生都不清楚服用的究竟是安慰劑還是正在測試的藥物。按網上公開的報告來看,在兩週時間後,再進行數據收集彙總分析,以確定藥物是否有效,以及如果藥物有效的話,劑量是多大。如果測試組與對照組相比,核酸檢測呈陰性的比例顯著增加或者病毒載量顯然降低了,那就從臨床試驗上證明了此藥的有效性,

其它網絡傳言都不足為信

類似地,在計算機視覺的圖像放縮研究中,目標是為了保證任意放縮時,圖像或視頻裡的重要目標如主持人身材不變胖或變瘦。當存在不同方法來獲得圖像縮放結果時,就需要引入主觀評價的客觀分析。具體的做法是,隨機從不同算法獲得的放縮圖結果中隨機抽取一定數量的圖像對(可參考圖3)。在不告知哪張圖是哪個算法生成的前提下,讓測試者評判好壞。這一過程可以通過網上有償匿名填問卷的形式完成,比如利用Amazon Mechanical Turk平臺。通過這種方法來分析,就能讓主觀評價的指標儘可能客觀化

四、洞察

實驗章節的目的不僅需要驗證算法的優越性,也需要作者能從實驗結果中分析出一些有意義有價值的知識。一方面,這些知識能幫助論文形成邏輯上的自證。比如在論文介紹部分提到過的其它方法的不足,以及本論文提出方法的創新點,是否通過實驗反映出來了。如果沒有,那麼需要回到之前的章節,重新調整論文的論調,保持邏輯上無漏洞,去除可能誇大宣傳自己方法的內容。

另一方面,從這些知識中,也可能挖掘出新線索、發現新的問題或不足。新的線索可以為自己或感興趣的讀者提供潛在的研究方向。而存在的問題,如能合情合理的解釋清楚,是能讓評審或讀者增加對論文的可信度。需要注意的是,在實驗部分,如果只講好的,對不足完全避開不談時,有時也會讓評審對方法的有效性產生懷疑。因為對於大多數應用性研究來說,終結者的算法並不存在,總有這樣那樣的問題存在。只要對問題的分析得合情合理,作者不必擔心評審會以此來拒稿。

總之,實驗的目的是要把評審和讀者想知道的、置疑的都儘可能完整呈現。如果可以給出一些有新意義的解釋和分析,那就是錦上添花。另外,也要注意,對實驗的表述要儘可能客觀,即使是主觀評價也應想辦法客觀化。

一旦實驗做到充分、可信、邏輯上能自洽且能與前文一致,那麼就把論文的最重要一塊完成了, 剩下的就是結論的撰寫與參考文獻的整理了。這兩塊還有哪些需要注意的呢?下回分解 !

張軍平

2020年2月12日

參考文獻:

1. Bradley Efron. Bayes’ Theorem in the 21st Century. Science, 340(7), 1177-1178, 2013.

2. Siqiang Luo, Junping Zhang, Qian Zhang and Xiaoru Yuan. Multi-Operator Image Retargeting with Automatic Integration of Direct and Indirect Seam Carving. Image and Vision Computing, vol. 30, 655-667, 2012.

往期閱讀:

15. 讀研秘技十五:創新 -- 從亨廷頓舞蹈病說起

14. 讀研秘技十四:綜述東來順,引用西太后

13. 讀研秘技十三:引人入勝的開場白

12. 讀研秘技十二:重災區的論文摘要

11. 讀研秘技十一:論文的選題與選標題

10. 讀研秘技十:不對稱的壓力與科研流水線

9. 讀研秘技九:討論班與綜合科研能力

8. 讀研秘技八:泡泡糖與脫口秀

讀研秘技十六:完備的實驗

張軍平,復旦大學計算機科學技術學院,教授、博士生導師,中國自動化學會混合智能專委會副主任。主要研究方向包括人工智能、機器學習、圖像處理、生物認證及智能交通。至今發表論文近100篇,其中IEEE Transactions系列21篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC, TIP等。學術谷歌引用3600餘次,ESI高被引一篇,H指數30。

出版科普著作《愛犯錯的智能體》,獲2019年中國自動化學會科普獎。曾連續24次推薦至科學網頭條,曾五次進入京東科普讀物新書榜前三名。關於人工智能發展趨勢的觀點曾被《國家治理》週刊、《瞭望》、《科技日報》、《中國科學報》等媒體多次報道。


分享到:


相關文章: