儘管有伊隆馬斯克的嘲諷,但學術論文該寫還是要寫的,而且要寫好

今天,朋友圈裡又傳來一陣激烈的討論,原來是特斯拉 CEO 伊隆馬斯克又放出“狂言”:90%的學術論文都是毫無價值的。

其實,在很多從事學術研究的老師和學生看來,是多少有一些認同感的。相信不會有人因為這句話就否定論文在基礎理論和應用層面的帶來的巨大創新力,很多人爭論的點僅是到底百分之多少有價值的問題。那麼雷鋒網認為論文既然還要寫,就應該努力去做那有價值的那部分。基於此,我們聯繫到一些最近剛剛被NLP領域的頂級會議ACL收錄的論文作者,跟他們聊了聊如何寫出一篇優秀的學術論文的話題。

近日,自然語言處理領域國際最權威的學術會議 ACL(The Association for Computational Linguistics) 公佈了其2017年錄用的論文。

以人類語言為研究對象的“自然語言處理”(Natural Language Processing:NLP)是人工智能最重要的研究方向之一。作為在 NLP 領域世界範圍內影響力最大、也最具活力的國際學術組織,ACL(國際計算語言學會)第 55 屆年會將於 2017 年 7 月 30 日至 8 月 4 日在加拿大溫哥華舉辦。

尽管有伊隆马斯克的嘲讽,但学术论文该写还是要写的,而且要写好

4月22日,為了促進國內自然語言處理相關研究的發展以及研究者之間的交流,中國中文信息學會青年工作委員會聯合騰訊公司在北京舉辦了“ACL 2017論文報告會”,邀請到了國內部分被錄用論文的作者報告其論文方法,共同探討自然語言處理領域的新發展和新技術(附講者Slides下載)。

雷鋒網 AI 科技評論作為合作媒體也應邀參與,並在會後採訪了部分的作者,請他們就論文投稿技巧、心中的偶像、今後的打算以及新舊研究方法之間的聯繫等問題表達了自己的看法,雷鋒網將回答彙總整理如下。

雷鋒網:請簡單描述下本次投稿的過程,從選題,寫稿,投稿到被收錄,你認為有什麼經驗可以遵循嗎?

吳雙志:經驗的話談不上,就是一個按部就班的過程吧。首先我本身就是以做神經網絡機器翻譯課題為主的,所以需要對現有模型的優點缺點有較為深刻的掌握和理解。平時就會看很多相關的工作,找找靈感。這次的投稿的內容也是去嘗試解決翻譯中的一個經典問題。至於方法,是在一次偶然的機會中跟同事討論時定下來的,當時也是抱著嘗試的心態。當模型雛形做出來以後發現效果挺好的,從而繼續深入的做下去。後來剛好在ACL投稿之前就都差不多完成了,就投了ACL。所以我覺得就是一個按部就班的過程吧。

何世柱:博士期間我一直在做知識庫問答相關的工作,瞭解到知識庫問答目前研究中的一個重要瓶頸就是問答-答案標註數據的匱乏。正好課題組內有師兄在研究社區問答,而社區問答中有大量的用戶標註的問答-答案數據,雖然這些數據有噪音有錯誤,但還是非常有價值的資源。因此,那時候就想是不是可以利用社區問答的數據幫助知識庫答案。早期的想法還是比較樸素,沒有想到比較好的模型來做這樣的任務。16年上半年,看到了華為諾亞方舟實驗室的幾個相關工作,並與相關作者進行了深入的溝通和交流。受此啟發,針對我們的問題設計了文章的模型。

在選題的時候,與組內老師進行了討論,他們認為課題是有意義的,但是難點就在於如何評價。目前還是沒有很好的評價方法,只能採取邊工作邊摸索的方式推進工作。任務是什麼,解決的問題是什麼,模型是如何解決這些問題的,這些思路確定之後,論文的撰寫就比較流暢了。

另外,寫作過程中,老師和同學,特別是非該研究方向的同學,幫助檢查也是非常重要的。個人認為研究中仔細思考討論“要解決什麼問題”和“如何解決這個問題”至關重要。

羅炳峰:這篇論文的選題是相對比較自然的一次。我在做關係抽取的相關實驗的過程中,發現數據集的噪聲很大程度上影響最終關係抽取器的效果。而通過查閱以往文獻,發現以往的工作對這一問題處理的比較粗糙。於是我就通過查詢其他領域的噪聲處理相關文獻尋找靈感,並結合關係抽取的具體情況設計出了現在的算法,並做了相應的實驗。由於寫代碼和做實驗還算順利,所以初步完成這個工作並沒有花太多時間。不過由於這個工作的頭緒比較多,所以花了比較大的功夫寫稿,從開始寫到初步定稿就花了一個多月的時間。功夫不負有心人,最後審稿人給的分數也比較高,所以從投稿到收錄都比較順利。

經驗方面,首先我覺得選題是論文的基礎,選擇的研究方向最好要麼可以解決一類問題,要麼可以覺得可以顯著提升一個重要的任務。方法設計方面,可以從問題本身出發,分析出問題的本質是什麼,難點是什麼。明確了問題之後,就可以結合大量的文獻調研來尋找靈感,同時也確保自己的方法的新穎性。

最後寫稿的時候,一定要認真對待,因為工作做得再好,寫的讓別人看不明白,或者論證不充分都是白搭。最好在截稿日前一個月就開始寫,然後通過迭代來逐步完善。在迭代的過程中,一定要找有經驗的人(比如導師和高年級學長學姐)提一些意見,爭取把審稿人可能會覺得有問題的地方都在文章中說清楚。比如我這次寫稿就被指出了intuition寫的不夠,文章脈絡要重新組織,缺某一塊的實驗,實驗論證的太淺等一系列問題。要發現這些問題需要有充足的投稿經驗,而我們學生在這一點上往往是欠缺的,所以多找有經驗的人提一些意見可以大大提高最終論文被錄取的概率。

不願具名的作者:這次比較幸運,我的工作能夠被ACL收錄。本文提出的模型簡單但方法相對比較新穎。由於研究方向是信息抽取,所以一直以來都在針對信息抽取相關任務進行方法上的探索,並不存在著一個選題的問題。許多的工作都在方法的嘗試和探索方面。

關於方法的探索方面,這次沒有侷限於已有的抽取方法框架,而是從NLP的其他研究任務中借鑑思路,把我們需要研究的抽取問題轉換為了另外一種形式“序列標註問題”,從而方便使用更有效地端對端模型去實現抽取,並在相關數據集中實驗,實驗結果也驗證了方法的有效性。

有了上述的實驗工作就可以開始撰寫論文。一般我寫論文的思路都是:提出問題(說明清楚本文旨在研究一個什麼樣的任務,它有什麼意義),分析問題(該任務的特點以及已有方法存在的問題),解決問題(本文設計模型的思路以及模型的創新性)。力求思路清晰,邏輯嚴謹,描述簡單易懂。在學術的路上我還有許多需要學習的,上述只是自己在研究過程中的一點習慣和經驗。

塗存超:我覺得選題最重要的方面是面向真實存在的問題,提出自己的解決方案,不要無病呻吟。motivation足夠強或研究的問題足夠新,才會有更大的把握被ACL這種專門領域的頂會錄用。

夏喬林:我的論文雖然是NLP領域的,但是之前受到了很多篇其他領域論文的啟發,所以我的體會是,多看一些自己學科的論文可能是有好處的。

雷鋒網:有沒有NLP方向的偶像?學術界是誰? 工業界是誰?

何世柱:NLP方面比較崇拜的是斯坦福大學NLP組的Percy Liang。閱讀過他的相關文章,也深入研究過他開源的想法。發現他不僅文章寫得好,代碼也非常漂亮,閱讀他的文章和代碼收穫非常大。

不願具名的作者:沒有固定的偶像,只有一些欣賞的工作。像Hinton, Lencun等這些高高在上的大牛們,更多的是一種敬畏和膜拜。此外,我比較佩服Mikolov這樣的年輕學者,博士剛畢業就發出了影響力巨大的Word2vec工作,將學術和工程結合的很好。

塗存超:學術界偶像:Christopher D. Manning;業界偶像:Tomas Mikolov

雷鋒網:有沒有想加入的公司?是哪家?有沒有打算創業?

吳雙志:我個人來說是比較喜歡搞研究的,而且也很希望能將研究成果放到到實際應用中。所以我希望能加入既能做研究也能實現產品轉化的公司吧,至於創業的話,還沒想過。

何世柱:暫時沒有加入產業界的想法,也沒有創業的打算(可能再多磨鍊磨鍊吧,個人覺得創業非常難)。還是更喜歡科研中的自主性。但是我們的相關研究其實是與產業應用非常相關的,比如我這次的文章就是解決產業上的真實用戶需求,因此,我們也非常樂於跟產業界合作,因為可以更準確的獲取用戶的真實需求和數據。

夏喬林:還在讀博,但會考慮去谷歌這樣的公司實習,大牛的集中地,應該會學到很多東西。國內想嘗試去一些創業公司實習。

塗存超:打算創業。

雷鋒網:如何看待目前熱點的研究方法(神經網絡)與傳統方法之間的關係?或者說如何看待經驗主義和理性主義的鐘擺。

吳雙志:我覺得神經網絡與傳統方法相比是有很多優點的。神經網絡具有很強的學習能力,我們知道在很多任務中,傳統方法可能需要複雜子模型結合一起才能完成,訓練過程和使用過程複雜,需要有較多的背景知識。然而神經網絡卻可以用一個網絡對任務進行建模,並且在很多任務上的性能優於傳統方法。神經網絡模型降低了很多自然語言經典任務的門檻。但是我覺得不能太盲從於神經網絡,在應用神經網絡的同時還要對具體任務做一些反思。傳統方法是領域專家們很多年的研究成果,非常值得我們借鑑。

所以我覺得對於一個具體任務而言,我們不能僅僅去把神經網絡拿來就用,還應該掌握這個任務的傳統,經典方法。

何世柱:這個問題很大,我只能是根據自己在實踐中的感受來進行回答。神經網絡和傳統方法各自有優缺點,神經網絡表達能力強,可以對數據進行很好的泛化(本質是上平滑),有更強的記憶能力(能存儲和匹配數據中更多的模式),但是神經網絡方法對於數據的要求比較高,大量高質量的數據才能學習好的模型。傳統方法可以很好的融合人的知識,實際上現在很多神經網絡的方法也在嘗試加入更多的外部知識,比如機器翻譯中加入句法信息其實就是一種外部知識。我們的工作也是在神經網絡中融入存儲於外部知識庫中的知識。

羅炳峰:我覺得神經網絡的方法很大程度上是對傳統方法研究的問題提供了一個新的建模的視角,即區別於傳統方法通過人工構造特徵對問題進行刻畫,神經網絡方法可以通過設計神經網絡的結構,來對問題的各個特性進行建模,或者通過深層網絡使得模型自己學習特徵。雖然神經網絡剛提出時宣揚的優勢之一就是不需要特徵工程,但是其和傳統的基於特徵的方法本身是不衝突的,比如Google的Deep&Wide模型就是神經網絡模型和傳統特徵工程方法結合的一個典型實例。另外像LSTM+CRF這類模型又是神經網絡的結構建模方法和概率圖模型的結構建模方法的一個有效的結合方式。相信今後會看到更多的神經網絡方法和傳統方法結合的案例。

不願具名的作者:目前的熱點的神經網絡方法更偏向於一種數據驅動型的方法,相比傳統方法,無需更多的人工干預工作但對訓練數據具有很強的依賴性,在如今的大數據時代以及計算資源豐富的情況下,相對更具優勢。此外,二者也並非完全獨立,也可相輔相成。比如傳統的人工定義規則模板的方法,這類方法可以提供準確的先驗知識,如何將這些準確的先驗知識和神經網絡模型進行融合。

*出門問問NLP工程師李超對本文有貢獻。


分享到:


相關文章: