​CiteSpace分析原理

​CiteSpace分析原理

陳超美教授/美國德雷賽爾大學

不斷增長的科學,技術,和人文知識是人類的寶貴資產。新發現能擴展和深化現有的知識,也能淘汰原有的甚至是曾經輝煌的認識。不論是活躍在科學研究前沿的對科學家,學者,或學生,還是每個關心科學對我們的社會產生什麼樣的影響朋友,親屬,他們最關心的問題也許形形色色,但是都面臨著一個最核心最更本的問題:我們是否瞭解和如何瞭解一個知識領域的來龍去脈,它的現狀,和今後的發展前景。

傳統的研究和培養模式中,研究人員需要不斷地尋找相關文獻來建立自己對學術領域的系統認識。比如該領域中主要研究問題是什麼,哪些是奠基式的研究,哪些是里程碑式的研究,哪些是最關鍵的理論,方法和技巧,哪些是當前最嚴峻的挑戰,等等等等。回答這些問題的過程是個高度抽象的過程。這個過程需要不斷地分析,演繹,歸納。任何時間段裡出現的文獻都可能起到關鍵作用,任何視角都有可能帶來新的靈感,任何細節都可能成為下一個突破的開端。

一個專家之所以成為專家在很大程度上取決於他對一個領域或者一個領域中幾個研究問題不但有透徹的瞭解和密切地關注著最新的動向,最重要的他有其獨到的見解。每個學術領域發展到一定階段都會有它的學術綜述和系統性地總結,回顧和展望。隨著領域自身的發展自然會出現新的綜述和新的評價。通常學術綜述或者由本領域知名專家來撰寫,或者由初出茅廬的學者撰寫而由此跨入新一代專家的行列。一個系統綜述可以幫助我們梳理我們對一個學術領域的認識,可以從眾說紛紜的學術文獻中理出另人興奮的頭緒。

我們對系統性學術綜述的依賴並非總能如願以嘗。一個新興領域就可能沒有它的系統綜述。一個高歌猛進的領域裡,任何現有的綜述都可能很快過時。即使一個領域裡有足夠的沒過時的系統綜述,我們還是很有可能發現撰寫綜述的專家對我們所感興趣的問題一帶而過或者完全忽略。在這種情況下,我們很容易想到兩種選擇:一個是盼著能有個新綜述及時出現,而且新出現的綜述正好對我們的研究興趣有同樣的興趣。另一個是自己動手,量體裁衣,做出一個完全針對我們自己的研究問題的系統綜述。

自己動手有很多好處。我們可以自己掌握綜述的進度,範圍,深淺等等。我們還可以自己掌握綜述的頻率。但是自己動手的最大障隘是如何完成這一高度複雜而抽象的過程,如何完成從樹木到森林的飛躍,如何從窺一斑而見全豹的飛躍。完成如此飛躍的關鍵在於如何對紛至沓來的學術文獻作出準確,公正,和儘可能全面的鑑別。作出這樣的鑑別需要過硬的專業知識和豐富的經驗。除了專家本人,還有什麼渠道能讓我們源源不斷地獲取這類知識?

科學文獻本身提供了大量的信息。學術論文中的引文體現了專家學者們對現有文獻的選擇。不論這種選擇是出於何種動機及其具體原因,選擇本身提供的信息就很有價值。科學文獻可以大致氛圍三類。一類屬於經典文獻,一類屬於曇花一現的文獻。這裡經典文獻的定義很廣,只要一篇論文不斷地被引用,那它就屬於經典文獻,並非只有愛因斯坦的論文才能成為經典文獻。曇花一現的文獻佔了科學文獻整體中的絕大多數,他們出現幾乎立刻被學者們所遺忘,甚至根本沒有引起任何人的關注。第三類文獻往往是問題的關鍵。這些文獻從茫茫論文的海洋中產生了飛躍,給人們對科學知識的認識中留下了明確的印記。引文分析有少的弱點和不足,但是它所研究的信息是難以替代的。我們從學者的闡述論證中會學到很多很多,而我們從學術同仁對其優劣的描述和評判中能學到的會更多更深刻。更重要的是,學術同仁作出其評判時所依據的邏輯推理和演繹過程。如果我們能把來自不同學派和不同視角的這種學術鑑定予以綜合歸納,那我們將會極大地減少專家撰寫的系統綜述中在所難免的個人偏見。這裡所致的個人偏見沒有任何貶義,這是人類認識,興趣,經驗,和觀念的必然結果。CiteSpace的設計是在這個前提下給學者和任何對科學知識前沿的發展感興趣的人們提供一個自己動手時所需要的工具[1, 2]。CiteSpace的目的是利用學術領域裡專家學者們在他們論文中對學術文獻所做的選擇來作為我們自己鑑別學術文獻潛力的基礎[3-5]。我們有什麼理由相信如果把形形色色的論文中的引文分揀,提煉,整合到一起,我們就能得到我們做綜述所需要的信息呢?托馬斯·庫恩的科學革命的結構給CiteSpace提供了哲學基礎[6]。庫恩認為,科學的推進是建立在科學革命上的一個往復無窮的過程。這個過程中會出現一個又一個的科學革命,人們的認識通過科學革命而接納新的觀點。而新觀點的重要性在於對我們所觀察的對象能否作出更另人信服的解釋。庫恩的科學革命是新舊科學範式的交替和興衰。科學認識中會出現危機,而危機所帶來的新舊範式的轉換都將在學術文獻裡留下印記。庫恩的理論給我們提供了一個具有指導意義的框架,如果科學進程真像庫恩所洞察的那樣,那我們就應該能從科學文獻中找出範式興衰的足跡。

CiteSpace的另一個設計靈感來源於一個叫做結構洞的理論。這個理論原本是芝加哥大學羅納德·Burt在研究社會網絡和社會價值時提出的[7, 8]。他研究的問題是人們在社會網絡中的位置和他們的主意和創意的質量是否有什麼聯繫。他發現結構洞概念提供了這樣的證據。在一個完全連通的社交網絡中,每個人和所有的人都直接聯繫。因此,各種信息可以隨意地從一個人傳播到另一個人。在這樣的網絡中,不存在結構洞。在另一類也是更常見的網絡中,社交網絡中不是每個人和所有其他人都有直接聯繫,如果如此,便有了結構洞,即結構上的不完備。這種情況下,信息在網絡中的流動受到其結構上的約束。每個人在網絡中所能接觸到的信息內容不再相同,傳遞和接受的時間也會出現差別。Burt發現,位於結構洞周圍的人往往具有更大的優勢。而這一優勢往往又可以歸結為他們所接觸到的各類不同信息導致了比其他人更大的想像空間。這個問題歸結為我們能接觸到信息,意見或觀點在多大程度上是廣譜的和多樣化的。社交網絡中的結構洞理論可以擴展到其它類型的網絡,尤其是引文網絡。Burt的結構洞和庫恩的範式轉換在CiteSpace中得到了具體體現。庫恩的範式體現為一個又一個時間段所出現的聚類。聚類的主導色彩揭示了他們興盛的年代。伯特的結構洞連接了不同聚類。我們可以從中更深入地瞭解一個聚類如何連接到另一個幾乎完全獨立的聚類,以及哪個具體文獻在範式轉換中起到了關鍵作用。結構洞的思想在CiteSpace中體現為尋找具有高度中介中心性的節點。這樣我們不在拘泥於具體論文的局部貢獻,而放眼於他們在學術領域的整體發展中的作用。這恰恰是系統性學術綜述所追求的飛躍。

節點的中介中心性能引導我們儘快地發現有潛力的工作和新穎的想法。在現實中,僅僅有好的想法往往可能還不夠。人們需要做出自己的判斷和決策。CiteSpace的發展中的到的第3個啟迪來自最優信息覓食理論。該理論最初是由Pirolli提出來解釋信息搜索中人們是如何做出決定的[10]。最佳信息覓食理論本身是最佳覓食理論的延伸。當我們搜索信息時,我們需要做出一系列的決定,取捨。所有這些決定都服務於一個簡單的目的:我們需要付出最少的損耗來獲得最大的效益,也就是廣義的盈利最大化。毋庸置疑,這些考慮都應限制在道德倫理法律等等的約束範疇之內。根據這一理論,我們在覓食過程的所有決定,有意識或無意識地,取決於如何將預期的增益和潛在風險之比最大化。高風險往往是相對的,新例證可能會減少我們最初對風險作出的評估。如果我們發現已經有學者在研究相同或類似的問題,對其他學者來說研究同一問題的風險將會大大降低。我們在以前的研究中確實發現了這種效應。高風險的想法出版後通常會引來更多的研究。最初的嘗試導致了大家對效益/風險之比進行重新評估,從而使在新環境下更容易地作出決定。

CiteSpace借鑑的第4個重要概念是如何對這種效應的強度和持久性作出明確地衡量。Kleinberg在2002年提出了探測頻率突增的算法[9]。如果一篇論文的引文頻次突然呈現急速增長,那麼最穩妥的解釋就是這篇論文切中了學術領域這個複雜系統中的某個要害部位。知識網絡中這樣的節點通常揭示一項很有潛力或很讓人感興趣的工作。如果我們過多地注重局部細節,我們可能會捨本逐末以至忽視全局的結構和動態。CiteSpace通過計算機算法和交互式可視化把人們從一些費時費力的負擔中解脫出來,使得我們可以把我們的精力集中在更重要更關鍵的分析問題,抽象思維,和創造性思維上。基於引文所體現的信息不僅能使我們更瞭解過去,還有可能讓我們對未來有更明確的期待。

網絡的模塊化是對其整體結構的一個全局性量度。局部結構的變化可能會引起全局的改變,但是也同樣可能不會引起任何全局上的改變。前者將成為經典,而後者將曇花一現。在CiteSpace的設計中,我們通過監測知識系統如何對新論文可能作出的反應來探測新論文潛力。科學知識本身是一個自適應複雜系統。新發現和新想法可能會改變我們的信念和行為。它的輸入和輸出不是線性相關。如果一篇新論文可以看作是自適應複雜系統所收到的信號,如果我們測量系統的模塊化,模塊化的改變或沒有改變會給我們瞭解這篇論文的潛力提供非常有價值的信息。這是CiteSpace所遵循的結構變異理論的基礎[11, 12]。

CiteSpace作為一款可視化分析工具,獻給致力於自己動手積極追蹤學術領域發展動態的人們。

參考文獻

  1. Chen, C., CiteSpace II: Detecting and visualizing emerging trends and transientpatterns in scientific literature. Journal of the American Society forInformation Science and Technology, 2006. 57(3):p. 359-377.
  2. Chen , C., Searching for intellectual turning points: Progressive Knowledge DomainVisualization. Proc. Natl. Acad. Sci. USA, 2004. 101(Suppl.): p. 5303-5310.
  3. Small, H., Cocitation in the scientific literature: A new measure of therelationship between two documents. Journal of the American Society for Information Science, 1973. 24: p.265-269.
  4. Garfield, E., Citation indexes for science: A new dimension in documentation throughassociation of ideas. Science, 1955.122(3159): p. 108-111.
  5. Kessler, M.M., Bibliographic coupling between scientific papers. AmericanDocumentation, 1963. 14: p. 10-25.
  6. Kuhn, T.S., The Structure of Scientific Revolutions. 1962, Chicago: Universityof Chicago Press.
  7. Burt, R.S., Structural holes and good ideas. American Journal of Sociology,2004. 110(2): p. 349-399.
  8. Burt, R.S., Structural Holes: The Social Structure of Competition. 1992,Cambridge, Massachusetts: Harvard University Press.
  9. Kleinberg, J., Bursty and hierarchical structure in streams, in Proceedings of the 8th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining. 2002, ACMPress: Edmonton, Alberta, Canada. p. 91-101.
  10. Pirolli, P., Information Foraging Theory: AdaptiveInteraction with Information. 2007, Oxford, England: Oxford UniversityPress.
  11. Chen, C., Predictive effects of structural variationon citation counts. Journal of the American Society for Information Scienceand Technology, 2012. 63(3): p.431-449.
  12. Chen, C., The Fitness of Information: Quantitative Assessments of CriticalEvidence. 2014: Wiley.

引用格式:陳超美,李傑主編. 科學知識前沿圖譜理論與實踐/陳超美. CiteSpace 的分析原理[C]. 高等教育出版社. 2018. 1-4.

​CiteSpace分析原理


分享到:


相關文章: