基於文獻計量分析的基因編輯技術發展研究

基於文獻計量分析的基因編輯技術發展研究

“基因編輯”技術指能夠讓人類對目標基因進行“編輯”,即通過對細胞基因組中目的基因的一段核苷酸序列甚至是單個核苷酸進行替換、敲除、增加或者插入外源序列,使之產生可遺傳的變異。作為一種新興的生物學技術,目前,基因編輯技術主要以鋅指核酸酶 (Zinc-Finger Nucleases,ZFN)、轉錄激活子樣效應因子核酸酶 (Transcription Activator-Like Effector Nucleases,TALEN)和通過sgRNA介導的基於成簇的規律間隔的短迴文重複序列Cas蛋白的DNA核酸內切酶(Clustered Regularly Interspaced Short Palindromic Repeat,CRISPR/Cas9s)等為代表,在基礎研究、基因治療和遺傳改良等方面展示出了巨大的潛力。為了解中國該領域發展態勢,本文運用文獻計量法,基於2007-2017年Scopus基因編輯技術領域論文數據,對該技術領域的國際研究進展進行了整體分析,旨在對我國和世界基因編輯技術領域的研究現狀進行整體把握和分析,以期更好的應對新興產業創新發展帶來的機遇和挑戰。

20世紀70年代DNA重組技術的發展標誌著生物學的新時代開始。隨後,基因組工程技術(Genome Engineering Technologies)的一系列最新進展引發了生物研究的新革命。基於基因同源重組(Homologous Recombination,HR)方法開發的基因靶向技術(Gene Targeting)可以用於刪除某一基因、去除外顯子或導入點突變,通過改變生物體某一內源基因而實現對此基因的功能研究。然而,儘管HR介導的基因靶向產生的定向精確度很高,但目標重組事件發生概率極低。為克服這些挑戰,近年來研究人員開發了一系列基因組編輯技術,能夠有針對性地有效地對真核生物特別是哺乳動物進行基因修飾。

文獻計量學方法是數據挖掘分析的重要方法。利用定量分析工具對各學科研究文獻數量進行科學計量分析和比較,既可以對國家、高校/科研機構等進行學科分析評估,動態分析國內外各研究機構不同學科的發展趨勢以及學科差距;又能夠了解學科領域內核心作者的關鍵信息;同時還能對學科的發展趨勢進行預測,既能夠幫助政策制定者遴選和制定科技戰略規劃提供重要指標和參考,又能夠使研究人員瞭解和洞察當前科學技術領域。

<strong>數據來源及研究方法

<strong>1.1 數據來源

本文使用愛思唯爾的Scopus核心數據庫,對收錄其中的有關基因編輯的文獻進行主題檢索,檢索時間為2007—2017年(截止時間為2017年9月12日)。檢索式為(“gene editor” or “ZFN” or “TALEN” or “CRISPR”),共檢索到文獻8251篇,為了更好地突出文獻蘊含的信息,我們對8251篇文獻進行篩選,取出其中類型為Article文獻5804篇,Review 1094篇,Article in Press 172篇,Conference Paper 103篇,共計7173篇,對該7173篇文獻進行文獻計量學分析。

<strong>1.2 分析方法

本研究採用Scopus數據,並利用基於Scopus數據庫的SciVal分析平臺,根據概覽模塊(Overview module)、標杆模塊(Benchmarking module)、協作模塊(Collaboration module)以及趨勢模塊(Trends module)中提供的相關指標數據,重點分析研究基因編輯領域的研究產出力、引文影響力、合作狀況和學科制度等。

另外,本研究主要利用了VOSviewer軟件中text corpus模塊可分析7173篇文獻中的標題和摘要中的詞彙共現,基於同現詞網絡構建關鍵詞術語地圖、熱點研究地圖等。

<strong>結果與分析

<strong>2.1 文獻量分析

據Scopus數據顯示,1923年至2004年基因編輯技術的世界年文獻發表量均在個位數以下,2005年13篇,2006年11篇。自2007年開始,該領域的年文獻發表量呈顯著上升趨勢。

分析2007-2017年基因編輯領域每年的發文量可以看出(圖1),2007年世界總髮文量為26篇,2007-2012年呈線性增長,至2012年文獻發表量為207篇;2012年至今該領域發表文獻數呈指數型增長,至2016年達2153篇。特別是自2012年Jinek M.等在體外率先證實了Cas9可以在人工合成的sgRNA引導下對靶標DNA序列進行特異切割以來,CRISPR技術以其編輯效率更高、操作更為簡便、成本更低等相對優勢,迅速成為當前基因組編輯技術的主流。該技術已三度入圍美國《科學》雜誌年度十大突破,更在2015年被《科學》評為年度頭號突破。與CRISPR技術有關的論文數量爆發式增長,也是基因編輯技術領域總體論文量自2012年起呈指數級增長的關鍵因素之一。

中國該領域年發文量變化趨勢與世界發展水平基本一致,但是中國年發文量的快速增加起始點略晚於世界年發文量。2011年以前中國基因編輯技術年發文量均低於10篇,2012年為18篇,自2013年開始(54篇)形成拐點,隨後呈線性增長。


基於文獻計量分析的基因編輯技術發展研究

圖1 2007-2017年年發文量

<strong>2.2 國家地區及機構分析

對7173篇文獻整體發表的國家和地區情況進行分析,結果顯示基因編輯技術的研究地區主要集中在美國、歐洲以及東亞地區。

進一步整理文獻發表量前20名的國家和地區(表1),其中發文量最多的國家是美國(United States),共發表文獻3360篇,佔總文獻發表量的46.84%,發文數量排名第二的是中國(China),發表文獻1329篇,佔總文獻發表量的18.53%,發文數排名第三的是德國(Germany),發表文獻650篇,佔總文獻發表量的9.1%。日本(Japan)和英國(United Kingdom)分列第四位和第五位。

基於文獻計量分析的基因編輯技術發展研究

表1 發文量排名前20的國家/地區及發文數量


對7173篇文獻的發文機構進行統計分析,發表文獻數量最多的機構是美國哈佛大學,共發表文獻523篇,佔總文獻發表量的7.3%,排名第二的是中國科學院,共發表文獻313篇,佔總文獻發表量的4.4%,排名第三的是霍華德休斯醫學研究所,共發表文獻267篇,佔總文獻發表量的3.7%。在世界發文量排名前二十的機構中,除了中國科學院發文量位居世界第二外,中國還有中國教育部、復旦大學和北京大學發文量均進入排行榜前二十(表2)。

基於文獻計量分析的基因編輯技術發展研究

表2 發文量排名前20的機構及發文數量


對基因編輯技術排名前六位的科研機構發表在Top10期刊的文章進行科研質量水平分析,發現博德研究所FWCI指數最高(16.32),其次是麻省理工學院(14.76)、哈佛大學(10.32)、霍華德休斯醫學研究所(10.19)。中國科學院在科研成果產出量保持高位的同時,科研質量相對較低,FWCI指數3.81;美國國立衛生研究院(National Institutes of Health)不但科研產出相對較低,FWCI指數也相對較低(4.94),與其他幾家研究機構相比基因編輯技術方面的科研質量相對較低(表3)。

基於文獻計量分析的基因編輯技術發展研究

表3 世界排名前六位的科研機構在Top10期刊發文量比例及FWCI指數

注:域加權引用影響(Field-Weighted Citation Impact)簡稱FWCI,通常用以衡量科研質量。一般認為世界平均水平的FWCI為1,>1則說明研究質量高於世界平均水平,<1則說明低於世界平均水平。

<strong>2.3 專利分析

根據Scopus數據庫的專利數據統計分析,7173篇基因編輯技術相關文獻共涉及到專利5400多份。對2007-2017年相關專利統計發現,2007-2009年均專利數不足百篇,2010年增長到130篇,2010-2012年增長緩慢,自2013年開始迅速增長,從2013年的285篇猛增到2016年的1690篇,基因編輯技術進入成果轉化飛速發展期(圖2)。


基於文獻計量分析的基因編輯技術發展研究

圖2 2007-2017年曆年專利申請量


圖3顯示的是世界排名前六位的科研機構發表在Top10期刊文獻的專利引用情況,泡泡大小表示文獻的專利引用數量(Citing-Patents Count)。

由圖可見,哈佛大學發表基因編輯技術相關文獻數量最多,引用文獻的專利數量也最多,共有339個專利,位列第一梯隊;麻省理工學院和博德研究所在TOP10期刊發表文獻數量佔比最高,分別為58.9%和58.4%,且二者在發表文獻數量及專利引用數量上都很接近,其發表在TOP10期刊文獻的專利引用數量分別為264和260;霍華德休斯醫學研究所專利引用數量為287,其發表在TOP10期刊的文獻數量佔比為52.2%,與麻省理工學院和博德研究所共同屬於第二梯隊。中國科學院和美國國立衛生研究院發表在TOP10期刊的文獻量佔比和專利引用數量均相對較低,其專利引用數量分別為57和31,位列第三梯隊。


基於文獻計量分析的基因編輯技術發展研究

圖3 世界排名前六位的科研機構發表在Top10期刊文獻的專利引用情況


<strong>2.4 作者分析

統計分析7173篇文獻中發文數量最多的作者是來自美國北卡羅來納州立大學生物與營養科學系Barrangou, R.教授,參與發表文章73篇;其次是美國哈佛與麻省理工學院共建的博德研究所華裔教授Zhang, F.,參與發文量66篇;第三名是美國加州大學伯克利分校分子細胞和生物學系女教授Doudna, J.A.,參與發文量64篇。研究發現,發文量最多的三位作者其研究方向均為CRISPR基因編輯技術的發明及應用領域。

為了進一步擴大作者研究範圍,確定核心作者群,根據文獻計量學的普賴斯定律,某一領域中核心作者的最低發文數量應滿足如下公式:

基於文獻計量分析的基因編輯技術發展研究

式中,nmax為最高產的作者的發文數;m為核心作者的最低發文數。

由此公式可推算出基因編輯技術相關研究的核心作者的最低發文量為:

基於文獻計量分析的基因編輯技術發展研究

通過公式計算可以發現,發文在6篇及其以上的作者為基因編輯技術的核心作者,共158位,這158位作者共發文2752篇,佔總發文數量的38.37%。由於篇幅原因,本文整理了發文數量前20名的作者及其參與發表文獻數量(表4)。

基於文獻計量分析的基因編輯技術發展研究

表4 參與文獻數量排名前20的作者、發文量及其所屬機構


對發文數量前十名作者的歷年發表文章數量做進一步統計分析發現,2007年只有Barrangou, R.和Gregory, Philip D.在基因編輯技術方向有文章發表,其他8位作者均自2008年及其以後才開始有相關文章發表。尤其值得注意的是,Zhang, F.教授和Sakuma, T.教授在基因編輯技術方面的相關文章自2012年才開始發表,隨後迅速增長,成為該領域的核心人物(圖4)。


基於文獻計量分析的基因編輯技術發展研究

圖4 前十名作者年發文量


為了從整體水平把握核心作者的科研能力,對發文數量前十名作者的個人文章總量的歷年引用文獻數量進行了統計分析(排除所選作者的自引項)(圖5)。分析可見,Koonin, E. V.研究員的歷年文獻被引數量最高,其h指數為152,也為幾位作者中最高。但是其基因編輯技術方向文章數量排名第九,自2008年開始參與發表基因編輯相關文章後,每年發表文章數也相對均衡,由此可見Koonin,E. V.科研能力處於國際頂尖水平,但是其研究方向多樣,基因編輯技術很可能只是其中一個研究分枝。Doudna,J.A.教授的歷年來文獻被引量也非常顯著,其h指數為81,僅低於Koonin, E.V.。2009年之前Doudna, J.A.文獻被引數量無顯著變化,自2009年開始發表基因編輯技術相關文章後,其文獻被引量變化趨勢與基因編輯技術文獻年發表數量趨勢一致,呈指數性增加,表明自2009年以後Doudna,J.A.的主要研究方向為基因編輯技術並在該領域成為頂級核心作者。Zhang, F.教授2012年之前的文獻被引量均為0,自2013年開始呈爆發式增長,結合其文章發表情況也是從2012年開始,說明Zhang, F.的研究領域集中在基因編輯技術,並且在短時間內成為該領域的核心人物,發展潛力巨大。

基於文獻計量分析的基因編輯技術發展研究

圖5 前十名作者文獻被引量


<strong>2.5 期刊分析

通過對數據進行整理發現,檢索的7173篇文獻共發表在1287種不同的期刊當中。根據文獻計量學中的布拉德福定律,統計發現發表文獻數量在46篇及其以上的期刊有24種,共發表文獻2439篇,約佔總文獻數量的32.74%;發表文獻數量在8-43篇的期刊總共有139種,發表文獻數量2453篇,約佔總文獻量的34.20%;發表文獻數量在1-7篇的期刊1124種,發表文獻數量2280篇,約佔總文獻數量的31.79%。核心區期刊、相關區期刊、非相關區期刊的數量大約成1:6:36的關係(表5)。

基於文獻計量分析的基因編輯技術發展研究

表5 核心區期刊、相關區期刊、非相關區期刊的個數及發表文獻總數


對核心期刊及其發文數的統計發現,發文數最多的期刊前三名為Scientific Reports、PLoS ONE和Nucleic Acids Research,對應發文數分別為377篇、314篇和211篇。核心期刊中被引次數(CiteScore)為10以上的期刊有7種,總髮文量579篇,佔核心期刊總髮文數的23.74%;其中NCS(Nature,Cell,Science)的總髮文量為248,佔核心期刊總髮文數的10.17%。頂級核心期刊數量及發文量表明該領域的科研質量,凸顯了研究的創新性及突破性意義(表6)。

基於文獻計量分析的基因編輯技術發展研究

表6 核心期刊發文數

<strong>2.6 學科分佈分析

目前基因編輯技術涉及的研究覆蓋近30個學科領域,篇幅所限主要節選了發表文章數量最多的前20個學科領域(圖6),由於學科間有交叉,因此總百分數大於1。

目前使用基因編輯進行研究的主要方向有:生物化學、遺傳和分子生物學(Biochemistry, Genetics and Molecular Biology),發文數量4900篇,佔總文獻發表量的68.31%;醫學(Medicine),發文數2550篇,佔總文獻發表量的35.55%;免疫和微生物學(Immunology and Microbiology),發文數量1155,佔總文獻發表量的16.10%;農業與生物科學(Agricultural and Biological Sciences),發文數量1151,佔總文獻發表量的16.04%。

科研質量方面,FWCI指數排名最高的領域是分別是:工程學(Engineering)、化學工程(Chemical engineering)和多學科的交叉科學(Multidisciplinary);而發文量最多的四大學科(生物化學、遺傳和分子生物學,醫學,免疫和微生物學,農業與生物科學)其FWCI指數相對均衡,平均為3左右。


基於文獻計量分析的基因編輯技術發展研究

圖6 學科分佈及科研質量分析


<strong>2.7 關鍵詞共現分析

利用VOSviewer軟件對7173篇文獻題目和摘要基於同現詞網絡構建關鍵詞術語地圖(圖7),發現基因編輯技術涉及的研究被聚類成典型的幾個方向(圖7-1),其中左下方聚類包含401個術語,出現的高頻關鍵詞有:鋅指核酸酶(zinc finger nuclease)、轉錄激活因子樣效應因子核酸酶(transcription activator/talen)、動物模型(animal model)、植物(plant)、多功能幹細胞(pluripotent stem cell)等;左上方聚類包含287個術語,出現的高頻關鍵詞有:治療(treatment/ therapy)、響應(response)、癌症(cancer)、抑制(inhibition)、受體(receptor)、互作(interaction)等;右側聚類包含267個術語,出現的高頻關鍵詞有:重複序列(repeat)、CRISPR/Cas系統(crisprcassystem/cas)病毒(virus)、細菌(bacterium)、菌株(strain)、間隔序列(spacer)、多樣化(diversity)等。

圖7-2研究熱點地圖中顏色越深表明詞頻出現概率越高,越趨向於研究熱點。對深色區域的關鍵詞進行綜合分析,得出的主要研究領域有:①ZFN和TALEN兩種基因編輯技術在植物育種和動物模型方面的應用;②CRISPRs-Cas9在癌症靶向治療方面的應用;③利用CRISPR基因編輯技術控制蛋白表達以治療與蛋白相關的疾病;④對CRISPRs-Cas細菌免疫系統自身的不斷完善研究,如降低脫靶率、提高CRISPR適應的重複精度等。

圖7-3的時間熱度地圖展現了基因編輯技術在不同主題中的演變情況。由圖可見從2013年單純的技術性文章,逐漸向醫學、動植物育種等應用性文章轉變,這也符合新興技術從基礎理論研究到應用轉化研究的演變趨勢。基因編輯技術未來的應用方向主要集中在:癌症/腫瘤的靶向治療、藥物研發、蛋白調控、植物育種等方向。


基於文獻計量分析的基因編輯技術發展研究

圖7-1 VOSviewer構建基因編輯技術關鍵詞術語地圖


基於文獻計量分析的基因編輯技術發展研究

圖7-2 VOSviewer構建基因編輯技術研究熱點主題密度圖


基於文獻計量分析的基因編輯技術發展研究

圖7-3 VOSviewer構建基因編輯技術研究趨勢變化圖


<strong>討論

<strong>3.1 基因編輯技術整體發展態勢迅猛,中國與世界頂尖水平仍有差距

對2007—2017年9月的文獻進行分析可知,基因編輯技術自2012年CRISPR技術正式誕生以來發展迅速。從文獻量上看,近5年來基因編輯技術相關文獻發表數量不斷提高,預計未來幾年還將有大幅提升。

專利引用情況也是自2013年起有了顯著增加,2016年引用文獻專利數已達1690篇,2017年截至9月份已達1400餘篇。特別是博德研究所Zhang, F.團隊與加州大學伯克利分校Doudna, J. A.團隊關於CRISPR/Cas9技術之間的專利之爭,更加凸顯了在CRISPR/Cas9技術專利申請方面的白熱化競爭。

從國家/地區、機構的發文量排名可見,目前基因編輯技術的研究與應用主要集中在美國、中國、歐洲以及日本和韓國。中國的發文量僅次於美國,已成為世界第二大國家。但是中國論文影響力和專利價值方面和國際頂尖機構相比仍有較大差距,應繼續加強佈局和研究。經濟影響方面,美國哈佛大學、麻省理工學院、博德研究所等機構專利引用數量位居世界前列。

<strong>3.2 基因編輯技術已初步形成作者集群,中國研究人員的研究方向分佈廣泛

從研究的作者群體上看,目前基因編輯技術領域已初步形成作者集群,主要集中在一些世界頂級的研究機構和大學。對158位核心作者的隸屬機構和發文情況分析表明,美國學者在發文數量和質量上均有顯著優勢。特別是以CRISPR/Cas9技術出現為代表的一批研究人員,如Zhang, F.,Yamamoto, T.,Sakuma, T.等,在短短几年時間內迅速成為該領域的核心人物。中國學者在該領域取得了一系列重大突破,其研究方向集中在基因編輯技術在人類醫學、動物和植物各個方面的具體應用,為該技術的發展完善及應用做出了重大貢獻。

<strong>3.3 基因編輯技術研究方向廣泛,逐漸從純技術研究轉向各個領域的實際應用

目前基因編輯技術方面的核心區期刊24本,共發表文章2439篇,其中CNS發文量佔比10.17%,其所在的期刊和論文影響力水平已經成為頂級。研究方向方面,目前的文獻研究覆蓋了近30個學科,文獻量分佈最多的幾個學科領域是生物化學、遺傳和分子生物學,醫學,免疫和微生物學,農業與生物科學,主要圍繞生命科學領域的方方面面。研究方向已經從純技術研究向各個領域的應用轉化,將創造巨大的經濟價值和社會價值。最新的前沿熱點研究主題有:癌症/腫瘤的靶向治療、藥物研發、蛋白調控、植物育種等。例如,基因組編輯技術在農作物育種方面已經顯示出巨大的潛力和優勢,主要體現在通過該技術能夠創制出數量性狀的優異等位變異,這是以往技術難以實現的。目前國內多個研究團隊在不同作物上都建立了基因編輯技術,為廣泛利用這類技術對作物品種進行定向改良奠定了基礎。

參考文獻(略)

作者:中國科協創新戰略研究院 曹學偉、高曉巍、陳銳

本文原載於《全球科技經濟瞭望》2018年第4期,轉載文章有刪改

<strong>感謝您的支持與關注,歡迎賜稿交流

投稿郵箱:[email protected]


分享到:


相關文章: