基于文献计量分析的基因编辑技术发展研究

“基因编辑”技术指能够让人类对目标基因进行“编辑”,即通过对细胞基因组中目的基因的一段核苷酸序列甚至是单个核苷酸进行替换、敲除、增加或者插入外源序列,使之产生可遗传的变异。作为一种新兴的生物学技术,目前,基因编辑技术主要以锌指核酸酶 (Zinc-Finger Nucleases,ZFN)、转录激活子样效应因子核酸酶 (Transcription Activator-Like Effector Nucleases,TALEN)和通过sgRNA介导的基于成簇的规律间隔的短回文重复序列Cas蛋白的DNA核酸内切酶(Clustered Regularly Interspaced Short Palindromic Repeat,CRISPR/Cas9s)等为代表,在基础研究、基因治疗和遗传改良等方面展示出了巨大的潜力。为了解中国该领域发展态势,本文运用文献计量法,基于2007-2017年Scopus基因编辑技术领域论文数据,对该技术领域的国际研究进展进行了整体分析,旨在对我国和世界基因编辑技术领域的研究现状进行整体把握和分析,以期更好的应对新兴产业创新发展带来的机遇和挑战。

20世纪70年代DNA重组技术的发展标志着生物学的新时代开始。随后,基因组工程技术(Genome Engineering Technologies)的一系列最新进展引发了生物研究的新革命。基于基因同源重组(Homologous Recombination,HR)方法开发的基因靶向技术(Gene Targeting)可以用于删除某一基因、去除外显子或导入点突变,通过改变生物体某一内源基因而实现对此基因的功能研究。然而,尽管HR介导的基因靶向产生的定向精确度很高,但目标重组事件发生概率极低。为克服这些挑战,近年来研究人员开发了一系列基因组编辑技术,能够有针对性地有效地对真核生物特别是哺乳动物进行基因修饰。

文献计量学方法是数据挖掘分析的重要方法。利用定量分析工具对各学科研究文献数量进行科学计量分析和比较,既可以对国家、高校/科研机构等进行学科分析评估,动态分析国内外各研究机构不同学科的发展趋势以及学科差距;又能够了解学科领域内核心作者的关键信息;同时还能对学科的发展趋势进行预测,既能够帮助政策制定者遴选和制定科技战略规划提供重要指标和参考,又能够使研究人员了解和洞察当前科学技术领域。

数据来源及研究方法

1.1 数据来源

本文使用爱思唯尔的Scopus核心数据库,对收录其中的有关基因编辑的文献进行主题检索,检索时间为2007—2017年(截止时间为2017年9月12日)。检索式为(“gene editor” or “ZFN” or “TALEN” or “CRISPR”),共检索到文献8251篇,为了更好地突出文献蕴含的信息,我们对8251篇文献进行筛选,取出其中类型为Article文献5804篇,Review 1094篇,Article in Press 172篇,Conference Paper 103篇,共计7173篇,对该7173篇文献进行文献计量学分析。

1.2 分析方法

本研究采用Scopus数据,并利用基于Scopus数据库的SciVal分析平台,根据概览模块(Overview module)、标杆模块(Benchmarking module)、协作模块(Collaboration module)以及趋势模块(Trends module)中提供的相关指标数据,重点分析研究基因编辑领域的研究产出力、引文影响力、合作状况和学科制度等。

另外,本研究主要利用了VOSviewer软件中text corpus模块可分析7173篇文献中的标题和摘要中的词汇共现,基于同现词网络构建关键词术语地图、热点研究地图等。

结果与分析

2.1 文献量分析

据Scopus数据显示,1923年至2004年基因编辑技术的世界年文献发表量均在个位数以下,2005年13篇,2006年11篇。自2007年开始,该领域的年文献发表量呈显著上升趋势。

分析2007-2017年基因编辑领域每年的发文量可以看出(图1),2007年世界总发文量为26篇,2007-2012年呈线性增长,至2012年文献发表量为207篇;2012年至今该领域发表文献数呈指数型增长,至2016年达2153篇。特别是自2012年Jinek M.等在体外率先证实了Cas9可以在人工合成的sgRNA引导下对靶标DNA序列进行特异切割以来,CRISPR技术以其编辑效率更高、操作更为简便、成本更低等相对优势,迅速成为当前基因组编辑技术的主流。该技术已三度入围美国《科学》杂志年度十大突破,更在2015年被《科学》评为年度头号突破。与CRISPR技术有关的论文数量爆发式增长,也是基因编辑技术领域总体论文量自2012年起呈指数级增长的关键因素之一。

中国该领域年发文量变化趋势与世界发展水平基本一致,但是中国年发文量的快速增加起始点略晚于世界年发文量。2011年以前中国基因编辑技术年发文量均低于10篇,2012年为18篇,自2013年开始(54篇)形成拐点,随后呈线性增长。


图1 2007-2017年年发文量

2.2 国家地区及机构分析

对7173篇文献整体发表的国家和地区情况进行分析,结果显示基因编辑技术的研究地区主要集中在美国、欧洲以及东亚地区。

进一步整理文献发表量前20名的国家和地区(表1),其中发文量最多的国家是美国(United States),共发表文献3360篇,占总文献发表量的46.84%,发文数量排名第二的是中国(China),发表文献1329篇,占总文献发表量的18.53%,发文数排名第三的是德国(Germany),发表文献650篇,占总文献发表量的9.1%。日本(Japan)和英国(United Kingdom)分列第四位和第五位。

表1 发文量排名前20的国家/地区及发文数量


对7173篇文献的发文机构进行统计分析,发表文献数量最多的机构是美国哈佛大学,共发表文献523篇,占总文献发表量的7.3%,排名第二的是中国科学院,共发表文献313篇,占总文献发表量的4.4%,排名第三的是霍华德休斯医学研究所,共发表文献267篇,占总文献发表量的3.7%。在世界发文量排名前二十的机构中,除了中国科学院发文量位居世界第二外,中国还有中国教育部、复旦大学和北京大学发文量均进入排行榜前二十(表2)。

表2 发文量排名前20的机构及发文数量


对基因编辑技术排名前六位的科研机构发表在Top10期刊的文章进行科研质量水平分析,发现博德研究所FWCI指数最高(16.32),其次是麻省理工学院(14.76)、哈佛大学(10.32)、霍华德休斯医学研究所(10.19)。中国科学院在科研成果产出量保持高位的同时,科研质量相对较低,FWCI指数3.81;美国国立卫生研究院(National Institutes of Health)不但科研产出相对较低,FWCI指数也相对较低(4.94),与其他几家研究机构相比基因编辑技术方面的科研质量相对较低(表3)。

表3 世界排名前六位的科研机构在Top10期刊发文量比例及FWCI指数

注:域加权引用影响(Field-Weighted Citation Impact)简称FWCI,通常用以衡量科研质量。一般认为世界平均水平的FWCI为1,>1则说明研究质量高于世界平均水平,<1则说明低于世界平均水平。

2.3 专利分析

根据Scopus数据库的专利数据统计分析,7173篇基因编辑技术相关文献共涉及到专利5400多份。对2007-2017年相关专利统计发现,2007-2009年均专利数不足百篇,2010年增长到130篇,2010-2012年增长缓慢,自2013年开始迅速增长,从2013年的285篇猛增到2016年的1690篇,基因编辑技术进入成果转化飞速发展期(图2)。


图2 2007-2017年历年专利申请量


图3显示的是世界排名前六位的科研机构发表在Top10期刊文献的专利引用情况,泡泡大小表示文献的专利引用数量(Citing-Patents Count)。

由图可见,哈佛大学发表基因编辑技术相关文献数量最多,引用文献的专利数量也最多,共有339个专利,位列第一梯队;麻省理工学院和博德研究所在TOP10期刊发表文献数量占比最高,分别为58.9%和58.4%,且二者在发表文献数量及专利引用数量上都很接近,其发表在TOP10期刊文献的专利引用数量分别为264和260;霍华德休斯医学研究所专利引用数量为287,其发表在TOP10期刊的文献数量占比为52.2%,与麻省理工学院和博德研究所共同属于第二梯队。中国科学院和美国国立卫生研究院发表在TOP10期刊的文献量占比和专利引用数量均相对较低,其专利引用数量分别为57和31,位列第三梯队。


图3 世界排名前六位的科研机构发表在Top10期刊文献的专利引用情况


2.4 作者分析

统计分析7173篇文献中发文数量最多的作者是来自美国北卡罗来纳州立大学生物与营养科学系Barrangou, R.教授,参与发表文章73篇;其次是美国哈佛与麻省理工学院共建的博德研究所华裔教授Zhang, F.,参与发文量66篇;第三名是美国加州大学伯克利分校分子细胞和生物学系女教授Doudna, J.A.,参与发文量64篇。研究发现,发文量最多的三位作者其研究方向均为CRISPR基因编辑技术的发明及应用领域。

为了进一步扩大作者研究范围,确定核心作者群,根据文献计量学的普赖斯定律,某一领域中核心作者的最低发文数量应满足如下公式:

式中,nmax为最高产的作者的发文数;m为核心作者的最低发文数。

由此公式可推算出基因编辑技术相关研究的核心作者的最低发文量为:

通过公式计算可以发现,发文在6篇及其以上的作者为基因编辑技术的核心作者,共158位,这158位作者共发文2752篇,占总发文数量的38.37%。由于篇幅原因,本文整理了发文数量前20名的作者及其参与发表文献数量(表4)。

表4 参与文献数量排名前20的作者、发文量及其所属机构


对发文数量前十名作者的历年发表文章数量做进一步统计分析发现,2007年只有Barrangou, R.和Gregory, Philip D.在基因编辑技术方向有文章发表,其他8位作者均自2008年及其以后才开始有相关文章发表。尤其值得注意的是,Zhang, F.教授和Sakuma, T.教授在基因编辑技术方面的相关文章自2012年才开始发表,随后迅速增长,成为该领域的核心人物(图4)。


图4 前十名作者年发文量


为了从整体水平把握核心作者的科研能力,对发文数量前十名作者的个人文章总量的历年引用文献数量进行了统计分析(排除所选作者的自引项)(图5)。分析可见,Koonin, E. V.研究员的历年文献被引数量最高,其h指数为152,也为几位作者中最高。但是其基因编辑技术方向文章数量排名第九,自2008年开始参与发表基因编辑相关文章后,每年发表文章数也相对均衡,由此可见Koonin,E. V.科研能力处于国际顶尖水平,但是其研究方向多样,基因编辑技术很可能只是其中一个研究分枝。Doudna,J.A.教授的历年来文献被引量也非常显著,其h指数为81,仅低于Koonin, E.V.。2009年之前Doudna, J.A.文献被引数量无显著变化,自2009年开始发表基因编辑技术相关文章后,其文献被引量变化趋势与基因编辑技术文献年发表数量趋势一致,呈指数性增加,表明自2009年以后Doudna,J.A.的主要研究方向为基因编辑技术并在该领域成为顶级核心作者。Zhang, F.教授2012年之前的文献被引量均为0,自2013年开始呈爆发式增长,结合其文章发表情况也是从2012年开始,说明Zhang, F.的研究领域集中在基因编辑技术,并且在短时间内成为该领域的核心人物,发展潜力巨大。

图5 前十名作者文献被引量


2.5 期刊分析

通过对数据进行整理发现,检索的7173篇文献共发表在1287种不同的期刊当中。根据文献计量学中的布拉德福定律,统计发现发表文献数量在46篇及其以上的期刊有24种,共发表文献2439篇,约占总文献数量的32.74%;发表文献数量在8-43篇的期刊总共有139种,发表文献数量2453篇,约占总文献量的34.20%;发表文献数量在1-7篇的期刊1124种,发表文献数量2280篇,约占总文献数量的31.79%。核心区期刊、相关区期刊、非相关区期刊的数量大约成1:6:36的关系(表5)。

表5 核心区期刊、相关区期刊、非相关区期刊的个数及发表文献总数


对核心期刊及其发文数的统计发现,发文数最多的期刊前三名为Scientific Reports、PLoS ONE和Nucleic Acids Research,对应发文数分别为377篇、314篇和211篇。核心期刊中被引次数(CiteScore)为10以上的期刊有7种,总发文量579篇,占核心期刊总发文数的23.74%;其中NCS(Nature,Cell,Science)的总发文量为248,占核心期刊总发文数的10.17%。顶级核心期刊数量及发文量表明该领域的科研质量,凸显了研究的创新性及突破性意义(表6)。

表6 核心期刊发文数

2.6 学科分布分析

目前基因编辑技术涉及的研究覆盖近30个学科领域,篇幅所限主要节选了发表文章数量最多的前20个学科领域(图6),由于学科间有交叉,因此总百分数大于1。

目前使用基因编辑进行研究的主要方向有:生物化学、遗传和分子生物学(Biochemistry, Genetics and Molecular Biology),发文数量4900篇,占总文献发表量的68.31%;医学(Medicine),发文数2550篇,占总文献发表量的35.55%;免疫和微生物学(Immunology and Microbiology),发文数量1155,占总文献发表量的16.10%;农业与生物科学(Agricultural and Biological Sciences),发文数量1151,占总文献发表量的16.04%。

科研质量方面,FWCI指数排名最高的领域是分别是:工程学(Engineering)、化学工程(Chemical engineering)和多学科的交叉科学(Multidisciplinary);而发文量最多的四大学科(生物化学、遗传和分子生物学,医学,免疫和微生物学,农业与生物科学)其FWCI指数相对均衡,平均为3左右。


图6 学科分布及科研质量分析


2.7 关键词共现分析

利用VOSviewer软件对7173篇文献题目和摘要基于同现词网络构建关键词术语地图(图7),发现基因编辑技术涉及的研究被聚类成典型的几个方向(图7-1),其中左下方聚类包含401个术语,出现的高频关键词有:锌指核酸酶(zinc finger nuclease)、转录激活因子样效应因子核酸酶(transcription activator/talen)、动物模型(animal model)、植物(plant)、多功能干细胞(pluripotent stem cell)等;左上方聚类包含287个术语,出现的高频关键词有:治疗(treatment/ therapy)、响应(response)、癌症(cancer)、抑制(inhibition)、受体(receptor)、互作(interaction)等;右侧聚类包含267个术语,出现的高频关键词有:重复序列(repeat)、CRISPR/Cas系统(crisprcassystem/cas)病毒(virus)、细菌(bacterium)、菌株(strain)、间隔序列(spacer)、多样化(diversity)等。

图7-2研究热点地图中颜色越深表明词频出现概率越高,越趋向于研究热点。对深色区域的关键词进行综合分析,得出的主要研究领域有:①ZFN和TALEN两种基因编辑技术在植物育种和动物模型方面的应用;②CRISPRs-Cas9在癌症靶向治疗方面的应用;③利用CRISPR基因编辑技术控制蛋白表达以治疗与蛋白相关的疾病;④对CRISPRs-Cas细菌免疫系统自身的不断完善研究,如降低脱靶率、提高CRISPR适应的重复精度等。

图7-3的时间热度地图展现了基因编辑技术在不同主题中的演变情况。由图可见从2013年单纯的技术性文章,逐渐向医学、动植物育种等应用性文章转变,这也符合新兴技术从基础理论研究到应用转化研究的演变趋势。基因编辑技术未来的应用方向主要集中在:癌症/肿瘤的靶向治疗、药物研发、蛋白调控、植物育种等方向。


图7-1 VOSviewer构建基因编辑技术关键词术语地图


图7-2 VOSviewer构建基因编辑技术研究热点主题密度图


图7-3 VOSviewer构建基因编辑技术研究趋势变化图


讨论

3.1 基因编辑技术整体发展态势迅猛,中国与世界顶尖水平仍有差距

对2007—2017年9月的文献进行分析可知,基因编辑技术自2012年CRISPR技术正式诞生以来发展迅速。从文献量上看,近5年来基因编辑技术相关文献发表数量不断提高,预计未来几年还将有大幅提升。

专利引用情况也是自2013年起有了显著增加,2016年引用文献专利数已达1690篇,2017年截至9月份已达1400余篇。特别是博德研究所Zhang, F.团队与加州大学伯克利分校Doudna, J. A.团队关于CRISPR/Cas9技术之间的专利之争,更加凸显了在CRISPR/Cas9技术专利申请方面的白热化竞争。

从国家/地区、机构的发文量排名可见,目前基因编辑技术的研究与应用主要集中在美国、中国、欧洲以及日本和韩国。中国的发文量仅次于美国,已成为世界第二大国家。但是中国论文影响力和专利价值方面和国际顶尖机构相比仍有较大差距,应继续加强布局和研究。经济影响方面,美国哈佛大学、麻省理工学院、博德研究所等机构专利引用数量位居世界前列。

3.2 基因编辑技术已初步形成作者集群,中国研究人员的研究方向分布广泛

从研究的作者群体上看,目前基因编辑技术领域已初步形成作者集群,主要集中在一些世界顶级的研究机构和大学。对158位核心作者的隶属机构和发文情况分析表明,美国学者在发文数量和质量上均有显著优势。特别是以CRISPR/Cas9技术出现为代表的一批研究人员,如Zhang, F.,Yamamoto, T.,Sakuma, T.等,在短短几年时间内迅速成为该领域的核心人物。中国学者在该领域取得了一系列重大突破,其研究方向集中在基因编辑技术在人类医学、动物和植物各个方面的具体应用,为该技术的发展完善及应用做出了重大贡献。

3.3 基因编辑技术研究方向广泛,逐渐从纯技术研究转向各个领域的实际应用

目前基因编辑技术方面的核心区期刊24本,共发表文章2439篇,其中CNS发文量占比10.17%,其所在的期刊和论文影响力水平已经成为顶级。研究方向方面,目前的文献研究覆盖了近30个学科,文献量分布最多的几个学科领域是生物化学、遗传和分子生物学,医学,免疫和微生物学,农业与生物科学,主要围绕生命科学领域的方方面面。研究方向已经从纯技术研究向各个领域的应用转化,将创造巨大的经济价值和社会价值。最新的前沿热点研究主题有:癌症/肿瘤的靶向治疗、药物研发、蛋白调控、植物育种等。例如,基因组编辑技术在农作物育种方面已经显示出巨大的潜力和优势,主要体现在通过该技术能够创制出数量性状的优异等位变异,这是以往技术难以实现的。目前国内多个研究团队在不同作物上都建立了基因编辑技术,为广泛利用这类技术对作物品种进行定向改良奠定了基础。

参考文献(略)

作者:中国科协创新战略研究院 曹学伟、高晓巍、陈锐

本文原载于《全球科技经济瞭望》2018年第4期,转载文章有删改

感谢您的支持与关注,欢迎赐稿交流

投稿邮箱:nais-research@cnais.org.cn