何处安放的数据

近些年,天文大数据、地理大数据、网购大数据、医疗大数据等在各行各业大放异彩,“大数据”一词正逐渐渗透到我们的生活中。对于生物圈小伙伴来说,生物大数据,或者更严格地说生命组学大数据更是高频出现在大家的论文、标书、PPT 报告中。那么到底什么是生命组学大数据?这个数据有多大呢?

随着基因测序技术的不断升级,测序成本的下降速度已超越了摩尔定律。2001年花费30亿美元测一个人的基因组,现在只需1000美元。基因测序已成为生命科学研究中不可或缺的技术手段,其在生物医学领域的广泛应用促使生命组学数据爆发式增长。生命组学大数据种类多,数据量大,包括基因组,转录组、蛋白质组、表观组、变异组、表型组、代谢组等。以人的基因组来举例,一个人的基因组约30亿个字母(A/T/C/G),编成每本66万字的新华字典,约2000本。

何处安放的数据

虽然基本的遗传信息只有A、T、G、C四个字母组成,但基因组中这四个字母不同排序构成的遗传密码很大程度决定了个体的生老病死。一个人成长过程中,不同时期或状态下采集的生命组学数据对于分析个体遗传背景等变化,进行健康指导,辅助精准医疗具有十分重要的意义。目前,美国、英国、韩国、冰岛、沙特等相继启动万人级以上精准医学研究计划。我国在健康中国战略的引领下,也启动了十万人百万人级别的精准医学项目。

据估计,一个人一生将产生10 TB医学数据。如果在不远的将来测序与精准医学在我国大面积普及应用,每年将产生约10万 PB 的数据量。10万 PB 是什么概念?如果用1个T的移动硬盘存储,每年将需要1亿个这样的硬盘。

何处安放的数据

问题来了,这么多的数据怎么放?早在上世纪80年代日本与美国就相继建立了国家级数据中心,分别是 DDBJ 与 NCBI。90年代,欧洲也有了自己的数据中心 EBI。这三个数据中心同属于国际核酸数据共享联盟 INSDC,主要针对生物信息数据的存储、审编、分析,在国际上保持着十分重要的地位以及影响力。尤其是美国 NCBI,其全球数据中心 No.1的地位至今无人撼动。而由于其政府原因造成的多次 NCBI 停摆事件也让生物圈的小伙伴们惊慌不已。

何处安放的数据

为了促进数据共享与利用,在国际期刊发表论文之前杂志往往要求作者将相关数据递交到国际认可的数据中心,即以上三大数据中心。然而,不容忽视的是,目前全球公开的生命组学数据已近10PB,其中我国贡献的数据量约占30~40%。而在未来,作为一个人口大国,我国的数据贡献量绝不会止步于这个数字。与此同时,中国本土各生物实验室产出的数据尚未得到统一管理、共享、整合,宝贵的生物数据往往被雪藏,形成了一个个数据孤岛,大大降低了数据的利用价值。

何处安放的数据

为了有效管理与高效利用这些大数据,摆脱“数据弱国”命运,亟需加强和规范生命科学数据管理,建设面向我国人口健康和重要战略生物资源的生物大数据资源管理平台。针对以上问题,国务院办公厅于今年3月17日颁布了国家《科学数据管理办法》,这也是我国首次在国家层面出台相应政策以补齐科学数据管理的短板。

何处安放的数据

自《办法》颁布以来,中科院北京基因组所生命与健康大数据中心的小伙伴们继续埋头苦干、加快步伐建设生命组学大数据管理体系,以期望为我国生命组学数据储存管理提供强有力支持。

早在2016年,北京基因组所生命与健康大数据中心就建成了原始组学数据归档库 GSA,专注于原始组学数据归档与管理,并提供免费的数据存储、共享、访问服务。经历两年多修改完善,GSA 已日趋成熟。GSA 遵循国际 INSDC 数据标准及数据库建设标准,具有安全的数据存储平台及系统的数据管理机制。作为中国首个被国际期刊认可的组学数据归档平台,GSA 已获生命领域包括 CellNaturePNAS 等在内的多数国际期刊认可。

GSA 对数据进行分级管理,私有数据和公开数据存储于不同磁盘空间,并有相应灾备策略,最大限度保证数据安全。对于公开数据面向社会提供公共且免费的数据访问服务,为科学数据开放共享建立良好生态环境。对于涉密数据,如人类遗传资源,GSA 建立了一套完整的元数据信息加密机制和数据受控归档机制。此外,针对大型、合作型项目,GSA 还提供了伞状结构管理。

何处安放的数据

截至2018年7月31日,GSA 已服务于93家法人单位,数据资源达到556 TB,其中公开的数据资源230 TB。将数据提交至 GSA,既能落实单位统一管理,也不耽误发表文章,还不用担心数据传输的网速问题,科研人员的大数据终于有了新选择!

何处安放的数据


分享到:


相關文章: