何處安放的數據

近些年,天文大數據、地理大數據、網購大數據、醫療大數據等在各行各業大放異彩,“大數據”一詞正逐漸滲透到我們的生活中。對於生物圈小夥伴來說,生物大數據,或者更嚴格地說生命組學大數據更是高頻出現在大家的論文、標書、PPT 報告中。那麼到底什麼是生命組學大數據?這個數據有多大呢?

隨著基因測序技術的不斷升級,測序成本的下降速度已超越了摩爾定律。2001年花費30億美元測一個人的基因組,現在只需1000美元。基因測序已成為生命科學研究中不可或缺的技術手段,其在生物醫學領域的廣泛應用促使生命組學數據爆發式增長。生命組學大數據種類多,數據量大,包括基因組,轉錄組、蛋白質組、表觀組、變異組、表型組、代謝組等。以人的基因組來舉例,一個人的基因組約30億個字母(A/T/C/G),編成每本66萬字的新華字典,約2000本。

何处安放的数据

雖然基本的遺傳信息只有A、T、G、C四個字母組成,但基因組中這四個字母不同排序構成的遺傳密碼很大程度決定了個體的生老病死。一個人成長過程中,不同時期或狀態下采集的生命組學數據對於分析個體遺傳背景等變化,進行健康指導,輔助精準醫療具有十分重要的意義。目前,美國、英國、韓國、冰島、沙特等相繼啟動萬人級以上精準醫學研究計劃。我國在健康中國戰略的引領下,也啟動了十萬人百萬人級別的精準醫學項目。

據估計,一個人一生將產生10 TB醫學數據。如果在不遠的將來測序與精準醫學在我國大面積普及應用,每年將產生約10萬 PB 的數據量。10萬 PB 是什麼概念?如果用1個T的移動硬盤存儲,每年將需要1億個這樣的硬盤。

何处安放的数据

問題來了,這麼多的數據怎麼放?早在上世紀80年代日本與美國就相繼建立了國家級數據中心,分別是 DDBJ 與 NCBI。90年代,歐洲也有了自己的數據中心 EBI。這三個數據中心同屬於國際核酸數據共享聯盟 INSDC,主要針對生物信息數據的存儲、審編、分析,在國際上保持著十分重要的地位以及影響力。尤其是美國 NCBI,其全球數據中心 No.1的地位至今無人撼動。而由於其政府原因造成的多次 NCBI 停擺事件也讓生物圈的小夥伴們驚慌不已。

何处安放的数据

為了促進數據共享與利用,在國際期刊發表論文之前雜誌往往要求作者將相關數據遞交到國際認可的數據中心,即以上三大數據中心。然而,不容忽視的是,目前全球公開的生命組學數據已近10PB,其中我國貢獻的數據量約佔30~40%。而在未來,作為一個人口大國,我國的數據貢獻量絕不會止步於這個數字。與此同時,中國本土各生物實驗室產出的數據尚未得到統一管理、共享、整合,寶貴的生物數據往往被雪藏,形成了一個個數據孤島,大大降低了數據的利用價值。

何处安放的数据

為了有效管理與高效利用這些大數據,擺脫“數據弱國”命運,亟需加強和規範生命科學數據管理,建設面向我國人口健康和重要戰略生物資源的生物大數據資源管理平臺。針對以上問題,國務院辦公廳於今年3月17日頒佈了國家《科學數據管理辦法》,這也是我國首次在國家層面出臺相應政策以補齊科學數據管理的短板。

何处安放的数据

自《辦法》頒佈以來,中科院北京基因組所生命與健康大數據中心的小夥伴們繼續埋頭苦幹、加快步伐建設生命組學大數據管理體系,以期望為我國生命組學數據儲存管理提供強有力支持。

早在2016年,北京基因組所生命與健康大數據中心就建成了原始組學數據歸檔庫 GSA,專注於原始組學數據歸檔與管理,並提供免費的數據存儲、共享、訪問服務。經歷兩年多修改完善,GSA 已日趨成熟。GSA 遵循國際 INSDC 數據標準及數據庫建設標準,具有安全的數據存儲平臺及系統的數據管理機制。作為中國首個被國際期刊認可的組學數據歸檔平臺,GSA 已獲生命領域包括 CellNaturePNAS 等在內的多數國際期刊認可。

GSA 對數據進行分級管理,私有數據和公開數據存儲於不同磁盤空間,並有相應災備策略,最大限度保證數據安全。對於公開數據面向社會提供公共且免費的數據訪問服務,為科學數據開放共享建立良好生態環境。對於涉密數據,如人類遺傳資源,GSA 建立了一套完整的元數據信息加密機制和數據受控歸檔機制。此外,針對大型、合作型項目,GSA 還提供了傘狀結構管理。

何处安放的数据

截至2018年7月31日,GSA 已服務於93家法人單位,數據資源達到556 TB,其中公開的數據資源230 TB。將數據提交至 GSA,既能落實單位統一管理,也不耽誤發表文章,還不用擔心數據傳輸的網速問題,科研人員的大數據終於有了新選擇!

何处安放的数据


分享到:


相關文章: