生物醫學數據大爆炸,大數據“挖掘機”哪家強?

生物醫學數據大爆炸,大數據“挖掘機”哪家強?

近年來,生物醫學領域正在快速產生海量數據,特別是隨著基因測序技術的快速發展,人類基因序列數據遺傳信息正在成為各國爭奪的戰略高點。科學研究表明,不同個體攜帶的DNA信息差異可能成為打開生命奧秘的關鍵密碼,因此基於基因組的研究在醫藥學、農業、環境等領域具有不可估量的商業價值,世界上眾多科研機構和商業公司展開了激烈的競爭。

自從人類基因組計劃啟動以來,以第二代高通量測序技術等為代表的各類組學技術飛速發展,推動了基因組、轉錄組、表觀遺傳組、蛋白質組等生命科學組學數據的指數級增長,把生物醫學數據推進到了PB時代。而當前正在發展的第三代單分子測序技術,速度更快、成本更低,進一步推動生物醫學數據進入EB時代、基因測試有望進入100美元時代。

基因組大數據分析正在成為生物醫學領域的下一個前沿,集數據存儲、數據共享、數據分析和數據質量控制等融合數據基礎設施,將是生物醫學大數據的最強“挖掘機”。華為全聯接大會2019給大家帶來了基於OceanStor分佈式存儲底座的生物醫學大數據基礎設施,為基因組學大數據應用產業打開了全新機遇之門。

人體成為大數據重要產出源

生物醫學數據大爆炸,大數據“挖掘機”哪家強?

歐美髮達國家已經紛紛啟動了基於測序技術的生命科學大數據研究計劃。人體成為大數據重要產出源,目前多種組學數據、醫學影像和臨床資料在內統計的生物信息數據產出達到了10TB/人的水平,全球每年產生的生物數據總量已達EB級,生命科學已經從實驗數據積累階段進入大數據科學時代。這是中科院專家在2018年發表的一篇《國家級生物大數據中心展望》指出的當前嚴峻形勢。

歐、美、日等幾大國際生物信息中心建設起步早,多年來一直引領著全球生物大數據及生物信息領域的發展。在1980年到1988年間,美國、歐洲和日本分別建立了世界三大生物數據中心,即美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA 數據庫(DDBJ),三大生物數據中心掌握並管理著全世界主要生物數據和信息資源。

三大國際生物數據中心的規模龐大,例如截止到2014年DDBJ中心的CPU性能理論峰值達208TFlops、存儲容量達12.6PB。而美國NCBI中心憑藉雄厚的科研技術力量以及在生命技術方面的巨大影響,建立了一系列生物信息數據庫和各種數據服務,例如帶註釋的所有公開已知DNA序列數據庫GenBank,該數據庫每天都與DDBJ和EBI的歐洲核甘酸檔案庫同步交換數據,以保持數據的實時更新。

由國際生物數據中心的運營可以看出,生物醫學數據呈現種類繁多、內部結構高維複雜、內涵豐富、數據相對分散、難以高維度多層次交匯共享等特點,例如NCBI的Gene服務是一個可搜索的基因數據庫,專注於已經完全測序的基因組,基因信息是包括命名法、染色體定位、基因產物及其屬性、相關標記、表型、相互作用、引文鏈接、序列、突變詳情、圖譜、表達報告、同源物、蛋白結構域內容和外部數據庫鏈接等在內的高維數據。

中科院專家在2018年發表的《生物醫學大數據發展的新挑戰與趨勢》一文中指出,隨著數據規模的增加,如何更加有效地利用生物醫學數據成為了挑戰。傳統的數據模型和數據組織方式,無法滿足海量數據的結構、數量快速增長以及數據結構不斷變化的管理需求,難以按照實際情況動態調整。因此,必須要突破傳統的一類數據建設一個數據庫的模式,而採用新類數據基礎設施,在底層數據結構上以整合為導向,支持數據結構動態調整,為後期數據集成與整合工作奠定基礎。

生物醫學進入新時代,大數據帶來新改變

生物醫學數據大爆炸,大數據“挖掘機”哪家強?

要把基於海量的基因數據和難以複製的“人工經驗”,變成可積累、易複製的“數據智能”,就必須要解決數據的存、算、用的問題,華為與中科院一起探索建設符合生物醫學研究特點的大數據基礎設施。

首先要解決海量數據彙集的問題。生物醫學數據本身具備多樣性,數據來自不同區域、機構、個體,有結構化數據也有圖像、視頻、文本等非結構化數據,新的生物大數據基礎設施要支持EB級多樣性數據的高效存儲,並且可以通過文件、大數據等多協議共享訪問,減少不必要的數據遷移,實現存儲即分析。

其次是海量數據的高效處理。基於CPU和GPU的高性能協同計算,得益於其強大的並行處理能力,成為海量生物醫學數據處理的研究熱點。而生物醫學的實時分析和臨床處理,還需要用到大數據和AI技術快速準確進行影像處理、數據降維、數據取樣和知識發現,因此新的生物大數據基礎設施也在積極引入NPU/ARM/FPGA等硬件技術,打造多樣性的數據分析平臺,讓數據分析更高效。

最後,數據只有共享了,才能發揮出它的最大價值,通過建設數據使能平臺,可以實現數據的共享、標準化、可視化、服務化,讓數據更好地服務於不同的對象,造福全人類。

為了推動基因數據的開放共享,2016年華為與中科院合作建立了新一代組學數據匯交管理平臺NODE(又稱為國家組學數據百科全書),目前已開放共享的各類數據達到數百TB,提供數據的發佈、審閱、分享、管理、質量評估、下載與申請,讓數據更廣泛服務於科學研究。用戶還可以在線分析NODE上的數據,在線提交數據。NODE分析功能強大,基於國產測序平臺MGISEQ-2000測試的RNA-seq數據,測序質量好,性能優異。截止目前,NODE數據已服務於超過23個國家、83萬的訪客,幫助全球的科學家開展133個項目,其中25個項目的科研成果在Cell、Nature等權威雜誌發表。

此外,2019年8月1日,中科院生物化學與細胞生物學研究所惠利健、中科院上海營養與健康研究所李亦學、第二軍醫大學張海斌及南京大學施曉雷等共同通訊在Cancer Cell在線發表題為“A Pharmacogenomic Landscape in Human Liver Cancers”的研究論文,基於海量的數據分析,以大約50%的成功率建立人肝癌細胞模型並生成模型庫,相關研究結果發佈於Cancer Cell上。

目前生命科學和臨床醫學研究每天產生研究和檢測數據龐大,有些測試數據會被不斷覆蓋,有些則會被永久保存下來以便後續分析,主要數據類型為文本文件、圖像文件、二進制文件等非結構化數據,對存儲的要求主要是存儲容量的大小和大文件讀寫通量的高低,而少量的關鍵數據庫、索引等結構化數據則對存儲的要求是較高IOPS和穩定的讀寫能力。基於華為OceanStor分佈式存儲解決方案,不僅為科研人員提供了日常科研所需的數據存儲,其橫向擴展能力更能夠滿足機構未來5年數據發展需求,並且保障業務7×24小時持續平穩運行。

華為OceanStor分佈式存儲,生物醫學大數據之道

生物醫學數據大爆炸,大數據“挖掘機”哪家強?

我國生物醫學數據總體表現為數據零散分佈、難以有效整合分析,生物醫學大數據價值挖掘困難,因此對於生物醫學大數據技術和基礎設施有著迫切需求,特別是需要依靠先進的數據技術以結束我國長期以來的基因組數據輸出國地位,通過數據存儲的全聯接來結束生物數據碎片化和流失嚴重的現象,通過共享平臺實現標準化治理以更好的對接國際生物醫學數據平臺、參與國際生態。在這方面,華為今年重點發布的智能數據與存儲技術,就是最強“挖掘機”的有力競爭者。

我國生物醫學大數據和生物醫學信息數據中心所面臨的挑戰,並非特有現象。實際上,在當前廣泛進行的數字化轉型中,各行各業都面臨同樣的問題,這也是今年華為推出智能數據湖解決方案的重要背景。華為智能數據湖解決方案通過多類型數據融合存儲、融合分析引擎等技術實現從單一處理到智能融合處理,OceanStor分佈式存儲則是作為智能數據湖的底座,利用多協議融合技術實現一份數據同時支持數據庫、大數據、AI等多種業務的分析需求,讓數據分析更高效。

華為從2002年開始存儲技術的研究,在全球佈局研發能力,例如在俄羅斯建立存儲算法研究中心,在中國成都、深圳、北京等地構築交付能力中心,截至目前華為存儲產品服務全球超過1萬家客戶。根據Gartner報告,2019Q1華為存儲發貨套數位居全球第四,中國區分佈式存儲市場中國區份額保持第一。截止2019年7月,華為OceanStor分佈式存儲已進入全球超過50個國家,服務金融、運營商、大企業等多個行業超過1500家客戶,成為了企業數字化轉型過程中,海量、多樣性數據承載的首選存儲。


分享到:


相關文章: