|
中國網/中國發展門戶網訊 人類基因組計劃啟動以來,以新一代測序技術和質譜技術為代表的各類組學技術的飛速發展,推動了基因組、轉錄組、表觀遺傳組、蛋白質組、代謝組等海量生命科學組學數據的指數級的增長。一方面,機器學習和人工智能技術極大提升了醫學影像和分子影像技術的分析能力,正在改變以影像組、放射組為代表的醫學影像數據的應用方式。高通量實驗技術的突破,直接把生物醫學數據從以基因組為代表的?PB?量級時代推升到多組學融合的?EB?量級時代。另一方面,人群隊列研究、分子流行病學研究產生了大量長時間、廣空間的數據,表型組從分子、細胞、組織、器官、個體等多層面描述了高維數據,真實世界數據(real world data)回顧性地匯總分析海量的臨床信息數據,這些數據構成了復雜的高維度生物醫學大數據。
我們已經進入了具備相當深度和廣度的生物醫學大數據時代。生物醫學臨床數據呈現數量巨大、增長迅速、質量控制困難、來源廣泛繁雜、難以標準化與結構化等特點,生物醫學研究數據呈現種類繁多、內部結構高維復雜、內涵豐富、數據相對分散、難以高維度多層次交匯共享等特點,生物醫學數據總體表現為數據零散分布、難以有效整合分析,從而導致難以挖掘生物醫學大數據的潛在高價值。對我國生物醫學而言,數據無匯交機制,導致存儲碎片化、管理分散、流失損耗嚴重;數據無安全保障,無國際交流窗口,被迫持續成為世界最大組學數據輸出國;數據無共享平臺,標準化管理混亂,質量參差不齊,開放共享受國際、國內的政策與技術的雙重限制。
生物醫學研究正在發生面向數據密集型的第四科學范式的深刻變革,如何實現從“組學”到臨床與健康人群數據的生物醫學大數據的交匯、綜合管理、利用和共享,將多層次臨床與研究數據進行深度挖掘和高維度、全方位的有機整合,將大數據迅速轉化為新知識,成為我們所面臨的挑戰,其中研究建設下一代生物醫學大數據存儲、共享和轉化中心的關鍵要素(圖?1)。
以遞交為基礎、以整合為導向的數據存儲
早在?20?世紀?80—90?年代,美國、歐洲和日本即已分別建立世界三大生物數據中心,即美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA?數據庫(DDBJ)。這三大數據中心經過近?3?0年的建設,已經形成了完備的數據匯交技術體系,在基因組、轉錄組、蛋白質組等領域發揮著重要影響力。國內機構也已經開始按照數據類型建設了?GSA[12]、iPROX①、WDCM[13]等基因組、蛋白質組、微生物資源等組學數據中心。我國健康醫療大數據中心的“1+5+X”規劃已經落地,即國家數據中心與江蘇、福建、山東、安徽、貴州的東、南、西、北、中?5?個健康醫療大數據區域中心已經形成,將容納全體公民健康醫療大數據。
各類已建、在建的生命科學和健康醫療數據中心,極大地豐富了生命科學、臨床醫療等生物醫學大數據的采集能力。但是隨著數據規模的增加,如何更加有效地利用數據成了挑戰。傳統的數據模型和數據組織方式,已經無法滿足海量數據的結構、數量快速增長以及數據結構不斷變化的管理需求,難以按照實際情況動態調整。對于已有或者將要建設的綜合性生物醫學大數據平臺而言,有必要突破傳統的嚴格按照一類數據建設一個數據庫的模式,采用新的倉儲式的數據倉庫模式,在底層數據結構上以整合為導向,按照樣本、宿主、環境等信息,以及時間、空間信息,預留不同類型的數據之間的聯系,形成彈性的數據結構,支持數據結構動態調整,為后期數據集成與整合工作奠定堅實的基礎。