|
國內生命與健康大數據的現狀
國內各種類型的生命與健康大數據中心相繼建成
具有代表性的包括:①深圳國家基因庫,以自產數據為主,作為節點替?EBI?收集數據。②上海生物醫學大數據中心,以中國科學院上海生命科學研究院自產數據為主,支持數據遞交、發布、管理和共享。③微生物資源與大數據中心,以微生物資源庫為主,提供微生物資源注冊、查詢,微生物知識查詢等,用戶遍布國際微生物領域。④國家人口與健康科學數據共享服務平臺,包含約?400個醫學數據庫的訪問入口,以醫藥衛生科學數據為主。⑤全國公安機關?DNA?數據庫,于?2004?年啟動,截至?2016?年?5?月31?日,已有各類數據?4?435.8?萬條,其中違法犯罪人員信息?4?071.9?萬條、現場物證?149.8?萬條;“打拐”DNA?數據庫,累計錄入人員數據?59.4?萬條,DNA?數據?51.3?萬條;兩庫數據總量達到?4?487.1?萬條[12]。⑥北京基因組研究所生命與健康大數據中心,數據主要來自于用戶遞交,數據庫支持數據遞交、管理、發布、共享、檢索、下載、在線分析等。該數據庫擁有近?100?個機構的?300?余數據遞交用戶,70?多個國家和地區的數據訪問與下載用戶,被?40?余家國際期刊認可;2018?年被生物大數據領域權威期刊?Nucleic Acids Research(《核酸研究》)列為與美國?NCBI、歐洲?EBI?齊名的全球核心數據中心。
存在的問題
我國缺乏生命健康大數據管理公共平臺,數據流失嚴重。生命健康領域的期刊雜志通常要求論文的遞交者把發表的數據在學界認可的數據庫公開。由于我國缺乏國家層面自上而下的統一部署和規劃,造成數據資源嚴重流失。據統計,2016?年中國大陸第一作者發表的?SCI?論文有?29.06?萬篇,但其中絕大部分的數據只能被遞交到?NCBI、EBI?等國際知名數據庫。據估計,NCBI?數據庫中?25%?以上的數據來自中國。
我國缺乏生命健康大數據管理共享機制,形成數據孤島,利用效率低。過去的十幾年里,我國通過項目經費扶持而非國家專項基金支持的形式產出了大量的數據庫資源。據基于?Database Commons?數據庫的最新統計,我國的數據庫資源總數位居世界第二;然而,大部分數據庫缺少長期維護,嚴重缺乏深度的人工審編,數據庫內容邊緣化。這些因素導致大量數據庫資源質量不高,利用率低,數據得不到有效共享。缺乏國家級框架的設計與部署導致我國數據庫資源小而散,難以培育出處于國際領先地位的大規模優質數據中心。同樣基于?Database Commons?數據庫信息統計,我國引用數超過?500?次的數據庫鳳毛麟角,超過?1?000?次的更是為零。
我國缺乏生命大數據與健康大數據的整合。生命大數據(尤其是組學大數據)與健康大數據通常是由不同主管部門下屬的單位產出的。由于部門的分割及利益關系,并且缺少國家頂層的協調和制約,這兩大類數據往往脫節,難以形成合力,發揮出最大效果。