|
計算生物學之基因測序
現狀
從管中窺豹的DNA分子排列,到暗藏殺機的復雜遺傳疾病;從小分子代謝物流轉不息,到眼角眉梢的巧笑嫣然;見微知著地貫通微觀到宏觀是無數遺傳學家思考畢生的問題。前瞻性隊列研究是流行病學的基本觀察性研究設計之一,自20世紀70—80年代起,世界各國陸續開始建立長期隨訪的人群隊列。新建立的人群隊列,如中國法醫分子畫像樣本庫、荷蘭Rotterdam隊列、英國雙生子隊列、英國ALSPAC隊列、美國波士頓隊列、澳大利亞QIMR隊列、拉丁美洲CANDELA隊列等,其規模越來越大,且包含較為全面的健康結局信息、環境暴露信息和社會學信息。這些數據具備部分大數據的特征:大型隊列的規模已經達到了50萬種樣本以上,且采樣精度不斷提高,通過整合基因組學、轉錄組學、表觀組學、蛋白組學、代謝組學、免疫組學和影像組學等多維數據,數據量迅速擴大;表型數據包含非結構化圖像、音、視頻等高度異質性數據,并且存在復雜的關聯關系,呈現出多樣性和異質性;借助電子健康記錄及智能傳感設備,數據更新頻繁。深入解析這些數據是精準醫學和DNA表型刻畫等多領域的核心目標,在復雜疾病的個性化預防、診療和指導公安刑偵破案等方面有重要的應用價值。
對領域應用的促進
隨著測序技術不斷發展和各國對普惠健康領域投入的增加,新建立的人群隊列規模越來越大,且包含較為全面的健康結局信息、環境暴露信息和社會學信息,這些數據具備部分大數據的特征。未來由隊列聯盟整合的跨國人群隊列的樣本規模會達到千萬級,傳統分析手段的處理效率難以適應數據的產生速度。與此同時,借助電子健康記錄及智能傳感設備的實用,頻繁更新的多維表型組學數據形成了高度異質的數據集合。深入解析這些數據需設計高效合理的數據庫架構以對多源、異構數據的清洗、標準化和存儲,并引入新算法進行處理。
發展趨勢
面對樣本量和數據維度的爆炸性增加,生物信息學也迎來了技術拐點。科研界和工業界共同發力,許多經典的生物信息學算法和流程通過使用高性能計算資源,提高了生產效率,增強了系統易用性,降低了存儲管理難度;而針對高性能計算平臺開發的機器學習、深度學習算法,也在解析多維數據復雜因果關系及交互作用網絡方面嶄露頭角。以經典的全基因組關聯分析為例,配合高性能運算平臺的高算力開發的新統計學習算法,可以極大提高統計效力,從而發現以前未發現的影響人類復雜表型的遺傳因子,深入理解其遺傳結構。對于復雜疾病來說,這能夠提供明確的分子通路和基因靶標,進而完善復雜疾病的個性化預防、診療、分子分型、預后等健康管理方案。對于人類復雜外貌表型來說,也可以基于發現的遺傳因子建立外貌表型預測模型,推動協助刑事案件偵查、海關檢驗和移民管理等工作進入主動、精確、智能的新時代。將來,高性能計算將進一步推動面向生命科學研究的機器學習和深度學習的算法開發,助力數據聚類、建模預測、文本挖掘、圖像識別等領域開展數據驅動型研究。