曰批免费视频播放免费,一区二区三区四区无码日韩,无码不卡免费v片在线观看,久久婷婷人人澡人人9797

 
 

科學大數據管理技術與系統

發布時間:2018-09-07 11:51:11  |  來源:中國網·中國發展門戶網  |  作者:黎建輝 李躍鵬 王華進 陳明奇  |  責任編輯:趙斌宇
關鍵詞:科學大數據,融合查詢,流水線,數據共享,彈性伸縮

 

科學大數據管理引擎

BigSDMS?包括?3?類科學大數據管理引擎:大規模圖數據管理、大規模半結構數據管理和大規模關系型數據管理。其中,大規模圖數據庫?Gstore?支持?100?億條三元組圖數據管理和秒級查詢響應時間。大規模半結構化數據庫?Eventdb?支持萬億級高能物理實驗事例、EB?量級數據管理能力。大規模關系型數據庫?AstroSever?支持千億行天文星表數據的管理,大、中、小規模數據典型操作的查詢優化及滿足數據處理精度與實時性的要求。這?3?類數據庫基本滿足了目前常見科學實驗中大規模數據的存儲、訪問等管理需求。

科學大數據系統集成

BigSDMS?集成包含彈性部署(EMR)、流水線(Piflow)、融合查詢(Simba)和數據共享(Pishare)4?個部分。其中,EMR?的彈性伸縮方案綜合使用漸進式伸縮和定量式伸縮的優點:當負載模型可信度低于閾值時,采用漸進式方法進行伸縮,并根據擴容后的資源競爭修正負載模型;若負載模型可信度達到閾值后則采用定量式伸縮方法。Piflow?基于?Petri?網,處理單元(processor)在未知狀態(unknown)、活躍狀態(active)、休眠狀態(hibernated)3?種狀態之間進行轉換,完成流程的執行與監控。Simba?基于?Sparksql,在?Zeppelin?可視化界面中通過?SQL?查詢進行多種數據源的融合查詢分析。Pishare?基于開源區塊鏈項目?Hyperledger,在區塊鏈上?Pishare?會對數據進行加密存儲和產權認證,并通過積分機制(科學幣)對數據提供者進行獎勵以及數據市場的交易。

科學大數據應用示范

目前,基于?BigSDMS,我們在天文學、高能物理、微生物學領域構建了?3?個應用示范:①天文學領域使用了?100?億行星表數據,定義了?5?個光變曲線處理流程,實現?680?萬行星表數據插入時間少于?3?s,“異常發現”時間小于?1?s(圖?4a);②高能物理領域使用了?BESIII?產生的?942.9?億條事例數據,相對于業界常用的?Boss?查詢平均查詢效率提高?10?倍以上(圖?4b);③微生物學領域整合了?200?種微生物種菌信息,構建了?5?億條規模的?RDF?知識圖譜數據(圖?4c)。

隨著人類對客觀世界的深入認知,越來越多的社會和自然現象能夠通過觀測設備進行量化,這將導致科學數據的體量和類型持續增加。在數據驅動的科學發現模式下,應對科學大數據管理的?SPUS?挑戰已成為眼下刻不容緩的任務。由中國科學院計算機網絡信息中心牽頭的國家重點研發計劃“科學大數據管理系統”項目對這些問題進行了深入探索,研發了一套科學大數據管理系統?BigSDMS。未來我們還會在彈性部署、流水線、數據融合和數據發布共享?4?個方面進行更深入的探索,如競爭度的量化與預測、流水線中間數據模型設計、多查詢引擎的?Polystore?方式集成、數據共享機制優化等。隨著科學大數據管理技術和系統研究不斷深入,科學大數據對科學發現的貢獻將會越來越大!(作者:黎建輝 李躍鵬 王華進 陳明奇 中國科學院計算機網絡信息中心北京 中國科學院大學北京 中國科學院辦公廳北京。《中國科學院院刊》供稿)

 

<  1  2  3  4  5  6  7  


返回頂部