曰批免费视频播放免费,一区二区三区四区无码日韩,无码不卡免费v片在线观看,久久婷婷人人澡人人9797

 
 

科學(xué)大數(shù)據(jù)管理技術(shù)與系統(tǒng)

發(fā)布時間:2018-09-07 11:51:11  |  來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)  |  作者:黎建輝 李躍鵬 王華進(jìn) 陳明奇  |  責(zé)任編輯:趙斌宇
關(guān)鍵詞:科學(xué)大數(shù)據(jù),融合查詢,流水線,數(shù)據(jù)共享,彈性伸縮

 

科學(xué)大數(shù)據(jù)管理引擎

BigSDMS?包括?3?類科學(xué)大數(shù)據(jù)管理引擎:大規(guī)模圖數(shù)據(jù)管理、大規(guī)模半結(jié)構(gòu)數(shù)據(jù)管理和大規(guī)模關(guān)系型數(shù)據(jù)管理。其中,大規(guī)模圖數(shù)據(jù)庫?Gstore?支持?100?億條三元組圖數(shù)據(jù)管理和秒級查詢響應(yīng)時間。大規(guī)模半結(jié)構(gòu)化數(shù)據(jù)庫?Eventdb?支持萬億級高能物理實驗事例、EB?量級數(shù)據(jù)管理能力。大規(guī)模關(guān)系型數(shù)據(jù)庫?AstroSever?支持千億行天文星表數(shù)據(jù)的管理,大、中、小規(guī)模數(shù)據(jù)典型操作的查詢優(yōu)化及滿足數(shù)據(jù)處理精度與實時性的要求。這?3?類數(shù)據(jù)庫基本滿足了目前常見科學(xué)實驗中大規(guī)模數(shù)據(jù)的存儲、訪問等管理需求。

科學(xué)大數(shù)據(jù)系統(tǒng)集成

BigSDMS?集成包含彈性部署(EMR)、流水線(Piflow)、融合查詢(Simba)和數(shù)據(jù)共享(Pishare)4?個部分。其中,EMR?的彈性伸縮方案綜合使用漸進(jìn)式伸縮和定量式伸縮的優(yōu)點:當(dāng)負(fù)載模型可信度低于閾值時,采用漸進(jìn)式方法進(jìn)行伸縮,并根據(jù)擴容后的資源競爭修正負(fù)載模型;若負(fù)載模型可信度達(dá)到閾值后則采用定量式伸縮方法。Piflow?基于?Petri?網(wǎng),處理單元(processor)在未知狀態(tài)(unknown)、活躍狀態(tài)(active)、休眠狀態(tài)(hibernated)3?種狀態(tài)之間進(jìn)行轉(zhuǎn)換,完成流程的執(zhí)行與監(jiān)控。Simba?基于?Sparksql,在?Zeppelin?可視化界面中通過?SQL?查詢進(jìn)行多種數(shù)據(jù)源的融合查詢分析。Pishare?基于開源區(qū)塊鏈項目?Hyperledger,在區(qū)塊鏈上?Pishare?會對數(shù)據(jù)進(jìn)行加密存儲和產(chǎn)權(quán)認(rèn)證,并通過積分機制(科學(xué)幣)對數(shù)據(jù)提供者進(jìn)行獎勵以及數(shù)據(jù)市場的交易。

科學(xué)大數(shù)據(jù)應(yīng)用示范

目前,基于?BigSDMS,我們在天文學(xué)、高能物理、微生物學(xué)領(lǐng)域構(gòu)建了?3?個應(yīng)用示范:①天文學(xué)領(lǐng)域使用了?100?億行星表數(shù)據(jù),定義了?5?個光變曲線處理流程,實現(xiàn)?680?萬行星表數(shù)據(jù)插入時間少于?3?s,“異常發(fā)現(xiàn)”時間小于?1?s(圖?4a);②高能物理領(lǐng)域使用了?BESIII?產(chǎn)生的?942.9?億條事例數(shù)據(jù),相對于業(yè)界常用的?Boss?查詢平均查詢效率提高?10?倍以上(圖?4b);③微生物學(xué)領(lǐng)域整合了?200?種微生物種菌信息,構(gòu)建了?5?億條規(guī)模的?RDF?知識圖譜數(shù)據(jù)(圖?4c)。

隨著人類對客觀世界的深入認(rèn)知,越來越多的社會和自然現(xiàn)象能夠通過觀測設(shè)備進(jìn)行量化,這將導(dǎo)致科學(xué)數(shù)據(jù)的體量和類型持續(xù)增加。在數(shù)據(jù)驅(qū)動的科學(xué)發(fā)現(xiàn)模式下,應(yīng)對科學(xué)大數(shù)據(jù)管理的?SPUS?挑戰(zhàn)已成為眼下刻不容緩的任務(wù)。由中國科學(xué)院計算機網(wǎng)絡(luò)信息中心牽頭的國家重點研發(fā)計劃“科學(xué)大數(shù)據(jù)管理系統(tǒng)”項目對這些問題進(jìn)行了深入探索,研發(fā)了一套科學(xué)大數(shù)據(jù)管理系統(tǒng)?BigSDMS。未來我們還會在彈性部署、流水線、數(shù)據(jù)融合和數(shù)據(jù)發(fā)布共享?4?個方面進(jìn)行更深入的探索,如競爭度的量化與預(yù)測、流水線中間數(shù)據(jù)模型設(shè)計、多查詢引擎的?Polystore?方式集成、數(shù)據(jù)共享機制優(yōu)化等。隨著科學(xué)大數(shù)據(jù)管理技術(shù)和系統(tǒng)研究不斷深入,科學(xué)大數(shù)據(jù)對科學(xué)發(fā)現(xiàn)的貢獻(xiàn)將會越來越大?。ㄗ髡撸豪杞ㄝx 李躍鵬 王華進(jìn) 陳明奇 中國科學(xué)院計算機網(wǎng)絡(luò)信息中心北京 中國科學(xué)院大學(xué)北京 中國科學(xué)院辦公廳北京。《中國科學(xué)院院刊》供稿)

 

<  1  2  3  4  5  6  7  


返回頂部