曰批免费视频播放免费,一区二区三区四区无码日韩,无码不卡免费v片在线观看,久久婷婷人人澡人人9797

 
 

科學(xué)大數(shù)據(jù)管理技術(shù)與系統(tǒng)

發(fā)布時間:2018-09-07 11:51:11  |  來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)  |  作者:黎建輝 李躍鵬 王華進 陳明奇  |  責(zé)任編輯:趙斌宇
關(guān)鍵詞:科學(xué)大數(shù)據(jù),融合查詢,流水線,數(shù)據(jù)共享,彈性伸縮

科學(xué)大數(shù)據(jù)應(yīng)用場景及管理需求

科學(xué)大數(shù)據(jù)的應(yīng)用場景及典型特征

科學(xué)數(shù)據(jù)是科研活動的輸入、輸出和資產(chǎn),是證實或者證偽科學(xué)發(fā)現(xiàn)或科學(xué)觀點事實、證據(jù)或者論證推理的基礎(chǔ)。它包括數(shù)字化觀測、科學(xué)監(jiān)測等來自儀器設(shè)備或傳感器的數(shù)據(jù),計算模擬與模型輸出的數(shù)據(jù),對情景或現(xiàn)象的描述,對行為的觀測或定性描述,以及用于管理或者商業(yè)目的的統(tǒng)計數(shù)據(jù)等。目前科學(xué)大數(shù)據(jù)普遍存在于各個領(lǐng)域的科學(xué)研究,尤其在天文學(xué)、高能物理、微生物學(xué)等大科學(xué)領(lǐng)域,科學(xué)大數(shù)據(jù)的應(yīng)用場景尤為明顯。

在天文學(xué)領(lǐng)域,中法合作伽馬暴探測天文衛(wèi)星SVOM?的關(guān)鍵地面設(shè)備?GWAC?的每個相機?15?s?內(nèi)會產(chǎn)生?32?MB?的天區(qū)圖,并于下一個天區(qū)圖產(chǎn)生之前完成點源提取、交叉認證等操作,最終在?3—5?s?內(nèi)完成?100?萬—10?000?萬行星表數(shù)據(jù)的插入,10?億—100?億行星表數(shù)據(jù)的?JOIN?運算。

在高能物理領(lǐng)域,歐洲核子物理研究組織構(gòu)建的大型強子對撞機(LHC)每秒進行?6?億次碰撞實驗,產(chǎn)生?6?PB?事例數(shù)據(jù),經(jīng)事例篩選后存儲大約?1?GB?實驗數(shù)據(jù)。目前?LHC?產(chǎn)生的實驗數(shù)據(jù)已超過?200?PB,未來?5?年?LHC?產(chǎn)生的數(shù)據(jù)將會超過?1?EB,事例數(shù)將達到千萬億級別,需在?10?s?內(nèi)完成百萬分之一的事例篩選操作。

在微生物學(xué)領(lǐng)域,中國科學(xué)院微生物研究所世界數(shù)據(jù)中心(WDCM)對?Taxonomy、GenBank、Gene?等?36?個數(shù)據(jù)源進行實體識別、歧義消除、本體構(gòu)建等數(shù)據(jù)處理操作,構(gòu)建了包含?830?萬個節(jié)點、1.3?億條邊的知識圖譜結(jié)構(gòu)。預(yù)計未來?5?年內(nèi),WDCM?還將匯聚開放生物資源、文獻、序列和疾病等數(shù)據(jù),在?10?000?多個數(shù)據(jù)源中構(gòu)建?100?億條關(guān)聯(lián)的知識圖譜數(shù)據(jù),并要求?1?s?內(nèi)完成?100?億條關(guān)聯(lián)數(shù)據(jù)的?6?步關(guān)聯(lián)查詢。

自?2011?年麥肯錫年度總結(jié)報告中提出“大數(shù)據(jù)”概念以來,學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)定義一直存在爭議,這些爭議主要來自不同領(lǐng)域中大數(shù)據(jù)的特征體現(xiàn)。目前學(xué)術(shù)界公認大數(shù)據(jù)具有“4V”特征——體量大(volume)、生成快(velocity)、多樣性(variety)和密度低(value),科學(xué)大數(shù)據(jù)應(yīng)用場景充分體現(xiàn)了這“4V”特征,并具有以下獨特的性質(zhì)。

科學(xué)發(fā)現(xiàn)的準確性建立在海量實驗數(shù)據(jù)的重復(fù)計算驗證之上。例如,“上帝粒子”和暗物質(zhì)發(fā)現(xiàn)的正確性經(jīng)過了對數(shù)百?PB?量級數(shù)據(jù)的多次重復(fù)計算,多次驗證重復(fù)出現(xiàn)同一結(jié)論時才能發(fā)布結(jié)論。

短時間內(nèi)科學(xué)實驗會產(chǎn)生大量觀測數(shù)據(jù)并進行流程化處理,實驗數(shù)據(jù)會持續(xù)進入持久化存儲設(shè)備進行長周期存儲。例如,GWAC?在?15?s?內(nèi)完成?40×32?MB?天區(qū)圖的點源檢測、入庫等操作,產(chǎn)生的所有數(shù)據(jù)將永久存儲。

科學(xué)現(xiàn)象觀測的量化指標存在圖像、語音、時間序列等形式,數(shù)據(jù)分布在不同國家和機構(gòu)中,科學(xué)研究需要整合這些多源異構(gòu)數(shù)據(jù)。例如,WDCM?整合?36?個包括文本、網(wǎng)頁、醫(yī)療記錄在內(nèi)的數(shù)據(jù)源完成知識圖譜構(gòu)建。

科學(xué)數(shù)據(jù)來自大科學(xué)裝置、互聯(lián)網(wǎng)、國家機構(gòu)等,數(shù)據(jù)與國家利益和個人隱私相關(guān),數(shù)據(jù)共享和挖掘分析會產(chǎn)生更大的社會推進作用。例如,“數(shù)字絲路”(DBAR)國際科學(xué)計劃涉及“一帶一路”沿線?65?個國家共享的地理、農(nóng)業(yè)、社會輿論等數(shù)據(jù),挖掘分析這些數(shù)據(jù)可為地區(qū)、國家的決策提供重要參考,然而如何分享成果收益、保護數(shù)據(jù)隱私是該計劃面臨的一個重要問題。

科學(xué)大數(shù)據(jù)的這些性質(zhì)對數(shù)據(jù)管理系統(tǒng)提出了巨大挑戰(zhàn)。

<  1  2  3  4  5  6  7  >  


返回頂部