曰批免费视频播放免费,一区二区三区四区无码日韩,无码不卡免费v片在线观看,久久婷婷人人澡人人9797

 
 

科學大數據管理技術與系統

發布時間:2018-09-07 11:51:11  |  來源:中國網·中國發展門戶網  |  作者:黎建輝 李躍鵬 王華進 陳明奇  |  責任編輯:趙斌宇
關鍵詞:科學大數據,融合查詢,流水線,數據共享,彈性伸縮

 

 

 

 

計算和存儲管理組件。即計算和存儲資源隨上層應用負載規模的變化而彈性伸縮,從而達到處理時間與資源投入的比例最優化。目前,彈性伸縮分為漸進式和定量式兩種方案。漸進式伸縮方法監控上層應用對底層計算和存儲資源的競爭度,動態地增加或縮減底層資源。例如,在?AWS?云平臺的?E-MapReduce?集群上運行的?MapReduce?作業對資源的競爭度是集群剩余可用內存的數量,競爭度超過閾值會將新計算或存儲節點納入集群從而完成集群的自動擴容。定量式伸縮方法是通過預估目標應用的計算和存儲資源需求,提前確定應用的計算和存儲資源規模。與漸進式伸縮相比,定量式伸縮的反應時間較短,然而定量式伸縮方法高度依賴對目標應用的計算和對存儲資源需求的準確預估,如通過建立目標應用的負載模型預估系統的計算和存儲資源。

數據流水線管理組件。通過對數據處理流程的抽象,將數據處理過程映射為流水線中的若干邏輯處理單元,從而對數據處理過程進行規范和統一管理。通常情況下,流水線中?1?個處理單元代表?1?個函數、WebService?或?SQL?語句等,處理單元的輸出可以作為其他?1?個或多個處理單元的輸入;通過分支、循環等方式,這些處理單元組裝在一起統一管理完成科學發現的流程。流水線管理與工作流、指令流等有相似的形式化表示,如?Pi?代數、Petri?網等,通過這些流水線形式化表示,系統可在理論上保證執行過程的準確性并對異常進行捕獲處理。在實際應用中,除了保證流水線的正確運行之外,流水線管理還需要解決數據接入、數據溯源、中間數據轉換等核心問題,常見的流水線管理工具有?Apache Nifi、Stream Set?等。

數據融合查詢管理組件。即用統一的方式訪問分析多源異構數據。目前數據融合主要有聯邦數據庫(Federate Database)、多模型數據庫(Multi-model Database)、多存儲數據庫(Polystore Database)、數據集成(Data Integration)4?種方式。聯邦數據庫將多個自治的異構或同構數據庫中的數據透明地映射到一個全局視圖中,具有自治、異源或異構、分布式的明顯特征,比如在?SQL Server?2000?和?Mysql?5.0?中的?Federate?功能。多模型數據庫是指一個數據庫后端存儲多種類型的數據,如?OrientDB、ArangoDB?等。多存儲數據庫架構沒有統一全局視圖,而是由局部視圖和中間視圖構成,通過統一的查詢語言進行查詢,典型的?Polystore?架構有?BigDAWG、Myria?等。根據數據轉換的方式,數據集成可以分為在線集成和離線集成兩種方式。離線集成將不同數據源中數據通過?ETL?轉換,存儲在全局視圖數據源中進行統一管理分析,如數據倉庫、數據湖泊、DataHub?等方式。在線集成通過解析查詢語句將局部視圖中的數據在線轉換為全局視圖,如?Sparksql、Impala、Presto?等。

數據共享管理組件。該組件的根本任務是疏通數據擁有者到用戶之間的鏈路,促進數據資源在擁有者和用戶之間的流通、傳播與重用。目前科學數據共享機制模式的研究主要集中在數據匯交機制、數據出版機制、數據聯盟機制和服務激勵機制(積分機制、在線計算服務模式)4?個方面,如王晴、李成贊等從政策法規、技術保障、評價激勵等方面對數據共享機制進行了深入分析和論證。數據共享的隱私保護技術中最具代表性的是區塊鏈技術,如丁偉等、翁健等提出了基于區塊鏈的數據共享方法,通過公私鑰等非對稱加密算法將數據存儲在區塊鏈上,從而更大程度上保護了用戶數據的隱私,并在醫療、基因等領域進行了驗證。

<  1  2  3  4  5  6  7  >  


返回頂部