|
領域專用型科學大數據智能分析軟件
自然科學包括大量細分領域,每個領域都存在專用的科學數據分析軟件,本文選取其中若干代表進行分析,并將這些軟件分為兩類進行介紹:經典的領域專用科學數據分析軟件和新興的領域專用科學數據分析軟件。
經典的領域專用科學數據分析軟件。這類軟件是特定領域科學家專門研發的系統,適合對該領域的科學數據進行專門處理、計算和分析。ROOT是歐洲核子研究中心(CERN)開發的開源軟件,主要用于粒子物理實驗的數據處理、科學計算和可視化分析,提供數學及統計工具、并行處理、神經網絡及多變量分析軟件包,是目前高能物理領域數據分析的典型工具。AstroML?是面向天文領域的機器學習和數據挖掘算法包,建立在NumPy、SciPy、Scikit-Learn?等?Python?算法庫基礎上,提供了多個開放天文數據集的加載器,以及大量天文領域的分析與可視化數據集案例。目前,這類領域專用軟件仍采用單機部署,無法進行分布式并行的大數據處理分析,并且尚未對深度學習技術提供集成與支持。
新興的領域專用科學數據分析軟件。這類軟件指采用了大數據、機器學習和云計算等新技術的分析軟件。SDAP?目前是?Apache?軟件基金會的孵化項目,是面向地球物理海洋學領域的科學大數據分析平臺。SDAP依賴于?NEXUS?系統進行大數據處理,NEXUS?是由美國國家航空航天局噴氣推進實驗室(NASA/JPL)開發的一個軟件項目,采用?Map/Reduce?分布式并行計算技術,旨在對?NASA?各種任務收集的大型數據集進行科學分析。美國國家能源研究科學計算中心(NERSC),具有美國能源部科學局的主要科學計算設備。最近?NERSC?支持將深度學習應用到氣候研究、中微子實驗以及神經科學研究,并取得了一批突破性科學發現。Verily Life Sciences(原谷歌生命科學公司)的研究人員開發了一種深入學習軟件工具?DeepVariant,該工具可將基因組信息轉換成圖像進行分析,可顯著提升基因變異的識別準確率。Google Earth Engine?是?Google?提供的對大量全球尺度地球科學資料(尤其是衛星數據)進行在線可視化分析處理的云平臺,相關領域的科學家團隊可以利用該平臺提供的長時序近地衛星數據以及數千臺的云服務器進行在線數據處理和分析,目前已經取得了一批有顯示度的研究成果。可以看出,Google Earth Engine?的特定領域海量數據、云端分布式并行計算、在線挖據分析算法庫、地圖即時展現等特點,正代表了新興科學大數據智能分析軟件的發展趨勢。