|
地質大數據研究進展
總體來看,我國地質大數據研究還處于起步階段。一方面,許多人質疑大數據對于地球科學這一門觀察學科的適用性,另一方面,多數研究人員還未意識到積累數據、共享數據的重要性,這在一定程度上阻礙了地質大數據的發展。此外,大數據研究追求的“相關性”研究與科學研究中的“因果性”知識發現存在巨大矛盾,這對科學家們的思維方式轉變提出了挑戰。綜合近年來的研究成果,國內地質大數據研究現狀可以歸結為以下?3?點。
地質大數據的存儲管理
地質學發展至今積累了大量的地質資料數據,隨著地球信息探測技術的迅速發展,又有源源不斷的新的地質數據快速產生。地質大數據不僅有定性、定量數據,還包括文字說明,甚至是地質圖件或者是地質工作者在工作中留下的視頻、音頻文件等資料,而長期的目錄文件存儲方式極大地降低了數據查詢、檢索、統計、更新、挖掘等操作效率,導致數據服務能力低下[3]。因此,構建一套能夠有效地實現結構化、半結構化和非結構化數據一體化、靜態數據與動態數據一體化、地質數據與地質模型一體化存儲管理的地質信息系統,對于完成海量地質資料穩定、高效地存放與讀取就顯得十分重要。
目前已有學者提出進利用云平臺、Hadoop?和?NoSQL等技術,借鑒實時?GIS?時空數據模型,實現對地質時空大數據模型的動態管理。Hadoop?是目前大數據存儲與處理的標準平臺,可以通過?MapReduce?支持大規模數據的并行處理。而?NoSQL?數據庫使用分布式節點集動態處理負載。采用分布式文件系統技術可以對地質大數據進行存儲并提高數據的容錯能力與可靠性。例如中國地質調查局發展研究中心國土資源部地質信息技術重點實驗室研發的中國地質調查云平臺,就是在這種框架下建立的非結構化地質數據存儲組織模式,通過改變非結構化數據的存儲、閱讀、搜索和應用模式,為智能地質調查提供精確、快速服務奠定了基礎。
地質大數據的挖掘分析
大數據時代下的?3?個重要技術取向是:要全體不要抽樣;要效率不要絕對精確;要關聯不要因果。這迫使我們從數據的類型、數據運維以及大數據帶來的挑戰性這?3?個維度重新思考數據分析。周永章等認為大數據與數學地球科學的核心應用技術應該包括高維數據降維、圖像數據處理、無限數據流挖掘、機器學習、關聯規則算法與推薦系統算法等。
數據挖掘是指從大量數據中通過算法搜索其隱藏信息的過程。相較于數據檢索和信息提取,數據挖掘需要基于大數據和知識庫的智能推理的理論和技術支撐。地質大數據挖掘就是從數據倉庫中找尋隱含的特征和規律,并應用在地質規律研究、成礦預測、資源評價、環境保護和地災防治領域的過程。該過程需要利用涉及到人工智能、機器學習、模式識別、歸納推理、統計學、數據庫、高性能計算、數據可視化等相關方法和技術手段,在多主題、多模態的地質數據中自動或半自動地獲取新的可被理解的知識,從而為地質專題研究和應用提供決策。
目前,數字地質的任務就是大力推動地質科學的數據挖掘和數據分析方法的更新。如何從規模巨量,但價值密度偏低的大數據中有效地挖掘提取信息是當下地質大數據研究中擬解決的關鍵問題。地質大數據分析的關鍵技術主要是對多源(元)異構的地質數據進行綜合分析。其中包括對結構化數據的相關性分析,對半結構化數據的信息提取和結合非結構化數據作為以上數據處理結果的驗證分析。此外,物聯網、虛擬現實、云計算等技術興起,使得基于互聯網的地質數據資源共享平臺的研制成為可能,也為復雜地學計算提供了條件。將云計算、人工智能融入地質大數據挖掘與分析已經成為新的發展趨勢。例如,有學者借鑒了大數據思維,利用貝葉斯網絡探尋礦床的成因機制,從而構建大數據-智能礦床成礦與找礦模型,推動從“數字地質”到“智能地質”的革命。