GBase新聞
氣象大數據存儲體系設計
日前,由GBASE南大通用承辦的第二十五屆中國國際軟件博覽會·中國數據庫產業峰會在天津召開。會上,國家氣象信息中心氣象科技首席專家徐擁軍發表題為“氣象大數據存儲體系設計”的主題演講。
背景介紹
為滿足天氣預報、氣候預測、決策服務和公眾服務等氣象業務對海量氣象數據存儲與服務的需求,實現氣象業務集約化的目標。國家氣象信息中心基于業務數據應用特征,結合多種分布式存儲技術,設計了一套氣象大數據存儲體系。
通過規范數據存儲結構,利用數據同步、分級存儲以及數據服務接口等方面的關鍵技術,解決了氣象數據在分布式異構存儲技術間的統一管理和服務的問題。經過應用實踐證明,氣象大數據存儲系統存儲能力達到了30PB,數據分級管理流程高效,數據統一服務響應時效在1秒以內,具備直接支撐氣象業務的能力。
氣象大數據存儲體系設計
徐擁軍講到,我國氣象事業發展歷程同時也是一部氣象部門信息化建設史,氣象業務的每一次重大進步,背后都有信息技術的推動和支撐。近年來,隨著監測更加精密化和多源數據廣泛匯集,氣象數據持續爆炸式增長。截至2022年底,氣象數據已經覆蓋21個行業,2348類;數據量增至近百PB,日增量41TB。
為解決數據集約、業務集約問題,有效支撐氣象業務系統和各類數據應用,2021年年底,按照氣象信息網絡國省兩級部署、國省市縣四級應用的業務布局,氣象大數據云平臺(簡稱天擎)在國省業務化運行,開啟“云+端”氣象業務運行新業態。
天擎系統的核心能力是統籌管理觀測、預報、服務、行業、社會等完整權威的地球系統大數據,以及提供“數據、算力、算法”三統一的平臺化服務,其融合了多種分布式存儲技術,實現海量數據長序列在線、高并發快速存取,面向氣象應用提供毫秒~秒級的訪問時效;基于分布式、GPU、流處理等計算框架,構建“數算一體”加工流水線,支持業務算法快速集成,按業務自然時序調度運行。
天擎系統基于南大通用分布式邏輯數據倉庫GBase 8a MPP Cluster構建,國家級氣象部門部署近100節點,省級氣象部門部署近300節點。其中,國家級兩地三中心天擎系統,單個集群內總記錄數20億以上數據表有23個,最大的單表已經達到1268億數據量。
案例1:基于位置的實況數據公眾服務系統
GBase8a歷史分析庫提供支持高并發訪問的數據接口。開展5分鐘滾動24小時內最大值、最小值、平均值等數據統計,涉及中國地面分鐘降水數據1280億條,每日數據增量 8000萬條;中國地面小時表數據量69億,每日數據增量168萬條。依托GBase 8a的列式存儲、高效查詢與高并發訪問能力,統計性能均達到2秒內結果響應。
案例2:公服中心交管天氣風險管控平臺
平臺利用GBase 8a邏輯數據倉庫的分析統計功能,完成每個時次的全國風險統計。
目前“公服”庫,數據規模達到280億條。基于GBase 8a的高壓縮特性,數據存儲只占用3T,滿足高效壓縮存儲要求。裸數據文件大小約為5.8T,壓縮比約為1:4,按此規模預計可以支撐將近70年的數據資料存儲和訪問。