GBase新聞
用戶之聲:中國移動大數據平臺實踐分享
日前,由GBASE南大通用承辦的第二十五屆中國國際軟件博覽會·中國數據庫產業峰會在天津召開。會上,中國移動信息技術有限公司數據庫內核架構師王小玉發表題為“中國移動大數據平臺實踐分享”的主題演講。
演講梳理了中國移動大數據技術架構和分析型數據庫技術架構的演進歷史,分享了移動梧桐大數據平臺從湖倉并存,存算一體逐步演進到云原生數據湖底座,一湖多云的架構,給出了中國移動解決成本、擴展性、數據孤島、數據搬遷、跨云協同管理等問題的最佳實踐。
隨著數字經濟發展,中國移動的數據規模呈現爆發式增長,并且數據形態、類型越來越豐富,各種數據應用也更加廣泛,深入到內部服務、生產經營管理全鏈條。同時,傳統數據倉庫和大數據平臺技術已逐漸顯露出瓶頸,易產生數據孤島,數據搬遷共享成本高、效率低,數據開發、治理、算法門檻高。
基于這樣的現狀,云原生、存算分離和湖倉一體等新一代大數據和數據倉庫架構被提出。中國移動通過采用存算分離架構,解決成本和擴展性問題;并通過湖倉融合的統一數據底座,解決數據孤島及數據搬遷問題;正在從湖倉并存、存算一體逐步演進到以數據湖為底座,云原生數據倉庫為引擎的一湖多云架構,以解決成本、擴展性、數據孤島、數據搬遷、跨云協同管理等關鍵問題。
大數據平臺的數據倉庫則規劃了接口層、明細層、資產層、服務層、應用層五個層次,根據數據處理流程和需求特點,建設四個數據倉庫,設計了多倉、多集群的數倉架構,基礎數倉和資產數倉數據統一由數據湖存儲管理。
作為中國移動長期的合作伙伴,GBASE系列數據庫在中國移動大數據平臺建設中發揮了重要作用。
分布式邏輯數倉GBase 8a MPP Cluster實現了大數據域全量數據倉庫云化,按照業務邏輯拆分Hadoop集群,并提供透明訪問能力,實現了數據的高效流通。通過應用實踐,驗證了存算分離架構對中國移動業務的支撐能力。采用湖倉融合,實現數據統采統用,顯著提高了模型處理效率,大大節省了存儲成本和計算成本。
云原生數據倉庫GCDW,是整個大數據平臺實現數據湖倉一體的基礎,使用S3、HDFS構建統一的數據存儲,提供任意規模的彈性計算集群。
在架構方面,實現了存算分離、服務和計算節點無狀態的彈性擴展、多個異構存儲同時接入、跨存儲聯合查詢;在性能方面,通過內核優化實現了向量化執行引擎、C++原生HDFS接入、數據緩存、算子下推等技術;在生態方面,可以支持多種云基礎設施,并支持云化、虛擬機、物理機等多種部署方式,成功適配多款國產服務器及操作系統。
面向未來,中國移動將在大數據平臺的統一存儲和統一數倉兩個維度推進架構落地,與GBASE南大通用等合作伙伴共同構建湖倉一體的大數據創新生態,實現數據要素資產應用效能最大化。