GBase新聞
GBASE金融應用指南2 | GBase 8a MPP Cluster 邏輯架構
為幫助金融機構做好分布式分析型數據庫產品的選型,推廣在金融行業部署應用分布式分析型數據庫的成功經驗,GBASE南大通用在北京金融科技產業聯盟的指導下編寫《南大通用GBase 8a金融應用指南》。《指南》深入介紹了分布式分析型數據庫從選型規劃、開發設計規范、數據安全高可用,直至運維優化的部署全過程,并介紹了GBase 8a MPP Cluster在國家政策性銀行和國有大行的代表性部署案例。
GBASE南大通用將陸續推出系列文章,分享解讀《指南》內容,希望能夠對廣大金融用戶的數據庫選型提供借鑒幫助,助力科技金融的高效實施和高質量發展。
本篇是系列文章的第2期,在上一期介紹分布式分析型數據庫的特點分類,及金融行業應用場景的基礎上,進一步介紹金融行業應用的分布式分析型數據庫的系統架構,以及與之對應的GBase 8a MPP Cluster產品架構。
分布式分析型數據庫邏輯架構
1、系統架構
金融行業常見的系統架構如下圖所示。
金融行業常見的系統架構
數據交換層:用于匯總前端生產系統中的各類數據,避免跨系統操作影響業務運行,保證核心系統中的數據的真實性、完整性和唯一性;提供多種數據集成方式,滿足批量數據、實時數據的入庫需求。
數據處理層:通常采用Hadoop+MPP的數據倉湖架構。
– Hadoop通常作為ODS數據庫、數據湖使用,用于原始數據匯聚和存儲、數據規范化處理、積累全量數據截面、沉淀歷史數據資產、處理非結構化數據等。
– MPP通常作為數據倉庫,負責結構化數據的高性能統計分析。在MPP中通常按照數據庫倉庫模型對業務數據進行邏輯分層加工處理。分析后的結果數據通過導出、DBLink、虛擬集群跨業務訪問等方式提供數據給上層服務使用。
數據集市層:通常存儲為特定用戶預先計算好的數據,即數據處理層的分析結果提供給數據集市,結合本地數據進行二次加工分析,滿足用戶特定主題域的需求,如報表查詢服務。
數據服務接口層和數據應用層:對前端業務提供數據訪問接口和查詢服務。
GBase 8a MPP Cluster在金融行業的系統架構中主要用于數據處理層和數據集市層。
2、GBase 8a產品架構
GBase 8a MPP Cluster產品架構圖如圖所示
GBase 8a MPP Cluster產品架構圖
GBase 8a MPP Cluster采用MPP + Shared Nothing 的分布式聯邦架構,包含分布式管理集群GCWare、分布式調度集群GCluster和分布式存儲計算集群GNode三大核心組件。主要功能特性如下:
? 高性能:列存、行存列、HASH索引
– 采用列存儲、壓縮、智能索引技術;在數據倉庫場景下通常采用中度壓縮算法提供1:3到1:5的壓縮比;
– 采用行存列降低select *場景下的I/O量;
– 采用HASH索引、數據排序等手段提高等值查詢性能;
– MPP多節點并行,性能隨集群規模線性提升;
–支持向量化計算,提高計算速度。
? 跨業務集群管理和交互:虛擬集群、DBLink
– 虛擬集群通過統一的管理集群實現對多個計算集群的統一管理、統一訪問入口、統一用戶權限控制,多個計算集群間資源隔離。支持用戶跨計算集群進行數據的訪問與計算。在多個業務系統間數據關聯性較高時,可采用虛擬集群方式進行數據管理;
– 提供DBLink支持不同集群間的DBlink訪問,實現跨集群的數據流轉,實現對遠程數據庫的查詢以及遠程數據與本地數據的關聯運算等。
? 高可用能力:聯邦架構無單點、備份恢復、雙活集群、在線節點替換
– 聯邦架構無單點:所有組件采用Active-Active多活部署,避免了單點性能瓶頸和單點故障;
– 備份恢復:提供實例級、庫級、表級的備份和恢復功能,支持全量、增量備份和恢復;
– 雙活集群:支持實時雙活、異步雙活方案。通過虛擬集群鏡像技術,支持兩個計算集群間的表級數據實時復制。提供集群間同步工具實現兩個集群間的數據異步一致性同步,點對點的基于二進制文件進行增量同步具有較高的同步性能,同時支持異地雙活部署,支持兩地三中心部署;
– 在線節點替換:具有在線不停服的節點替換能力,故障節點替換過程中,支持集群執行DQL/DML/DDL操作。
? 高擴展能力:在線擴展
– 集群擴展過程無需停服,擴容期間支持對擴容操作的監控、暫停、恢復、取消。滿足業務實時在線要求和降低集群擴容對業務的性能影響。
? 數據集成能力:高性能批量加載、實時數據入庫、hadoop集成
– 高性能批量加載:基于策略的數據加載模式,采用副本鏈式轉發、P2P多點傳輸、多加載機并行等方式可提供30TB/小時的加載性能;支持HTTP、FTP/SFTP、HDFS、Kafka、S3等多種數據源及網絡協議,支持文本、ORC、Parquet、gzip、snnapy、lzo等多種壓縮格式。支持從HDFS加載數據和導出數據到HDFS,方便與Hadoop集群進行數據交互;
–支持外部表,可實現直接讀取HDFS、S3、FTP等數據源的開放格式數據文件進行直接計算;
– 實時數據入庫:內置Kafka Consumer組件可以消費Kafka中的實時消息數據;提供GBaseRTSync工具實現從OLTP數據庫到MPP的實時數據同步。
? 安全能力:權限管理、用戶安全、透明存儲加密、脫敏
– 提供完善的用戶認證及權限管理;
– 數據加密存儲在文件系統中,支持表級、列級加密,支持SM4國密算法,滿足數據安全要求;
– 提供動態數據脫敏功能,通過權限控制原始數據的可見范圍,簡化了數據庫應用層的安全設計和編碼。
? 基于機器學習的數據挖掘能力
– 提供機器學習擴展庫插件,實現機器學習算法集成,對用戶數據進行深層次的分析和挖掘;
–支持Python、C/C++的UDF/UDAF,可實現算法函數擴展,滿足用戶自定義數據挖掘分析需求。
? 易用能力:可視化監控
– 提供可視化的運維管理工具GDOM,支持對GBase 8a MPP Cluster集群的安裝、升級、擴容、節點替換、服務啟停等運維管理,支持監控單個或多個GBase 8a MPP Cluster集群的運行狀態,資源利用情況、SQL執行情況等;提供及時告警、趨勢展示功能。