蘭州銀行數據倉庫MPP分布式數據庫替換項目
項目概況
蘭州銀行現有數據平臺作為監管報送、行內報表及各應用系統的基礎數據整合及服務平臺,目前存在數據批量處理效率低下、各下游應用系統數據實效性得不到保障,實時數據服務能力、模型加工能力及數據統一管理能力不足等問題。為解決現有問題,采用行業主流技術架構建設數據倉庫,對數據進行整合加工,實現全行數據統一管理,提升數據處理效率,為各應用系統提供統一數據服務,同時配合數據管控平臺實現數據標準落地。目前我行數據倉庫在數據庫層面面臨的挑戰和迫切需要解決的問題如下
容量擴展能力:原有數據平臺交易型數據庫運行在一體機上,一體機容量有限,隨著數據量的不斷增大,一體機容量擴容難度大、成本高。新建的 MPP 分布式數據庫應具備易擴展的能力,能夠在線進行計算能力和存儲能力擴展。
大數據統計性能:在數據量不斷增大的現狀下,交易型數據庫性能正在變差,難以承載數據倉庫對海量數據進行大表關聯查詢、數據統計分析效率得不到保證。新建的 MPP 分布式數據庫應具備對海量數據進行大表關聯查詢、分組、聚合、OLAP、統計分析的能力。
數據副本能力:現有交易型數據庫采用集中化共享存儲的模式,數據僅有一份,數據備份通過傳統磁帶庫進行備份,面對大數據磁帶庫進行備份和恢復的時間非常久,面對故障時無法快速恢復。新建的 MPP 分布式數據庫應具備數據多副本技術,通過分布式的數據存儲提高數據庫高可用性。
便捷的運維能力:隨著數據量快速增長,原有交易型數據庫的運維難度越來越大,需要投入大量的精力應對故障和性能問題。新建的 MPP 分布式數據庫應具備操作界面便捷,提供圖形化的運維工具,易于故障排查和處理,降低運維的復雜度。數據倉庫 MPP 分布式數據庫建設目標是依托我行基礎網絡的基礎資源,融合分布式的存儲和計算技術,整合優化掌握的各類信息資源,強化信息共享應用管理,按照安全可控的要求構建信息資源體系,為應用建設提供信息資源服務支撐。數據倉庫 MPP 分布式數據庫建成后,將能容納海量的、多種類型、多種結構的數據,并具備全部數據資源統一管理功能,同時為數據倉庫應用提供多種數據計算和服務支撐。
解決方案
主庫集群3個協調節點,10個計算節點。主庫集群需10臺服務器上部署MPP數據庫軟件。采用GBase 8a MPP Cluster數據庫集群,每臺服務器配置2個萬兆網卡,雙網卡綁定,分別連接到2臺萬兆交換機上,形成高可用,用于GBase 8a MPP Cluster數據庫節點之間高速數據交換;配置2個千兆網卡,雙網卡綁定,分別連接到2臺千兆交換機上,形成高可用,用于GBase 8a MPP Cluster數據庫集群與其外部節點如應用服務器、監控服務器等數據交換,系統典架構圖如下:
數據來源層:是銀行現有的各種業務系統;
抽取加載層:通過ETL的工具,從源系統中將海量數據抽取出來進行抽取、加載、轉換等操作;
存儲管理層:加載機將海量數據進行清洗后,按照一定的規則,將數據按照一定的規律分發到各節點上,建立數據主倉——數據倉庫和數據集市,集市根據倉庫的業務不同,各集市的規模也不同;
分析展示層:銀行通過第三方分析挖掘工具將數據從數據倉庫或數據集市中提取出來,進行進一步的分析,加載到相應的業務模塊中;
應用門戶層:銀行的內部系統或外部系統,通過中間件將各個模塊所需要的數據整理后通過門戶網站呈現出來。
蘭州銀行數據倉庫主要完成海量數據的統一存儲、管理、信息共享和數據資源服務提供,并作為應用系統的支撐,針對不同的業務建立不同的專題,建立完善的數據采集、加載、存儲、分析和應用展示的架構體系。
蘭州銀行數據倉庫主要涉及系統中的存儲管理層和抽取加載層,其核心功能組件主要包含四個部分,分別是:前置系統、ETL平臺、數據倉庫和統一數據服務接口。其中:
前置系統:將采集的全部數據按源系統的數據格式臨時存儲,屏蔽對源系統的干擾,為數據檢查和ETL數據處理做好準備;
ETL平臺:通過進行高效數據抽取、數據清洗、數據轉換、數據校驗、數據加載等,完成對海量數據從數據源向目標數據倉庫轉化的過程;
數據倉庫:數據倉庫通過對數據平臺中所涉及的數據進行存儲、分析,并能夠支撐應用層的業務需要,進行查詢、統計和展示的實現;
統一數據服務接口:統一數據服務接口是高性能服務接口,為上層應用提供統一的數據服務,滿足數據查詢、數據互操作、數據交換、數據分析、目錄服務、綜合查詢、信息比對等業務應用的需要。
為了保證系統的性能同時實現數據的共享、數據分析的需要,將數據存儲管理層的數據分為三個層次:操作數據ODS層、數據倉庫DW層、數據集市DM層。MPP數據庫一般運行于數據倉庫DW層和數據集市DM層。如下圖所示:
數據倉庫與數據集市示意圖
應用效果
實施情況
蘭州銀行數據倉庫系統于2023年7月正式上線使用,隨著業務系統的不斷擴展,數據存儲空間迅速膨脹,目前數據庫集群10個節點中,每個數據節點數據存儲量為2.4TB*14=33.6TB(實際約31T),總數據量已達到248T,數據庫集群數據存儲利用率已超過80%,2024年2月進行項目擴容申請,計劃再擴容10個節點,總數據量規劃1.2PB。項目依據中標,近期進行擴容實施。
效果及價值
高擴展:替換國外數據庫一體機,解決擴容難,成本高問題;實現在線計算能力擴展,存儲能力擴展。
高性能:大幅度提升海量數據大表關聯查詢、數據分組、聚合、OLAP、統計分析性能。
高可用:采用雙活集群、數據多副本、分布式MPP等技術,提高數據庫可靠性和可用性。
易維護:操作界面便捷,提供圖形化的運維工具,易于故障排查和處理,降低運維的復雜度。