GBase新聞
DTC 2023回顧丨GBase GCDW云原生實時邏輯數(shù)倉支持湖倉一體
2023 DTC數(shù)據(jù)技術(shù)嘉年華湖倉技術(shù)創(chuàng)新論壇現(xiàn)場,GBASE南大通用8a產(chǎn)品總工程師張紹勇分享了《GBase GCDW云原生實時邏輯數(shù)倉支持湖倉一體》的主題演講。本篇文章帶大家深入解讀GBase GCDW云原生數(shù)倉是如何支持和實現(xiàn)湖倉一體。
數(shù)據(jù)倉庫不同于數(shù)據(jù)庫與數(shù)據(jù)湖,數(shù)據(jù)庫主要面向業(yè)務系統(tǒng),數(shù)據(jù)湖則負責存儲所有原始數(shù)據(jù)。數(shù)據(jù)倉庫的誕生得益于企業(yè)對數(shù)據(jù)價值挖掘需求的涌現(xiàn),傳統(tǒng) OLTP 事務型數(shù)據(jù)庫跨部門數(shù)據(jù)難以打通,易產(chǎn)生數(shù)據(jù)孤島,數(shù)據(jù)倉庫將不同源的數(shù)據(jù)聚合到集中且一致的數(shù)據(jù)存儲系統(tǒng)中,解決傳統(tǒng)數(shù)據(jù)庫無法跨庫操作的問題,并結(jié)合數(shù)據(jù)挖掘、人工智能 (AI) 和機器學習等技術(shù)發(fā)掘數(shù)據(jù)價值,以支持企業(yè)經(jīng)營決策;并使其作為 BI 的技術(shù)底座,滿足客戶的數(shù)據(jù)分析和決策支持。
張紹勇談及:傳統(tǒng)企業(yè)級數(shù)據(jù)倉庫伴隨著應用場景的極速拓展以及數(shù)據(jù)規(guī)模和類型攀升正面臨著六類挑戰(zhàn)。
數(shù)據(jù)倉庫技術(shù)演進趨勢
數(shù)據(jù)倉庫技術(shù)由來已久,從上世紀八十年代獨立出單獨產(chǎn)品后,不斷演進發(fā)展,經(jīng)歷了若干發(fā)展階段。
云原生實時邏輯數(shù)倉 構(gòu)筑湖倉一體的新支點
因數(shù)據(jù)倉庫產(chǎn)不支持非結(jié)構(gòu)化數(shù)據(jù)、成本高、不靈活等局限,數(shù)據(jù)湖也存在查詢性能低下、實時性、可靠性差的問題。將兩者融合的技術(shù)方案即湖倉一體融合雙方優(yōu)點,逐步發(fā)展起來。GBase GCDW應運而生。
云數(shù)倉GBase Cloud Data Warehouse(簡稱GCDW)是GBASE自主研發(fā)的一款基于行列混合存儲的海量分布式大規(guī)模并行處理的彈性云原生數(shù)據(jù)倉庫。滿足客戶企業(yè)級彈性數(shù)據(jù)倉庫系統(tǒng)應用場景需求。GCDW有兩個核心特性。
GCDW既支持本地部署(私有云下的計算與存儲分離模式)也支持云上部署,具備彈性資源擴展能力,用戶可以根據(jù)自身的需要隨時彈性擴展計算單元或者存儲單元。
GCDW在云上提供SaaS能力,為客戶提供企業(yè)級彈性數(shù)據(jù)倉庫系統(tǒng),讓用戶能夠在云中更輕松地設(shè)置、操作。
GCDW的虛擬集群(物理隔離)和資源管理(邏輯隔離)實現(xiàn)了資源的彈性和混合負載;支持多源的、實時高效的數(shù)據(jù)集成,并提供向量化計算、硬件加速的能力來實時響應用戶的數(shù)據(jù)處理需求,讓業(yè)務從單一離線跑批走向?qū)崟r;
其新一代向量計算引擎結(jié)合經(jīng)典火山模型與塊(Block)處理,充分利用CPU,提高 Cache 利用率,減少不必要的存儲和內(nèi)存訪問;同時,基于第四代至強 可擴展處理器大幅提高性能與壓縮率,顯示更高的壓縮比并改善單位數(shù)字性能。
案例
GCDW某行集市應用
項目中試點了三類業(yè)務場景:風險集市、監(jiān)管報送、歷史數(shù)據(jù)重跑。
利用GCDW彈性資源、多租戶能力,針對每個集市應用建立一個子租戶,實現(xiàn)資源隔離、彈性擴展、資源快速供給,以及未來的湖倉一體。
風險集市:50+日作業(yè),日增數(shù)據(jù)1TB,4~8節(jié)點WH,性能和GBase8a集群基本持平;
監(jiān)管報送臨時業(yè)務:界面配置WH計算資源立即可得,數(shù)據(jù)已在庫內(nèi),立即進入開發(fā)測試;
歷史數(shù)據(jù)重跑:數(shù)據(jù)湖中歸檔數(shù)據(jù)無需“升溫”,湖倉一體直接從湖中讀取數(shù)據(jù)重跑;多租戶特性,誰需要誰操作,而不需要依賴主庫。
GBase GCDW作為具有綜合處理能力的大數(shù)據(jù)平臺重要組件,具備、多租戶數(shù)據(jù)開放能力和跨中心操作能力,結(jié)合大數(shù)據(jù)應用的復雜化融合化等特點,能夠集成管理各類平臺,融入機器學習的智能計算能力,關(guān)系計算與非關(guān)系型計算的融合計算能力以及數(shù)據(jù)的實時接入、處理的實時能力,同時集成數(shù)據(jù)湖,支持數(shù)據(jù)的安全傳輸和數(shù)據(jù)統(tǒng)一存儲,依靠計算存儲分離的架構(gòu)來實現(xiàn)分析域私有云和公有云對接的DaaS服務部署和開放能力。依靠這些能力在云上構(gòu)筑湖倉一體。