GBase新聞
信通院專訪:GBASE視角下的湖倉一體及實現路徑
2023年1月,中國信息通信研究院發布了第十五批“可信大數據”評估評測結果,天津南大通用數據技術股份有限公司(簡稱:GBASE)參與并通過了云原生湖倉一體數據平臺的評測。該評測依據《云原生湖倉一體數據平臺技術要求》進行,其涉及湖倉數據集成、湖倉存儲、湖倉計算、湖倉數據治理、湖倉其他能力五大能力域。近日,GBase 8a產品經營部總工張紹勇接受了信通院云計算與大數據研究所的對話,就什么是湖倉一體,為什么做湖倉一體,湖倉一體的技術特點以及如何落地等問題進行了探討。
信通院云大所:麻煩張總為我們介紹什么是湖倉一體,與數據倉庫、數據湖等以往的數據工具有什么關聯?
張紹勇:湖倉一體是數據湖和數據倉庫的有機結合體,是一種新的架構體系,能夠同時充分發揮數據湖的優勢和數據倉庫的優勢,有效處理企業級海量數據,包括結構化、半結構化和非結構化數據;包括非實時性的批數據處理、實時性的流數據處理。通過采用存算分離架構,將全棧數據統一存儲到低成本的存儲系統中并支持無限擴展;通過提供各種不同的計算引擎,滿足上層應用系統對批數據、流數據的處理性能需求,完成數據價值挖掘。
信通院云大所:為什么要做湖倉一體,其技術特點是怎樣的?
張紹勇:湖倉一體是數據庫技術發展演進和企業大數據平臺需求的必然產物。隨著企業的不斷發展,企業數據量逐年增長。為了同時處理大量低價值密度數據和高價值密度的數據,企業中往往會呈現數據湖與多套數據倉庫并存的煙囪式的數據處理平臺架構,越來越復雜的數據處理架構推動了企業改革的決心,“湖倉一體”由此而生。湖倉一體的技術特點至少包括存算分離、開放數據格式和支持多種計算負載。存算分離滿足存儲與計算單獨擴展的需求,未來可支撐無限量的存儲和多個計算集群;開放數據格式可以有效打通數據湖與數據倉庫之間的數據通道,滿足業務系統跨湖跨庫數據作業的需求;支持多種計算負載滿足對批量計算、流計算、圖計算等等不同計算負載需求。
信通院云大所:湖倉一體應用場景有哪些?
張紹勇:湖倉一體架構是隨著客戶的數據業務發展而自然進化的,GBASE的數據庫產品已經在金融行業和電信行業形成了規模化應用,通過和金融行業、電信行業客戶的緊密合作,我們很早就洞悉了湖倉一體應用場景在這兩個行業中的開展:
金融行業
在金融行業客戶中,每個客戶的數據平臺基本上都是由數據湖和多個數據倉庫以及多個數據集市構成的,在其數據處理的業務鏈路中,往往會跨越數據湖、數據倉庫和數據集市,對于這樣的應用場景,非常有必要進一步提升數據處理效率。湖倉一體是解決這一問題的最佳技術手段,能夠有效融合數據湖和數據倉庫,充分發揮湖和倉各自的優越特性,為企業的數據處理業務增效、節能。
電信行業
數據湖在電信行業客戶中被廣泛的用于B域、O域數據的處理,將低價值密度數據加工處理生成高價值密度數據;同時,數據倉庫在電信行業中被用于數據分析,從高價值密度數據中關聯分析出可供決策支持等系統使用的決策依據數據。基于此現狀,在電信行業使用湖倉一體技術,有效提升了電信行業數據的處理效率,實現了一套系統提供全部數據處理能力,統一數據集成、統一數據存儲、統一數據計算、統一數據調度、統一數據安全、統一數據治理等。
信通院云大所:請談一談GBASE南大通用如何落地湖倉一體,其架構是怎樣的?
張紹勇:GBASE的湖倉一體方案基于自身的大數據產品構建,包括云數倉產品GCDW、數據倉庫GBase 8a MPP和數據平臺GBase UP。GBASE是一家專業的數據倉庫廠商,云數倉產品GCDW是一款可以提供湖倉一體解決方案的核心產品,該產品支持了湖倉一體的關鍵技術,包括存算分離、極致彈性、開放數據格式、多模計算引擎以及流批一體的處理能力,實現了大數據的統一存儲、統一調度、統一語言、統一接口、統一元數據管理、統一安全,滿足企業對全棧數據的全生命周期管理需求,提供從數據采集到數據集成、數據存儲、數據計算、數據治理、數據分級管理等數據處理不同業務階段所需的各種工具、計算引擎和業務調度管理軟件等,幫助企業構建高效的湖倉一體數據平臺。