山東聯(lián)通大數(shù)據(jù)平臺(tái)——整合資源、數(shù)據(jù)共享
項(xiàng)目背景
山東聯(lián)通大數(shù)據(jù)項(xiàng)目為新建大數(shù)據(jù)平臺(tái),初步完成大數(shù)據(jù)支撐平臺(tái)搭建,并進(jìn)行B域數(shù)據(jù)整合。同時(shí),具備對(duì)B域各類數(shù)據(jù)源的采集、分析、處理能力,具備數(shù)據(jù)聚合和數(shù)據(jù)標(biāo)準(zhǔn)化能力,具備數(shù)據(jù)服務(wù)和數(shù)據(jù)管控能力,增強(qiáng)對(duì)外服務(wù)及支撐水平。山東聯(lián)通通過構(gòu)建大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)資源整合優(yōu)化、節(jié)省整體投資、統(tǒng)一數(shù)據(jù)采集及數(shù)據(jù)加工、統(tǒng)一數(shù)據(jù)共享及服務(wù)、提高企業(yè)運(yùn)營(yíng)效率、最大化釋放數(shù)據(jù)價(jià)值,最終實(shí)現(xiàn)“ 一點(diǎn)存儲(chǔ)、統(tǒng)一管控、多點(diǎn)應(yīng)用、體現(xiàn)價(jià)值”的目標(biāo)。
需求分析
通過本次山東聯(lián)通大數(shù)據(jù)平臺(tái)建設(shè),初步完成大數(shù)據(jù)支撐平臺(tái)搭建,具備對(duì)B域各類數(shù)據(jù)源的采集、分析、處理能力;具備的數(shù)據(jù)聚合和數(shù)據(jù)標(biāo)準(zhǔn)化能力,具備數(shù)據(jù)服務(wù)和數(shù)據(jù)管控能力,增強(qiáng)對(duì)外服務(wù)及支撐水平。具體體現(xiàn)在以下幾點(diǎn)需求的實(shí)現(xiàn)上:
大數(shù)據(jù)平臺(tái)搭建:構(gòu)建分布式計(jì)算與存儲(chǔ)平臺(tái),包括數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、實(shí)時(shí)數(shù)據(jù)處理模塊、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理模塊以及批量處理模塊;
數(shù)據(jù)整合:核心BSS數(shù)據(jù)匯總,整合現(xiàn)網(wǎng)系統(tǒng)中BCV、市分?jǐn)?shù)據(jù)池、前置機(jī)、數(shù)據(jù)集市以及cBSS系統(tǒng)數(shù)據(jù)至大數(shù)據(jù)平臺(tái);
接口整合:統(tǒng)一省內(nèi)、集團(tuán)數(shù)據(jù)傳遞接口。省內(nèi)接口整合,包括BSS與經(jīng)分、網(wǎng)格、客服等系統(tǒng)間的接口整合;集團(tuán)接口整合,包括BSS對(duì)集團(tuán)B-BSS、ECS、總部CRM、總部PRM以及經(jīng)分對(duì)總部經(jīng)分的統(tǒng)一接口整合;
平臺(tái)應(yīng)用及管理功能:計(jì)算能力、數(shù)據(jù)能力對(duì)內(nèi)部各系統(tǒng)實(shí)現(xiàn)共享,結(jié)合大數(shù)據(jù)平臺(tái)存儲(chǔ)量大、處理能力強(qiáng)的特點(diǎn),完善經(jīng)分客戶畫像;建立數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),通過對(duì)采集層數(shù)據(jù)、處理層數(shù)據(jù)及關(guān)鍵指標(biāo)等有效監(jiān)控,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量閉環(huán)管理。
系統(tǒng)架構(gòu)
本次系統(tǒng)利用BDI統(tǒng)一ETL平臺(tái),進(jìn)行數(shù)據(jù)的抽取和統(tǒng)一清洗和加工,BDI經(jīng)過清洗后的數(shù)據(jù)統(tǒng)一載入到由GBase 8a MPP構(gòu)建的MPP分布式數(shù)據(jù)庫(kù)平臺(tái)內(nèi),MPP作為各種數(shù)據(jù)的收集和整合中心,保存從各種業(yè)務(wù)平臺(tái)收集的數(shù)據(jù),并提供給6個(gè)廠家,和17個(gè)地市作為大數(shù)據(jù)供給者,這些廠家和地市在MPP數(shù)據(jù)庫(kù)上執(zhí)行各自的業(yè)務(wù)。擴(kuò)容前MPP的日增數(shù)據(jù)量為1.6T,數(shù)據(jù)量是60TB,8個(gè)節(jié)點(diǎn),3臺(tái)加載機(jī)。經(jīng)過1次系統(tǒng)擴(kuò)容,目前為20個(gè)節(jié)點(diǎn),3臺(tái)加載機(jī),擴(kuò)容后數(shù)據(jù)總量為150TB。
在 BDI統(tǒng)一ETL平臺(tái)之下,包含具有云化ETL能力的Hadoop平臺(tái),此Hadoop平臺(tái)存儲(chǔ)所有接口數(shù)據(jù)文件,BDI每?jī)尚r(shí)掃描一次數(shù)據(jù)文件是否到位,如到位從HDFS中取出數(shù)據(jù)到GBase 8a MPP加載機(jī),同時(shí)BDI執(zhí)行加載機(jī)上的加載腳本,進(jìn)行入庫(kù)操作,通過此方式實(shí)現(xiàn)BDI的Hadoop平臺(tái)和MPP平臺(tái)之間的能力接口。
價(jià)值體現(xiàn)
高擴(kuò)展:通過GBase 8a MPP的擴(kuò)展能力,構(gòu)建分布式計(jì)算與存儲(chǔ)平臺(tái),集成和整合了B域的各類數(shù)據(jù)源,為廠商和地市應(yīng)用提供了強(qiáng)大的可擴(kuò)展的數(shù)據(jù)共享平臺(tái);
高集成:通過BDI統(tǒng)一ETL平臺(tái)和GBase 8a MPP數(shù)據(jù)庫(kù)能力集成,同時(shí)實(shí)現(xiàn)MPP數(shù)據(jù)庫(kù)與Hadoop的處理能力的混搭,實(shí)現(xiàn)了從數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、數(shù)據(jù)處理的一系列的共享的集合;
高并行:通過GBase 8a MPP數(shù)據(jù)庫(kù)的列式存儲(chǔ),智能索引等專門為大數(shù)據(jù)處理實(shí)現(xiàn)的存儲(chǔ)機(jī)制,以及GBase 8a MPP加載機(jī)高效并行的加載能力,實(shí)現(xiàn)了各類接口數(shù)據(jù)對(duì)MPP共享數(shù)據(jù)平臺(tái)的準(zhǔn)實(shí)時(shí)的數(shù)據(jù)入庫(kù)能力;
高混搭:通過基于Hadoop + MPP的分布式計(jì)算架構(gòu)的混搭,使平臺(tái)的計(jì)算能力、數(shù)據(jù)存儲(chǔ)能力得到可擴(kuò)展的顯著提升,實(shí)現(xiàn)了各類海量數(shù)據(jù)的無丟失共享,結(jié)合大數(shù)據(jù)平臺(tái)存儲(chǔ)量大、處理能力強(qiáng)的特點(diǎn),完善經(jīng)分客戶畫像。