為了助力企業(yè)實現(xiàn)
數(shù)字化轉(zhuǎn)型升級,億信華辰提供了一系列完善的產(chǎn)品線和成熟的整體解決方案。實時大數(shù)據(jù)平臺PetaBase-s作為億信華辰的一款
數(shù)據(jù)存儲產(chǎn)品,能幫助企業(yè)在這股大數(shù)據(jù)的數(shù)字化漩渦中激流勇進(jìn)、加速前行。
PetaBase-s是基于開源Hadoop 2.x 平臺基礎(chǔ)上開發(fā)的,具有軟件著作權(quán)的國產(chǎn)分布式實時大數(shù)據(jù)平臺。PetaBase-s實時大數(shù)據(jù)平臺被設(shè)計為全新的
大數(shù)據(jù)實時分析解決方案,可以為金融、政務(wù)、零售、運輸?shù)刃袠I(yè)客戶的超大規(guī)模數(shù)據(jù)管理提供數(shù)據(jù)實時采集、計算和存儲的統(tǒng)一平臺,用于支撐實時或非實時的
數(shù)據(jù)倉庫系統(tǒng)、
敏捷BI系統(tǒng)、大
數(shù)據(jù)治理系統(tǒng),為用戶提供一套靈活易用大數(shù)據(jù)處理解決方案。
一、架構(gòu)設(shè)計方案

PetaBase-s實時大數(shù)據(jù)平臺架構(gòu)圖
PetaBase-s實時大數(shù)據(jù)平臺包含4層:
第一層是采集層,負(fù)責(zé)從外部數(shù)據(jù)源中攝取各類數(shù)據(jù),包括:結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的接入方式既支持通過sqoop等ETL工具跑批也支持通過Flume實時采集。
第二層是數(shù)據(jù)存儲層,負(fù)責(zé)整個平臺的非結(jié)構(gòu)化/半結(jié)構(gòu)化/結(jié)構(gòu)化數(shù)據(jù)存儲。其中,hdfs負(fù)責(zé)存儲歸檔的海量歷史數(shù)據(jù),借助數(shù)倉模型進(jìn)行組織,形成面向主題的、集成的、穩(wěn)定的且隨時間不斷變化的結(jié)構(gòu)化數(shù)據(jù)集合。為其上計算層提供數(shù)據(jù)支持。半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)存儲于HBase中,HBase是一種非關(guān)系型的分布式列存數(shù)據(jù)庫,支持海量的PB級的大數(shù)據(jù)存儲,適用于高吞吐的隨機讀寫的場景。PetaBase-s使用了一種嵌套的列式存儲和高效壓縮技術(shù),顯著降低了存儲空間的要求。近實時數(shù)據(jù)統(tǒng)一存儲在kudu中,以兼顧隨機查詢和實時更新的混合需求。
第三層是計算層,融合了MapReduce、spark、impala等分布式計算框架,提供實時和離線混合計算模型。
第四層是服務(wù)層,包括:數(shù)據(jù)存儲、數(shù)據(jù)ETL、數(shù)據(jù)檢索、實時計算、流
數(shù)據(jù)采集等,為應(yīng)用層提供計算訪問接口和服務(wù)。
PetaBase-s整套軟件是構(gòu)建在Hadoop軟件棧之上的,具體包括:
· Apache Hadoop,提供分布式文件存儲系統(tǒng)(即HDFS),PetaBase-s的數(shù)據(jù)文件存儲在HDFS中。支持CSV、RCF、Parquet、Avro、Sequence File等多種數(shù)據(jù)文件格式;
· Apache Zookeeper,提供高可用的集群資源管理、調(diào)度;
· Apache Hive,原本是數(shù)據(jù)倉庫管理查詢工具,在PetaBase-s中,Hive提供元數(shù)據(jù)存儲、管理等功能;
· Impala,分布式、高性能、支持SQL的大數(shù)據(jù)并行查詢引擎。主要由數(shù)據(jù)庫目錄服務(wù)、集群狀態(tài)服務(wù)、查詢計劃引擎、分布式執(zhí)行引擎四大服務(wù)組件組成。
· MapReduce,用于大規(guī)模數(shù)據(jù)的并行運算框架,具有易于編程、良好的擴(kuò)展性和高容錯性等優(yōu)點,適合PB級以上海量數(shù)據(jù)的離線處理。
· Spark,為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的、基于內(nèi)存的、分布式的計算引擎,包含機器學(xué)習(xí)(MLib)功能的程序庫、Spark Streaming流式計算引擎、Graphx圖處理框架,PetaBase-s使用Spark 提供的Spark Streaming 對實時數(shù)據(jù)進(jìn)行流式計算。
· HBase,是一個分布式的、面向列的NoSQL數(shù)據(jù)庫,主要應(yīng)用于高并發(fā)、海量數(shù)據(jù)的快速寫入和查詢場景。
· Kudu,一個全新的存儲系統(tǒng),定位于提供在更新更及時的數(shù)據(jù)上做更快的分析。彌補hdfs存在不支持單條記錄級別的update操作,隨機讀寫性能差的不足。
二、實時大數(shù)據(jù)平臺六大特性
PetaBase-s實時大數(shù)據(jù)平臺基于開源Hadoop框架開發(fā),融合MPP、SQL on Hadoop、流處理等大數(shù)據(jù)技術(shù),支持海量數(shù)據(jù)的高效儲存和統(tǒng)一管理,具有如下特點:
支持批流融合的混合計算場景
集成MapReduce、Spark、impala等多種計算框架,利用YARN資源管理做統(tǒng)一管理,可在海量數(shù)據(jù)集上同時進(jìn)行離線計算和流式處理。滿足高吞吐、大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。
企業(yè)級高可靠與高可用
可靠保障:HDFS、HBase、YARN、Kafka等全組件支持HA,確保生產(chǎn)業(yè)務(wù)的連續(xù)性。
認(rèn)證安全:基于用戶和角色的認(rèn)證體系,支持kerberos安全協(xié)議。
訪問控制:支持基于角色、對象(庫、表、列、行)的細(xì)粒度訪問權(quán)限控制,保障用戶數(shù)據(jù)安全。
豐富的數(shù)據(jù)訪問接口
PetaBase-s提供多種應(yīng)用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-s除了兼容SQL-99標(biāo)準(zhǔn),還支持大部分SQL-2003標(biāo)準(zhǔn)。PetaBase-s的SQL語法基本同Hive SQL兼容,語法上同其它數(shù)據(jù)庫SQL語法大體一致,其它數(shù)據(jù)庫的從業(yè)人員可以平滑的過渡到PetaBase-s上進(jìn)行
數(shù)據(jù)分析工作。
靈活的數(shù)據(jù)采集方式
PetaBase-s提供了一個產(chǎn)品化的實時流
數(shù)據(jù)集成加工套件。這個工具提供豐富的通信協(xié)議接口 ,最大化地簡化采集作業(yè),對實時流數(shù)據(jù)的數(shù)據(jù)集成和數(shù)據(jù)加工處理可快速實施,無需寫代碼,通過可視化配置執(zhí)行流處理作業(yè)。PetaBase-s還提供了JDBC/ODBC接口,能支持幾乎所有的通用ETL工具產(chǎn)品。
統(tǒng)一的可視化運維工具

PetaBase-s提供基于Web的控制臺界面,以監(jiān)控儀表盤形式,對PetaBase-s數(shù)據(jù)庫信息、集群CPU、內(nèi)存、磁盤空間、數(shù)據(jù)庫會話以及節(jié)點狀態(tài)進(jìn)行實時監(jiān)控。

PetaBase-s Web控制臺提供Hadoop集群及PetaBase-s集群節(jié)點管理功能,可以集中的對數(shù)據(jù)庫集群進(jìn)行整體控制,資源監(jiān)控,也可以對單個節(jié)點進(jìn)行管理,了解各節(jié)點資源使用情況,進(jìn)行會話管理等。

PetaBase-s Web控制臺提供類PL/SQL Developer IDE的數(shù)據(jù)庫管理功能,可以在Web界面上完成在命令行界面進(jìn)行的大部分操作,還提供一些額外的高級特性,包括建庫、建表、SQL查詢編輯器、執(zhí)行計劃、導(dǎo)入、導(dǎo)出、數(shù)據(jù)復(fù)制等。
高度集成的工程化產(chǎn)品

結(jié)語:PetaBase-s具有更高的軟件集成度,集成了Hadoop生態(tài)系統(tǒng)的多種基礎(chǔ)軟件,無需額外安裝。這些集成化的組件和功能,從整體上節(jié)省軟件開銷,降低使用和運維門檻,方便、有效的保證大數(shù)據(jù)庫系統(tǒng)的落地部署,工程化實施。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)