一站式數(shù)據(jù)分析平臺

ABI（ALL in one BI）是億信華辰歷經(jīng)19年匠心打造的國產(chǎn)化BI工具，技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個數(shù)據(jù)應(yīng)用全鏈路，可滿足企業(yè)經(jīng)營中各類復(fù)雜的分析需求，幫助企業(yè)實現(xiàn)高效數(shù)字化轉(zhuǎn)型。

在線免費試用 DEMO體驗視頻介紹

億信ABI

一站式數(shù)據(jù)分析平臺

億信華辰深耕商業(yè)智能十多年，
打造一體化的填報、處理、可視化平臺。

免費試用產(chǎn)品詳情

干貨！實時大數(shù)據(jù)平臺的設(shè)計與實現(xiàn)分享

時間：2020-10-10來源：知乎瀏覽數(shù)：765次

為了助力企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型升級，億信華辰提供了一系列完善的產(chǎn)品線和成熟的整體解決方案。實時大數(shù)據(jù)平臺PetaBase-s作為億信華辰的一款數(shù)據(jù)存儲產(chǎn)品，能幫助企業(yè)在這股大數(shù)據(jù)的數(shù)字化漩渦中激流勇進(jìn)、加速前行。

PetaBase-s是基于開源Hadoop 2.x 平臺基礎(chǔ)上開發(fā)的，具有軟件著作權(quán)的國產(chǎn)分布式實時大數(shù)據(jù)平臺。PetaBase-s實時大數(shù)據(jù)平臺被設(shè)計為全新的大數(shù)據(jù)實時分析解決方案，可以為金融、政務(wù)、零售、運輸?shù)刃袠I(yè)客戶的超大規(guī)模數(shù)據(jù)管理提供數(shù)據(jù)實時采集、計算和存儲的統(tǒng)一平臺，用于支撐實時或非實時的數(shù)據(jù)倉庫系統(tǒng)、敏捷BI系統(tǒng)、大數(shù)據(jù)治理系統(tǒng)，為用戶提供一套靈活易用大數(shù)據(jù)處理解決方案。

一、架構(gòu)設(shè)計方案

PetaBase-s實時大數(shù)據(jù)平臺架構(gòu)圖

PetaBase-s實時大數(shù)據(jù)平臺包含4層：

第一層是采集層，負(fù)責(zé)從外部數(shù)據(jù)源中攝取各類數(shù)據(jù)，包括：結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)的接入方式既支持通過sqoop等ETL工具跑批也支持通過Flume實時采集。

第二層是數(shù)據(jù)存儲層，負(fù)責(zé)整個平臺的非結(jié)構(gòu)化/半結(jié)構(gòu)化/結(jié)構(gòu)化數(shù)據(jù)存儲。其中，hdfs負(fù)責(zé)存儲歸檔的海量歷史數(shù)據(jù)，借助數(shù)倉模型進(jìn)行組織，形成面向主題的、集成的、穩(wěn)定的且隨時間不斷變化的結(jié)構(gòu)化數(shù)據(jù)集合。為其上計算層提供數(shù)據(jù)支持。半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)存儲于HBase中，HBase是一種非關(guān)系型的分布式列存數(shù)據(jù)庫，支持海量的PB級的大數(shù)據(jù)存儲,適用于高吞吐的隨機讀寫的場景。PetaBase-s使用了一種嵌套的列式存儲和高效壓縮技術(shù)，顯著降低了存儲空間的要求。近實時數(shù)據(jù)統(tǒng)一存儲在kudu中，以兼顧隨機查詢和實時更新的混合需求。

第三層是計算層，融合了MapReduce、spark、impala等分布式計算框架，提供實時和離線混合計算模型。

第四層是服務(wù)層，包括：數(shù)據(jù)存儲、數(shù)據(jù)ETL、數(shù)據(jù)檢索、實時計算、流數(shù)據(jù)采集等，為應(yīng)用層提供計算訪問接口和服務(wù)。

PetaBase-s整套軟件是構(gòu)建在Hadoop軟件棧之上的，具體包括：

· Apache Hadoop，提供分布式文件存儲系統(tǒng)（即HDFS），PetaBase-s的數(shù)據(jù)文件存儲在HDFS中。支持CSV、RCF、Parquet、Avro、Sequence File等多種數(shù)據(jù)文件格式；

· Apache Zookeeper，提供高可用的集群資源管理、調(diào)度；

· Apache Hive，原本是數(shù)據(jù)倉庫管理查詢工具，在PetaBase-s中，Hive提供元數(shù)據(jù)存儲、管理等功能；

· Impala，分布式、高性能、支持SQL的大數(shù)據(jù)并行查詢引擎。主要由數(shù)據(jù)庫目錄服務(wù)、集群狀態(tài)服務(wù)、查詢計劃引擎、分布式執(zhí)行引擎四大服務(wù)組件組成。

· MapReduce，用于大規(guī)模數(shù)據(jù)的并行運算框架，具有易于編程、良好的擴(kuò)展性和高容錯性等優(yōu)點，適合PB級以上海量數(shù)據(jù)的離線處理。

· Spark，為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的、基于內(nèi)存的、分布式的計算引擎，包含機器學(xué)習(xí)（MLib）功能的程序庫、Spark Streaming流式計算引擎、Graphx圖處理框架，PetaBase-s使用Spark 提供的Spark Streaming 對實時數(shù)據(jù)進(jìn)行流式計算。

· HBase，是一個分布式的、面向列的NoSQL數(shù)據(jù)庫，主要應(yīng)用于高并發(fā)、海量數(shù)據(jù)的快速寫入和查詢場景。

· Kudu，一個全新的存儲系統(tǒng)，定位于提供在更新更及時的數(shù)據(jù)上做更快的分析。彌補hdfs存在不支持單條記錄級別的update操作，隨機讀寫性能差的不足。

二、實時大數(shù)據(jù)平臺六大特性
PetaBase-s實時大數(shù)據(jù)平臺基于開源Hadoop框架開發(fā)，融合MPP、SQL on Hadoop、流處理等大數(shù)據(jù)技術(shù)，支持海量數(shù)據(jù)的高效儲存和統(tǒng)一管理，具有如下特點：

支持批流融合的混合計算場景
集成MapReduce、Spark、impala等多種計算框架，利用YARN資源管理做統(tǒng)一管理，可在海量數(shù)據(jù)集上同時進(jìn)行離線計算和流式處理。滿足高吞吐、大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。

企業(yè)級高可靠與高可用
可靠保障：HDFS、HBase、YARN、Kafka等全組件支持HA，確保生產(chǎn)業(yè)務(wù)的連續(xù)性。

認(rèn)證安全：基于用戶和角色的認(rèn)證體系，支持kerberos安全協(xié)議。

訪問控制：支持基于角色、對象（庫、表、列、行）的細(xì)粒度訪問權(quán)限控制，保障用戶數(shù)據(jù)安全。

豐富的數(shù)據(jù)訪問接口
PetaBase-s提供多種應(yīng)用程序接口，包括JDBC、ODBC、CLI、Thrift等。PetaBase-s除了兼容SQL-99標(biāo)準(zhǔn)，還支持大部分SQL-2003標(biāo)準(zhǔn)。PetaBase-s的SQL語法基本同Hive SQL兼容，語法上同其它數(shù)據(jù)庫SQL語法大體一致，其它數(shù)據(jù)庫的從業(yè)人員可以平滑的過渡到PetaBase-s上進(jìn)行數(shù)據(jù)分析工作。

靈活的數(shù)據(jù)采集方式
PetaBase-s提供了一個產(chǎn)品化的實時流數(shù)據(jù)集成加工套件。這個工具提供豐富的通信協(xié)議接口，最大化地簡化采集作業(yè)，對實時流數(shù)據(jù)的數(shù)據(jù)集成和數(shù)據(jù)加工處理可快速實施，無需寫代碼，通過可視化配置執(zhí)行流處理作業(yè)。PetaBase-s還提供了JDBC/ODBC接口，能支持幾乎所有的通用ETL工具產(chǎn)品。

統(tǒng)一的可視化運維工具

PetaBase-s提供基于Web的控制臺界面，以監(jiān)控儀表盤形式，對PetaBase-s數(shù)據(jù)庫信息、集群CPU、內(nèi)存、磁盤空間、數(shù)據(jù)庫會話以及節(jié)點狀態(tài)進(jìn)行實時監(jiān)控。

PetaBase-s Web控制臺提供Hadoop集群及PetaBase-s集群節(jié)點管理功能，可以集中的對數(shù)據(jù)庫集群進(jìn)行整體控制，資源監(jiān)控，也可以對單個節(jié)點進(jìn)行管理，了解各節(jié)點資源使用情況，進(jìn)行會話管理等。

PetaBase-s Web控制臺提供類PL/SQL Developer IDE的數(shù)據(jù)庫管理功能，可以在Web界面上完成在命令行界面進(jìn)行的大部分操作，還提供一些額外的高級特性，包括建庫、建表、SQL查詢編輯器、執(zhí)行計劃、導(dǎo)入、導(dǎo)出、數(shù)據(jù)復(fù)制等。

高度集成的工程化產(chǎn)品

結(jié)語：PetaBase-s具有更高的軟件集成度，集成了Hadoop生態(tài)系統(tǒng)的多種基礎(chǔ)軟件，無需額外安裝。這些集成化的組件和功能，從整體上節(jié)省軟件開銷，降低使用和運維門檻，方便、有效的保證大數(shù)據(jù)庫系統(tǒng)的落地部署，工程化實施。

（部分內(nèi)容來源網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除）

立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用我要試用

上一篇：淺析數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用 ...

下一篇：新一代數(shù)倉工具強勢霸屏，有了TA工作起來猶如buff加成 ...