- 產品
- 產品解決方案
- 行業(yè)解決方案
- 案例
- 數(shù)據(jù)資產入表
- 賦能中心
- 伙伴
- 關于
-
數(shù)據(jù)治理
-
醫(yī)療衛(wèi)生
制造
-
億信動態(tài)
時間:2019-12-13來源:億信華辰瀏覽數(shù):816次
數(shù)據(jù)的價值和作用在企業(yè)內受到了越來越多的關注,每個企業(yè)都可以嘗試構建自己的大數(shù)據(jù)平臺,積累數(shù)據(jù)資產。以 Hadoop、Spark 為代表的開源大數(shù)據(jù)處理框架發(fā)展日新月異。如何選擇最適合自己的大數(shù)據(jù)平臺組件,打造自己的大數(shù)據(jù)平臺已經成為企業(yè)的迫切需求。
億信華辰作為數(shù)據(jù)全生命周期產品廠商,數(shù)據(jù)分析、數(shù)據(jù)治理產品獨領風騷,其在數(shù)據(jù)存儲領域也有一席之地。億信華辰旗下PetaBase-i是基于開源Hadoop 2.0 平臺基礎上開發(fā)的、具有軟件著作權的國產分布式實時大數(shù)據(jù)平臺產品,可為超大規(guī)模數(shù)據(jù)管理提供實時數(shù)據(jù)采集轉換和計算存儲的功能,用于支撐準實時數(shù)據(jù)倉庫系統(tǒng)、敏捷BI系統(tǒng),為用戶提供一套靈活易用的大數(shù)據(jù)平臺解決方案。
PetaBase-i實時計算平臺包含4層:
第一層是采集層,負責從外部數(shù)據(jù)源中攝取各類數(shù)據(jù),包括:結構化和半結構化數(shù)據(jù),數(shù)據(jù)的接入方式既支持通過sqoop等ETL工具跑批也支持通過Flume實時采集。
第二層是數(shù)據(jù)存儲層,負責整個平臺的非結構化/半結構化數(shù)據(jù)和結構化數(shù)據(jù)存儲。其中,hdfs負責存儲歸檔的海量歷史數(shù)據(jù),使用數(shù)倉模型進行組織,形成面向主題的、集成的、穩(wěn)定的且隨時間不斷變化的數(shù)據(jù)集合。為其上計算層提供數(shù)據(jù)支持。PetaBase-i使用了一種嵌套的列式存儲和高效壓縮技術,顯著降低了存儲空間的要求。近實時數(shù)據(jù)統(tǒng)一存儲在kudu中,以兼顧隨機查詢和實時更新的混合需求。
第三層是計算層,融合了MapReduce、spark、impala等分布式計算框架,提供實時和離線混合計算模型。
第四層是服務層,包括:數(shù)據(jù)存儲、數(shù)據(jù)ETL、數(shù)據(jù)檢索、實時計算、流數(shù)據(jù)采集等,為應用層提供計算訪問接口和服務。

架構圖
PetaBase-i整套軟件是構建在Hadoop軟件棧之上的,具體包括:
1、定位混合計算場景
集成MapReduce、Spark、impala等多種計算框架,利用YARN資源管理做統(tǒng)一管理,可在海量數(shù)據(jù)集上同時進行離線計算和流式處理。滿足高吞吐、大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。
2、實時/離線一體化處理
PetaBase-i借鑒了目前影響最深刻的大數(shù)據(jù)處理架構Lambda,將變化的數(shù)據(jù)并行寫到批和流處理系統(tǒng)內,將不同的計算邏輯分別在流和批系統(tǒng)中實現(xiàn),并且在查詢階段合并流和批的計算視圖并展示給用戶。
3、彈性擴展
PetaBase-i很好的繼承了Hadoop可擴展性的優(yōu)點,隨著集群節(jié)點數(shù)的擴充,其查詢并發(fā)能力將隨節(jié)點數(shù)增加而增大。而查詢的響應時間,也會隨著節(jié)點數(shù)的增多而縮短。
4、高可用和高容錯性
PetaBase-i可配置為高可用的部署模式,即架設兩臺管理節(jié)點,一臺處于活動狀態(tài),別一臺處于待命狀態(tài)。待命主節(jié)點實時監(jiān)聽活動主節(jié)點,當活動主節(jié)點失效時,系統(tǒng)即時將備用主節(jié)點切換為活動主節(jié)點,達到整個系統(tǒng)高可用的目的。容錯性方面,基于HDFS文件數(shù)據(jù)塊多副本分布存儲的特性,同一個數(shù)據(jù)塊有多個副本存放到不同的數(shù)據(jù)節(jié)點上,保證某個數(shù)據(jù)節(jié)點失效的情況下,其它數(shù)據(jù)節(jié)點上仍然有可用的數(shù)據(jù)塊。PetaBase-i還提供查詢負載均衡功能,可以將查詢請求分攤到不同的集群節(jié)點上執(zhí)行,從而使不同的客戶端訪問不同的集群節(jié)點,達到負載均衡的目的。
5、高效的數(shù)據(jù)壓縮與存儲
PetaBase-i支持一種嵌套的列式數(shù)據(jù)存儲模型。列式存儲和行式存儲相比具有以下優(yōu)勢:
6、高性能分布式計算框架
PetaBase-i使用了與傳統(tǒng)并行計算系統(tǒng)不一樣的分布式計算架構,具有更優(yōu)異的計算性能。提交到PetaBase-i的SQL查詢由查詢計劃器進行解析,生成執(zhí)行計劃樹,執(zhí)行計劃樹由若干計劃任務分片節(jié)點組成。每個計劃分片節(jié)點代表一個執(zhí)行節(jié)點以及相關的操作(比如:聚集、數(shù)據(jù)交換、數(shù)據(jù)掃描、Join、合并、排序等操作),并被分發(fā)到任務分片對應的PetaBase-i數(shù)據(jù)節(jié)點上并行執(zhí)行。
7、豐富的數(shù)據(jù)訪問接口
PetaBase-i提供多種應用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-i除了兼容SQL-99標準,還支持大部分SQL-2003標準。PetaBase-i的SQL語法基本同Hive SQL兼容,語法上同其它數(shù)據(jù)庫SQL語法大體一致,其它數(shù)據(jù)庫的從業(yè)人員可以平滑的過渡到PetaBase-i上進行數(shù)據(jù)分析工作。
8、靈活的數(shù)據(jù)采集方式
PetaBase-i提供了一個產品化的實時流數(shù)據(jù)集成加工套件。這個工具提供豐富的通信協(xié)議接口 ,最大化地簡化采集作業(yè),對實時流數(shù)據(jù)的數(shù)據(jù)集成和數(shù)據(jù)加工處理可快速實施,無需寫代碼,通過可視化配置執(zhí)行流處理作業(yè)。PetaBase-i還提供了JDBC/ODBC接口,能支持幾乎所有的通用ETL工具產品。
9、便捷的可視化運維管理
PetaBase-i提供基于Web的控制臺界面,以監(jiān)控儀表盤形式,對PetaBase-i數(shù)據(jù)庫信息、集群CPU、內存、磁盤空間、數(shù)據(jù)庫會話以及節(jié)點狀態(tài)進行實時監(jiān)控。
PetaBase-i Web控制臺提供Hadoop集群及PetaBase-i集群節(jié)點管理功能,可以集中的對數(shù)據(jù)庫集群進行整體控制,資源監(jiān)控,也可以對單個節(jié)點進行管理,了解各節(jié)點資源使用情況,進行會話管理等。
PetaBase-i Web控制臺提供類PL/SQL Developer IDE的數(shù)據(jù)庫管理功能,可以在Web界面上完成在命令行界面進行的大部分操作,還提供一些額外的高級特性,包括建庫、建表、SQL查詢編輯器、執(zhí)行計劃、導入、導出、數(shù)據(jù)復制等。
10、超強的查詢性能
PetaBase-i架構于Hadoop之上,采用MPP架構,及優(yōu)化的列存儲格式,結合存儲分區(qū)、分布式緩存等技術,并針對特定SQL和函數(shù)進行性能優(yōu)化,充分利用集群多節(jié)點的計算能力和內存,能支持復雜的多表JOIN,總體性能相比Hive有數(shù)倍甚至上百倍提升。
11、高度集成的工程化產品
PetaBase-i具有更高的軟件集成度,集成了Hadoop生態(tài)系統(tǒng)的多種基礎軟件,無需額外安裝。這些集成化的組件和功能,從整體上節(jié)省軟件開銷,降低使用和運維門檻,方便、有效的保證大數(shù)據(jù)庫系統(tǒng)的落地部署,工程化實施。
結語:作為具有創(chuàng)新性的實時大數(shù)據(jù)平臺,PetaBase-i能夠幫助各個行業(yè)的企業(yè)在海量的數(shù)據(jù)中洞察更多隱藏的商業(yè)價值。億信華辰作為大數(shù)據(jù)時代的參與者、助力者,會持續(xù)在數(shù)字化轉型的道路上為企業(yè)披荊斬棘、保駕護航。
在線咨詢
點擊進入在線咨詢