雖然大數(shù)據(jù)平臺組件很多,但是對于沒有參與建設(shè)過大數(shù)據(jù)平臺的朋友來說,當(dāng)前眾多的大數(shù)據(jù)組件和平臺架構(gòu)容易讓人眼花繚亂。
本文首先介紹了大數(shù)據(jù)架構(gòu)平臺的組件架構(gòu),便于了解大數(shù)據(jù)平臺的全貌,然后分別介紹數(shù)據(jù)集成、存儲與計(jì)算、分布式調(diào)度、查詢分析等方面的觀點(diǎn),最后附上了某企業(yè)大數(shù)據(jù)平臺整體架構(gòu)設(shè)計(jì)方案PPT,值得借鑒。
01大數(shù)據(jù)平臺架構(gòu)

從圖上可以看出,大數(shù)據(jù)架構(gòu)平臺分為:數(shù)據(jù)集成、存儲與計(jì)算、分布式調(diào)度、查詢分析等核心模塊。我們就沿著這個架構(gòu)圖,來剖析大數(shù)據(jù)平臺的核心技術(shù)。
02、數(shù)據(jù)集成
1. 日志同步開源日志收集系統(tǒng)有 Sqoop、Flume、Logstash、Filebeat、Vector 等,其中 Flume 在云原生場景用的多,Vector 是一個很高效的日志同步工具,剛開源不久。
專家觀點(diǎn):
日志同步系統(tǒng)雖然本身比較成熟,但在平時工作中也屬于重點(diǎn),一是因?yàn)樾枰降臄?shù)據(jù)量比較大,二是要保證日志輸出的持續(xù)性,有緩存機(jī)制最大限度保障不丟日志,始終保持平穩(wěn)的運(yùn)行狀態(tài)。
2.?數(shù)據(jù)抽取工具
大數(shù)據(jù)分析不能直接在原始的業(yè)務(wù)數(shù)據(jù)庫上直接操作,所以需要抽取想要的數(shù)據(jù)到分析數(shù)據(jù)庫或者分布式存儲系統(tǒng)(例如 HDFS),常見數(shù)據(jù)抽取工具包括:DataX、BitSail 等。
DataxundefinedDataX 是阿里開源的一個異構(gòu)數(shù)據(jù)源離線同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。
BitSail 項(xiàng)目是頭條剛開源的,基于 Flink 開發(fā),在自己內(nèi)部業(yè)務(wù)應(yīng)用廣泛。BitSail 支持多種異構(gòu)數(shù)據(jù)源間的數(shù)據(jù)同步,并提供離線、實(shí)時、全量、增量場景下的全域數(shù)據(jù)集成解決方案。
專家觀點(diǎn):
數(shù)據(jù)集成非常重要,因?yàn)楦鷺I(yè)務(wù)方相關(guān)的第一個環(huán)節(jié)就是數(shù)據(jù)集成,數(shù)據(jù)集成如果出現(xiàn)問題比如速度慢、丟數(shù)據(jù)等,都會影響到業(yè)務(wù)方數(shù)據(jù)的使用,也會影響業(yè)務(wù)方對大數(shù)據(jù)平臺的信任度。
3.?數(shù)據(jù)傳輸隊(duì)列
數(shù)據(jù)傳輸有三種:
Kafka:流式傳輸
RabbitMQ:隊(duì)列傳輸
Pulsar:流式傳輸+隊(duì)列傳輸
專家觀點(diǎn):
Kafka是Hadoop組件全家桶,名氣更大,但是易用性還是差一點(diǎn)。
Pulsar 跟Kafka很像,不過架構(gòu)比Kafka更先進(jìn),屬于后起之秀。
03、數(shù)據(jù)處理:數(shù)據(jù)存儲、計(jì)算
1. 數(shù)據(jù)存儲:HDFSHDFS 特點(diǎn):橫向擴(kuò)展,數(shù)據(jù)容錯性高。
專家觀點(diǎn):
對于 HDFS 來說,優(yōu)化是一個很重要的事情,因?yàn)?HDFS 的集群規(guī)模比較大,又要穩(wěn)定,又要持續(xù)不斷的應(yīng)對業(yè)務(wù)挑戰(zhàn),優(yōu)化這一塊還是很重要的。如果集群負(fù)載大時,訪問延遲,會影響集群整體使用效率。
HDFS 的優(yōu)化趨勢包括:架構(gòu)改進(jìn)、讀寫分離、讀寫優(yōu)化等。
雖然 HDFS 是分布式文件系統(tǒng),但在實(shí)際場景中,由于 NameNode 的單點(diǎn)和小文件過多導(dǎo)致的壓力過大問題,其管理的數(shù)據(jù)節(jié)點(diǎn)是有限的。分布式文件系統(tǒng)的新趨勢類似 JuiceFS 的架構(gòu),采用「數(shù)據(jù)」與「元數(shù)據(jù)」分離存儲的架構(gòu),從而實(shí)現(xiàn)文件系統(tǒng)的分布式設(shè)計(jì),利用元數(shù)據(jù)緩存極大提升整體文件系統(tǒng)的性能,同時兼容大數(shù)據(jù)和云原生場景的應(yīng)用。
2. 數(shù)據(jù)計(jì)算
(1)離線計(jì)算引擎在眾多的計(jì)算引擎中,MapReduce、Hive、Spark 等通常用于離線處理,即批計(jì)算。Storm、Spark Steaming 等處理實(shí)時計(jì)算的場景較多,即流計(jì)算。不得不說的是,F(xiàn)link 既可以用于流計(jì)算,也可以用于批計(jì)算。其中 Hive 的用途很廣,也很可靠,底層基于 MapReduce 的封裝,屬于 Hadoop 全家桶組件之一,缺點(diǎn)是只能實(shí)現(xiàn)離線批處理。Spark 是非常高效的批處理工具,成熟,穩(wěn)定,比 Hive 快很多,并且還能實(shí)現(xiàn)近實(shí)時的數(shù)據(jù)處理能力。Spark 功能全,架構(gòu)新,基于 RDD,計(jì)算過程中優(yōu)先利用內(nèi)存,并優(yōu)化中間的計(jì)算步驟。
專家觀點(diǎn):
●?Spark+數(shù)據(jù)湖是未來的發(fā)展方向。
●?離線的場景很豐富,但是缺乏處理的非常好的統(tǒng)一的計(jì)算引擎,hive和spark都無法做到,所以這一塊未來還有很大的發(fā)揮空間。
(2)實(shí)時計(jì)算引擎優(yōu)缺點(diǎn)及適用場景
實(shí)時計(jì)算引擎大體經(jīng)過了三代,依次是:storm、spark streaming、Flink。其中storm和spark streaming現(xiàn)在用的很少,大部分公司都在用Flink。
專家觀點(diǎn):
●?Flink的優(yōu)點(diǎn)是:可以實(shí)時的進(jìn)行計(jì)算,在處理流計(jì)算這個方向上是最好的組件,而且?guī)缀蹩梢蕴娲鼘?shí)時的業(yè)務(wù)場景。
●?缺點(diǎn)是對離線處理會略顯不足,不太適合處理大批量的離線數(shù)據(jù)集。
●?Flink的優(yōu)化方向很多:
a. Flink在流處理穩(wěn)定性上,雖然已經(jīng)做到極細(xì)粒度,但是遇到阻塞時,會存在丟失數(shù)據(jù)的問題。需要加強(qiáng)穩(wěn)定性。
b. 實(shí)時性的提升:實(shí)時的優(yōu)化是無底洞,業(yè)務(wù)需求能到秒級別、毫秒級別,怎么能讓Flink在業(yè)務(wù)場景用的好,提升速度的同時,保持?jǐn)?shù)據(jù)一致性,是Flink面臨的挑戰(zhàn)。
04、數(shù)據(jù)調(diào)度
1. 常用任務(wù)調(diào)度系統(tǒng)
提到常用的任務(wù)調(diào)度系統(tǒng),大家都會想到非常多,包括但不限于:Crontab、Apache Airflow、Oozie、Azkaban、Kettle、XXL-JOB、Apache DolphinScheduler、SeaTunnel 等,五花八門。
專家觀點(diǎn):
●?Apache DolphinScheduler(海豚調(diào)度)更專注于大數(shù)據(jù)場景,調(diào)度功能不復(fù)雜,但是足夠把任務(wù)管理起來。并且它是中文的,這一點(diǎn)對于中文用戶較友好。
●?Apache Airflow 國外用的多。
2.?資源調(diào)度系統(tǒng)
資源調(diào)度系統(tǒng)主要包括 Yarn 和 Azkaban。
Yarn 用的廣泛,上層很多組件都要支持,所以很受歡迎,對其優(yōu)化很多。
Azkaban 是資源調(diào)度的小眾分支,用的人不多。
05、大數(shù)據(jù)查詢
1.?大數(shù)據(jù)查詢引擎
常用的OLAP引擎對比:

專家觀點(diǎn):
專家之一曾經(jīng)用 Presto 和 StarRocks 做過對比 Impala 的性能測試,結(jié)論如下:
●?結(jié)果上看 StarRocks 的性能確實(shí)很強(qiáng)大,速度最快,但三者對比提升相同量級的性能需要更多的 CPU、內(nèi)存資源等;
●?Impala 在開啟各項(xiàng)優(yōu)化之后,效果是可以接近 StarRocks 的;
●?Presto 性能一般,而且發(fā)現(xiàn)跑部分 TPC-DS 測試時,調(diào)用 HMS API 的頻率偶爾很高,曾經(jīng)把 HMS 搞掛過。但是 Presto 的易用性感覺最好,差不多就是開箱即用,配置很簡單。
支持多源數(shù)據(jù)(多Catalog)的接入,但是隨著數(shù)據(jù)湖對底層數(shù)倉存儲層的統(tǒng)一加上各個。
其他高效分析引擎對數(shù)據(jù)湖的支持,這塊的優(yōu)勢也會被逐步抹平。
專家對查詢引擎優(yōu)化的觀點(diǎn):
查詢引擎優(yōu)化在大數(shù)據(jù)平臺架構(gòu)只算一環(huán),不算難點(diǎn),但確實(shí)很重要。整個大數(shù)據(jù)生態(tài)的上下游優(yōu)化應(yīng)該是逐步協(xié)同進(jìn)行的,查詢引擎上游的數(shù)據(jù)是需要下功夫治理的,不然 Impala 遇到比如小文件問題是很拖累性能的;查詢引擎下游需要一個合適的平臺作為數(shù)據(jù)的展示窗口,比如 BI 工具,或用協(xié)議比較通用的客戶端,像支持 MySQL 協(xié)議的 SR 和 Doris 這些,如果下游沒法做比較好的數(shù)據(jù)展示,查詢引擎再牛也沒法讓大家用起來。
2.?大數(shù)據(jù)查詢優(yōu)化工具
大數(shù)據(jù)查詢優(yōu)化工具包括 Alluxio、JuiceFS 和 JindoFS。
專家觀點(diǎn):
Alluxio:
數(shù)據(jù)編排最為強(qiáng)大,市面上常見的存儲系統(tǒng)、云存儲服務(wù)均可以直接接入,也可以自行實(shí)現(xiàn)相關(guān) api 以接入其他自研存儲系統(tǒng),可以說 Alluxio 最為通用,既可用于云存儲服務(wù)的緩存接入或數(shù)據(jù)編排,也可作為傳統(tǒng) HDFS 的多集群數(shù)據(jù)編排。
JuiceFS:
●?提供了和 Alluxio 非常相似的功能,如元數(shù)據(jù)與數(shù)據(jù)分離的存儲、數(shù)據(jù)編排、與 Hadoop API 兼容、Fuse 等特性;●?JuiceFS 也有不錯的數(shù)據(jù)編排特性,元數(shù)據(jù)存儲的方式比 Alluxio 更多元,主要用于云存儲場景。
JindoFS:
●?局限于阿里云 oss 場景的分布式存儲系統(tǒng);●?支持與 Alluxio 非常相似的功能,也能提供內(nèi)存級的緩存加速;●?但場景局限于 oss 內(nèi)。
附:大數(shù)據(jù)平臺整體架構(gòu)設(shè)計(jì)方案PPT
























那么一款趁手好用的BI工具,就非常重要了。
01億信ABI是什么
ABI = ALL in one BI,億信ABI是一款全能型數(shù)據(jù)分析產(chǎn)品,融合了數(shù)據(jù)源適配、ETL數(shù)據(jù)處理、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)填報(bào)、工作流、門戶、移動應(yīng)用等核心功能而打造的一站式數(shù)據(jù)分析平臺,為企業(yè)提供一站式大數(shù)據(jù)BI解決方案。
來,先一張圖了解整體架構(gòu)↓

再來一張圖了解能力地圖↓

02億信ABI能做什么
沉淀17年,億信華辰致力于為企業(yè)提供一站式大數(shù)據(jù)BI解決方案,我們一直在不斷拓展億信ABI的應(yīng)用場景邊界,支持以下應(yīng)用場景:
1.企業(yè)運(yùn)營看板/大屏
億信ABI內(nèi)置300+可視化組件,讓用戶在短時間內(nèi),快速搭建一個酷炫的可視化看板或大屏,支持包括指揮中心、會議展廳、匯報(bào)演示等業(yè)務(wù)場景應(yīng)用,實(shí)時監(jiān)控核心數(shù)據(jù)、智能預(yù)警,讓企業(yè)的運(yùn)營者、管理者實(shí)時了解生產(chǎn)運(yùn)營情況,快速做出戰(zhàn)略決策。

2.中國式復(fù)雜報(bào)表
億信ABI采用類Excel在線設(shè)計(jì)器,支持多級表頭、分組、表元合并、斜線表元、多級浮動、多表體等復(fù)雜報(bào)表樣式,讓業(yè)務(wù)人員無需依賴于IT人員,也能夠快速、高效地設(shè)計(jì)任意“格式復(fù)雜、信息量大”的中國式復(fù)雜報(bào)表,滿足公司業(yè)務(wù)需求。

3.自助式探索分析
億信ABI可以通過拖拉拽的方式進(jìn)行數(shù)據(jù)的分析和探索。拖拽維度和指標(biāo),即可快速生成圖表。同時,能夠根據(jù)數(shù)據(jù)特征自動適配圖形進(jìn)行展示,并提供圖形推薦列表供用戶選擇。自助式數(shù)據(jù)探索,賦能于業(yè)務(wù)人員,實(shí)現(xiàn)人人都是數(shù)據(jù)分析師。

4.數(shù)據(jù)填報(bào)分析一體化
通過表單填報(bào)、表格填報(bào)實(shí)現(xiàn)數(shù)據(jù)的采集與補(bǔ)錄,支持添加校驗(yàn)及流程審批,可保障數(shù)據(jù)完整性,提升數(shù)據(jù)分析質(zhì)量,也可輕松打造采集與分析一體化的業(yè)務(wù)應(yīng)用系統(tǒng)。

5.數(shù)據(jù)處理分析一體化
集數(shù)據(jù)建模及ETL設(shè)計(jì)的功能于一體,可預(yù)先對數(shù)據(jù)源進(jìn)行整合及處理,幫助政府和企業(yè)構(gòu)建數(shù)據(jù)倉庫,提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)融合。

6.多樣化的報(bào)告分析
億信ABI支持圖文并茂的word分析報(bào)告,采用參數(shù)過濾的方式來制作報(bào)告,圖表取自于報(bào)表,對報(bào)表中相應(yīng)的數(shù)據(jù)格添加過濾條件,這樣就可以實(shí)現(xiàn)報(bào)告自動化。同時還支持即席報(bào)告、PPT報(bào)告。

7.語音交互, 智能分析
億信ABI也是一款智能BI,可通過文字輸入或語音方式提問 ,利用自然語言分析引擎解析翻譯,深度識別用戶意圖,幫助用戶更容易地獲得數(shù)據(jù)洞見,實(shí)現(xiàn)分析結(jié)果隨思而行,即問即答,極大降低數(shù)據(jù)分析門檻。

8.移動跨屏分析
億信ABI支持PC、iPad和手機(jī)等移動設(shè)備的應(yīng)用,無縫對接微信、釘釘?shù)華PP,可隨時隨地地通過移動設(shè)備進(jìn)行數(shù)據(jù)的采集和分析,實(shí)時跟蹤業(yè)務(wù)變化,高效協(xié)同辦公,從而輔助決策。

03億信ABI的優(yōu)勢在哪
億信華辰一直以來,希望用更智能、更多元、更好用的產(chǎn)品,為企業(yè)提供BI數(shù)據(jù)分析與可視化展現(xiàn)于一體的解決方案,而億信ABI作為BI領(lǐng)域集大成者,更是優(yōu)勢突出:
1.一站式數(shù)據(jù)服務(wù)能力
覆蓋數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個數(shù)據(jù)應(yīng)用全鏈路,降低實(shí)施、集成成本。
2.一體化的數(shù)據(jù)建模能力
支持跨不同數(shù)據(jù)查詢整合,與分布式ETL一體化,提供敏捷建模、智能計(jì)算,全面支撐各種數(shù)據(jù)準(zhǔn)備需求。
3.超大數(shù)據(jù)量實(shí)時處理
依靠強(qiáng)大的計(jì)算分析引擎,高速緩存等技術(shù),完美支持海量歷史數(shù)據(jù)多維查詢與分析等場景,大大提高計(jì)算性能,實(shí)現(xiàn)億級秒級響應(yīng)。
4.領(lǐng)先的智能分析能力
運(yùn)用自然語言分析、機(jī)器學(xué)習(xí)等智能分析能力,提升分析廣度和深度,自動化的AI技術(shù),催生更多“民間數(shù)據(jù)科學(xué)家”。
當(dāng)然,這種展示在用戶眼前的界面上的內(nèi)容,除了要好看、易用,最重要的是要速度,不能給人一種很慢,很卡頓的感覺,這樣才能提升用戶體驗(yàn)。有啥技術(shù)亮點(diǎn),話不多說上圖。

其實(shí)產(chǎn)品的特色有很多,不是通過簡單的一兩句話能闡述清楚。說到這里,如果您有BI數(shù)據(jù)分析的難題,就直接聯(lián)系我們吧,相信我們定能助您一臂之力。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)