某化工企業根據集團要求,需要獲得業務系統的用戶登錄次數,查詢報表名稱和數量,查詢時間等相關的內容,而他們使用的Power
BI系統將這部分內容都保存在日志文件中,需要實時獲取日志文件,并進行解析,將解析的內容實時的保存到數據庫中,并能夠通過API接口的方式在界面上進行實時展現。
根據上述需求,億信華辰數據專家組擬定了Petabase大數據平臺+睿治
數據治理平臺的組合來實現,產品平臺架構如下圖:
方案分為六層:
第一層是數據源層,主要是指的源端數據,這里是powerBI的半結構化日志文件。
第二層是接入層,負責監聽并實時采集pwerBI的增量日志內容,通過flume進行PowerBI日志文件的監聽和實時攝取,攝取的文本消息下沉至Kafka消息隊列中的topic。
第三層是
數據存儲層,負責整個平臺的非結構化數據和結構化數據存儲。其中,hdfs負責存儲非結構化的日志文件,結構化的數據則使用kudu系統,以庫表的形式進行存儲。
第四層是計算層,負責對接入層的kafka消息流進行解析、匯總計算、入庫和即席查詢。 使用spark、impala分布式計算框架來支撐。
第五層是
數據應用層,入庫的結構化數據以關系表的形式,通過jdbc+sql的方式為應用層提供計算訪問接口和服務。
第六層是應用支撐層,主要是華宇睿治產品,以友好的可視化方式向終端用戶提供基于業務需求的數據訪問和操作。除此之外,應用支撐層還能提供http、rest等主流的api接口為第三方應用提供數據訪問服務。
使用睿治的資產數據接口對實時入庫的數據進行界面展示,如下:


這樣一來,不管多大數據量都可以實現實時分析,這其中提到了一個“神器”——PetaBase。
PetaBase是什么?
早期的PetaBase分布式數據庫集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共計5個主流組件,主要面向海量數據集的交互式聯機分析場景。但是近年來,隨著大數據的快速發展,對數據實時計算的要求越來越高,單一的分布式數據庫已滿足不了客戶的需求,于是PetaBase-s實時大數據平臺應運而生。
新版的PetaBase-s大數據平臺采用了全新的企業級平臺框架,集成了眾多主流開源組件,不僅可以在海量的非結構化/半結構化/結構化數據集上同時進行離線計算和流式處理,還能滿足高吞吐、大數據量和低時延實時處理等多方面的數據計算要求。


支持結構化數據的關聯分析和OLAP應用,定位
數據倉庫和
數據集市等分析型市場。
支持對高速數據流的接入與實時處理,實時探測關鍵事件,適合需要對變化數據進行連續計算并快速分析的場景。
基于開源Hadoop框架開發,融合MPP、SQL on Hadoop、流處理等大數據技術,支撐端到端的數據分析、數據洞察,快速構造從信息到智慧的大數據供應鏈。
PetaBase作為老牌
商業智能廠商億信華辰旗下的國產自主可控、可信、可靠的軟件平臺,可實現:源代碼級的安全可控技術實現;國產操作系統的支持與持續更新;全組件HA并內置負載均衡功能;支持基于LDAP和Kerberos的認證及授權;與自研的 BI、
數據治理產品相互支撐的優化保證真正意義上的一站式整體解決方案;工程化的開發與優化保證系統在生產環境的落地部署。
更多精彩內容歡迎關注公眾號:億信華辰
關于億信華辰
億信華辰是中國專業的智能數據產品與服務提供商,一直致力于為政企用戶提供從
數據采集、存儲、治理、分析到智能應用的智能數據全生命周期管理方案,幫助企業實現數據驅動、數據智能,已積累了8000多家用戶的服務和客戶成功經驗,為客戶提供
數據分析平臺、
數據治理系統搭建等專業的產品咨詢、實施和技術支持服務。
(部分內容來源網絡,如有侵權請聯系刪除)