在20世紀(jì)后期,信息管理和存儲的形式主要集中在較為單一的結(jié)構(gòu)化數(shù)據(jù)上。那個時候,關(guān)系型數(shù)據(jù)庫理論及其管理系統(tǒng),如:Postgres、oracle、sybase等,它們廣受認可。但在過去幾年,大數(shù)據(jù)產(chǎn)業(yè)的興起,促使人們更多關(guān)注的是如何處理海量、多源和異構(gòu)的數(shù)據(jù),并從中獲得價值。
根據(jù)行業(yè)報告,結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的10%!其余90%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),包括各種辦公文檔、圖片、視頻、音頻、設(shè)計文檔、日志文件、機器數(shù)據(jù)等。而在非結(jié)構(gòu)化數(shù)據(jù)中,日志數(shù)據(jù)占了近90%。由于這個原因,越來越多的客戶決定將日志分析作為開始采用大數(shù)據(jù)的最佳的起點。
那究竟如何進行日志數(shù)據(jù)分析呢?這家MDI制造商的成功經(jīng)驗值得參考。
項目背景
該制造商一直有意向通過用戶行為日志實現(xiàn)對企業(yè)內(nèi)網(wǎng)各環(huán)節(jié)的用戶行為進行安全行為審計、業(yè)務(wù)邏輯告警以及用戶行為分析,并為后續(xù)的數(shù)據(jù)挖掘提供基礎(chǔ)數(shù)據(jù)集。以前,在發(fā)生行為事件時根本無法及時獲悉,需要經(jīng)歷一定的延遲,這個延遲不是按小時或天來計算,而是動輒持續(xù)數(shù)周才能了解這一情況。每次排查安全事件都需要耗費大量的時間成本。此外,對于問題的發(fā)生也不能及時預(yù)警,類似的問題很難快速判斷。

經(jīng)過技術(shù)選型和評估后,這家客戶決定運用Hadoop框架處理日志。從日志中攝取半結(jié)構(gòu)化信息,然后將這些信息匯集成易于使用的數(shù)據(jù)集,并從交互式分析中總結(jié)重要信息。在對比了多家大數(shù)據(jù)廠商后,他們選擇了億信的PetaBase-s實時大數(shù)據(jù)平臺。
項目內(nèi)容
PetaBase-s作為具有創(chuàng)新性的實時
大數(shù)據(jù)分析平臺,能應(yīng)對數(shù)據(jù)龐大的規(guī)模和復(fù)雜性,對數(shù)據(jù)的容量、速度和多樣性進行管理,幫助企業(yè)更加及時、準(zhǔn)確地進行數(shù)據(jù)分析,進行
數(shù)字化轉(zhuǎn)型。億信華辰為該客戶設(shè)計了一套PetaBase-s日志
大數(shù)據(jù)解決方案(如下圖所示),整個方案分為六層。
第一層是數(shù)據(jù)源層,主要是需要采集分析的原始非結(jié)構(gòu)化日志文件,比如安全日志,應(yīng)用服務(wù)器日志等。
第二層是接入層,這一層主要是實時采集增量日志文件,方案采用了flume,將攝取的文本消息下沉至Kafka消息隊列中。
第三層是
數(shù)據(jù)存儲層,負責(zé)整個平臺的非結(jié)構(gòu)化/結(jié)構(gòu)化數(shù)據(jù)存儲。其中,非結(jié)構(gòu)化的日志文件存儲在hdfs中進行集中歸檔,結(jié)構(gòu)化數(shù)據(jù)則存儲在kudu中。
第四層是計算層,這一層使用了spark、impala分布式計算框架對kafka消息流進行解析、實時計算、入庫。
第五層是
數(shù)據(jù)應(yīng)用層,對入庫的數(shù)據(jù)經(jīng)過多維模建模,以面向主題形式提供可分析的全局透視圖,以jdbc/sql的方式為應(yīng)用支撐層提供訪問接口。
第六層是應(yīng)用支撐層,以友好的可視化門戶方式向終端用戶提供基于業(yè)務(wù)需求的數(shù)據(jù)訪問和管理。支撐層還提供了http、rest等api接口為第三方應(yīng)用提供數(shù)據(jù)訪問服務(wù)。
方案價值
該方案在投入使用后,實現(xiàn)了三大方面的價值:
(一)日志統(tǒng)一采集和管理
PetaBase-s能夠采集各種類型、格式、存儲路徑的日志文件,將日志實時同步到PetaBase-s平臺,避免過期被刪,同時通過配置就能夠根據(jù)正則表達式提取日志字段,實現(xiàn)日志數(shù)據(jù)格式化,方便數(shù)據(jù)理解和分析。
(二)文本解析、關(guān)鍵字過濾與分析
日志分析過程中,經(jīng)常需要根據(jù)一些特征詞進行快速過濾。PetaBase-s提供包括關(guān)鍵字查詢等在內(nèi)的多種查詢運算函數(shù),且能實現(xiàn)多數(shù)據(jù)源的關(guān)聯(lián)查詢,支持用戶實現(xiàn)各種復(fù)雜計算需求。
(三)同時支持預(yù)警與統(tǒng)計
日志數(shù)據(jù)實時計算加工后既可以生成統(tǒng)計報表為日常管理和觀察指標(biāo)所用,也可以與規(guī)則庫碰撞,實時預(yù)警,規(guī)則庫支持用戶自定義的規(guī)則導(dǎo)入。通過這套方案,用戶實現(xiàn)了對企業(yè)內(nèi)網(wǎng)各環(huán)節(jié)的用戶行為進行安全行為審計、業(yè)務(wù)邏輯告警以及用戶行為分析,有效提高了安全監(jiān)督效率。
小結(jié):PetaBase-s日志大數(shù)據(jù)解決方案完全不需要局限于已有的分析系統(tǒng),建設(shè)風(fēng)險極低,但卻是啟用大數(shù)據(jù)技術(shù)的良好起點。同時,成熟的產(chǎn)品化平臺功能能大幅縮短實施周期和成本,極具吸引力。除此之外,PetaBase-s可在任意環(huán)境中運行,無論是本地環(huán)境、公有云和私有云,都能為您提供了更大的自由度和靈活性!
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)