1 硬件平臺(tái)大數(shù)據(jù)分析平臺(tái)需要進(jìn)行 PB 級(jí)數(shù)據(jù)的讀取、寫入,需要進(jìn)行數(shù)據(jù)挖掘模型的大規(guī)模運(yùn)算,需要進(jìn)行預(yù)測(cè)結(jié)果的發(fā)布,對(duì)底層基礎(chǔ)硬件的磁盤 IO 和運(yùn)算速度要求很高,同時(shí)需要滿足分布式、動(dòng)態(tài)擴(kuò)展的要求,因此采用配置為 2 路 8 核CPU、128GB 內(nèi)存、千兆網(wǎng)卡的x86架構(gòu) PC Server 服務(wù)器。

2 平臺(tái)軟件
操作系統(tǒng)軟件采用 Red Hat,
數(shù)據(jù)采集采用 Flume-NG, 海量
數(shù)據(jù)存儲(chǔ)及分布式計(jì)算采用Hadoop,
數(shù)據(jù)清洗采用 Hive,數(shù)據(jù)挖掘引擎采用 Spark R,預(yù)測(cè)結(jié)果保存在 HBase 中。
采 用 HAProxy+Keepalived+Flume-NG 構(gòu)建高性能高可用分布式數(shù)據(jù)采集系統(tǒng)。
采用 Hadoop 構(gòu)建 PB 級(jí)大數(shù)據(jù)平臺(tái),提供海量數(shù)據(jù)存儲(chǔ)和分布式計(jì)算。
采用 Hive 做為數(shù)據(jù)清洗引擎,提供 PB級(jí)數(shù)據(jù)預(yù)處理、加工、整合服務(wù)。
采用 Spark R 組件,Spark R 提供了 Spark中彈性分布式數(shù)據(jù)集的 API,用戶可以在集群上通過 R shell 交互性的運(yùn)行 job。數(shù)據(jù)挖掘模型以 Spark On Yarn 的 yarn-cluster 方式構(gòu)建大數(shù)據(jù)分析引擎。
采用 HBase 技術(shù)可以提供海量數(shù)據(jù)的高效發(fā)布。
3 大數(shù)據(jù)挖掘模型開發(fā)
數(shù)據(jù)采集存儲(chǔ)模塊:DPI、業(yè)務(wù)側(cè)、網(wǎng)元側(cè)數(shù)據(jù)通過文件接口方式發(fā)送到 Flume-NG 集群,F(xiàn)lume-NG 通過 memory 數(shù)據(jù)傳輸方式,將接收到的數(shù)據(jù)實(shí)時(shí)的通過 hdfs 方式匯聚到大
數(shù)據(jù)分析平臺(tái)。
數(shù)據(jù)清洗模塊:通過編寫 HQL 腳本對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換,形成特征寬表。
數(shù)據(jù)挖掘模塊:基于特征寬表的數(shù)據(jù)建模采用 Spark R, 調(diào)用聚類、分類等算法,進(jìn)行模型開發(fā)、模型評(píng)估、模型應(yīng)用。
分析結(jié)果發(fā)布:模型應(yīng)用的結(jié)果集存儲(chǔ)在HBase 中,首先需要在 HBase 中新建存儲(chǔ)結(jié)果集的 HBase 表,通過 Map Reduce 生成 HFile文件,然后通過 Bulk Load 方式入庫。數(shù)據(jù)的調(diào)用通過 HBase API 實(shí)現(xiàn),數(shù)據(jù)的展現(xiàn)通過ECharts 技術(shù)實(shí)現(xiàn)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)