一站式數(shù)據(jù)分析平臺(tái)

ABI（ALL in one BI）是億信華辰歷經(jīng)19年匠心打造的國產(chǎn)化BI工具，技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個(gè)數(shù)據(jù)應(yīng)用全鏈路，可滿足企業(yè)經(jīng)營中各類復(fù)雜的分析需求，幫助企業(yè)實(shí)現(xiàn)高效數(shù)字化轉(zhuǎn)型。

在線免費(fèi)試用 DEMO體驗(yàn) 視頻介紹

億信ABI

一站式數(shù)據(jù)分析平臺(tái)

億信華辰深耕商業(yè)智能十多年，
打造一體化的填報(bào)、處理、可視化平臺(tái)。

免費(fèi)試用產(chǎn)品詳情

大數(shù)據(jù)平臺(tái)從平臺(tái)搭建到數(shù)據(jù)分析

時(shí)間：2020-04-17來源：知乎瀏覽數(shù)：904次

一般的大數(shù)據(jù)平臺(tái)從平臺(tái)搭建到數(shù)據(jù)分析大概包括以下幾個(gè)步驟：

1、Linux系統(tǒng)安裝
一般使用開源版的Redhat系統(tǒng)--CentOS作為底層平臺(tái)。為了提供穩(wěn)定的硬件基礎(chǔ)，在給硬盤做RAID和掛載數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的時(shí)，需要按情況配置。比如，可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性，將數(shù)據(jù)存儲(chǔ)與操作系統(tǒng)分別放置在不同硬盤上，以確保操作系統(tǒng)的正常運(yùn)行。

2、分布式計(jì)算平臺(tái)/組件安裝
當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)。Hadoop的核心是HDFS，一個(gè)分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

使用開源組件的優(yōu)點(diǎn)：1）使用者眾多，很多bug可以在網(wǎng)上找的答案（這往往是開發(fā)中最耗時(shí)的地方）；2）開源組件一般免費(fèi)，學(xué)習(xí)和維護(hù)相對方便；3）開源組件一般會(huì)持續(xù)更新；4）因?yàn)榇a開源，如果出現(xiàn)bug可自由對源碼作修改維護(hù)。

常用的分布式數(shù)據(jù)數(shù)據(jù)倉庫有Hive、Hbase。Hive可以用SQL查詢，Hbase可以快速讀取行。外部數(shù)據(jù)庫導(dǎo)入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù)， Impala是對hive的一個(gè)補(bǔ)充，可以實(shí)現(xiàn)高效的SQL查詢

3、數(shù)據(jù)導(dǎo)入
前面提到，數(shù)據(jù)導(dǎo)入的工具是Sqoop。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導(dǎo)入到分布式平臺(tái)。

4、數(shù)據(jù)分析
數(shù)據(jù)分析一般包括兩個(gè)階段：數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。
數(shù)據(jù)預(yù)處理是為后面的建模分析做準(zhǔn)備，主要工作時(shí)從海量數(shù)據(jù)中提取可用特征，建立大寬表。這個(gè)過程可能會(huì)用到Hive SQL，Spark QL和Impala。
數(shù)據(jù)建模分析是針對預(yù)處理提取的特征/數(shù)據(jù)建模，得到想要的結(jié)果。如前面所提到的，這一塊最好用的是Spark。常用的機(jī)器學(xué)習(xí)算法，如樸素貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過濾等，都已經(jīng)在ML lib里面，調(diào)用比較方便。

5、結(jié)果可視化及輸出API
可視化一般式對結(jié)果或部分原始數(shù)據(jù)做展示。一般有兩種情況，行數(shù)據(jù)展示，和列查找展示。

（部分內(nèi)容來源網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除）

立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用我要試用

上一篇：大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)技術(shù)...

下一篇：大數(shù)據(jù)實(shí)時(shí)分析平臺(tái)是未來趨勢如何？...