大數據平臺是為了計算,現今社會所產生的越來越大的數據量。以存儲、運算、展現作為目的的平臺。是允許開發者們或是將寫好的程序放在“云”里運行,或是使用“云”里提供的服務,或二者皆是。類似目前很多輿情監測軟件大數據分析系統,大數據平臺是一個集數據接入、數據處理、數據存儲、查詢檢索、分析挖掘等、應用接口等為一體的平臺。那么,要如何搭建一個數據分析平臺呢?
一、何為數據分析
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將他們加以匯總和理解并消化,以求最大化地開發數據的功能,發揮數據的作用。
數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
數據分析的目的是把隱藏在一大批看似雜亂無章的數據背后的信息集中和提煉出來,總結出所研究對象的內在規律,
二、數據分析作用
1、現狀分析
1)企業現階段的整體運營情況,通過各個經營指標的完成情況來衡量企業的運營狀態,以說明企業整體運營是更好了還是壞了,好的程度是如何,壞的程度又到哪里。
2)企業各項業務的構成,讓你了解企業各項業務的發展及變動情況,對企業經營狀況有更深入的了解。
2、原因分析
進行現狀分析之后,我們對企業的整體運營情況有了一個基本的了解,但是不知道運營情況具體好在哪里,差在哪里,是什么原因引起的。這時候我們就需要開展原因分析,以進一步確定業務變動的具體原因。
3、預測分析
在了解企業運營現狀后,有時候還需要對企業未來發展趨勢做出預測,為企業制定經營目標以及提供有效的策略參考與決策依據,以確保企業的可持續健康發展。 預測分析一般通過專題分析來完成,通常在制定企業季度、年度等計劃時進行,其開展的頻率沒有現狀分析及原因分析高。
三、數據分析平臺結構
1、數據采集層
底層就是各種數據源,主要是對企業底層數據的采集和解析,將零散的數據整合起來,包括企業的核心業務數據、用戶數據、日志數據、集團數據等等,通常有傳統的ETL離線采集和實時采集兩種方式
2、數據儲存和處理層
有了數據底層的數據,然后根據需求和場景的不同進行數據預處理,儲存到一個合適的持久化儲存層中,比如說OLAP、機器學習、數據庫等等
3、數據分析層
這里就要用到BI分析系統,如果是傳統的數據挖掘還有SPSS,這一層主要是對數據進行加工,然后進行深層次的分析和挖掘。
4、數據應用層
根據業務需求不同劃分出不同類別的應用,主要是對最終的數據進行展示和可視化,如上圖的數據報表、儀表板、數字大屏、及時查詢等等。
四、如何搭建數據分析平臺
1、確定數據源
當今的IT生態系統,需要對各種不同種類來源的數據進行分析。這些來源可能是從在線Web應用程序,批量上傳或feed,流媒體直播數據,來自工業、手持、家居傳感的任何東西等等。
2、數據采集
這個過程包括分析,驗證,清洗,轉換,去重,然后存到適合你們公司的一個持久化設備中(硬盤、存儲、云等)。
3、存儲數據
一旦數據進入大數據系統,清洗,并轉化為所需格式時,這些過程都將在數據存儲到一個合適的持久化層中進行。
4、數據處理和分析
在這一階段中的一部分干凈數據是去規范化的,包括對一些相關的數據集的數據進行一些排序,在規定的時間間隔內進行數據結果歸集,執行機器學習算法,預測分析等。
5、數據的可視化和數據展示
展示經過各個不同分析算法處理過的數據結果。該步驟包括從預先計算匯總的結果(或其他類似數據集)中的讀取和用一種友好界面或者表格(圖表等等)的形式展示出來。這樣便于對于數據分析結果的理解。