日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

企業大數據平臺能力分析和技術選型

時間:2021-12-16來源:互聯網瀏覽數:507

隨著物聯網、智能設備和人工智能等先進技術在企業生產運營過程中的廣泛應用,隨之而來的是大量的數據產生。如何采集、存儲海量大數據,深入挖掘數據的潛在價值,為企業的生產運營提供可靠保障,進而提升企業經濟效益,是越來越多的企業迫切解決的問題。近年來,很多企業建設內部統一的大數據平臺,利用集群架構去整合資源與服務,從而發揮企業諸如資源共享、數據共享和服務共享等優勢。那么,企業級大數據平臺應具備什么樣的基本能力以及如何進行相關技術選型呢?企業級大數據平臺至少應具備基本以下幾種能力

企業大數據平臺基本能力
接下來,我們將針對以上五種能力,逐個進行闡述:
數據收集能力
公司和企業內部每天在不斷產生數據,這些信息可能會有更高的商業價值。企業內部數據關注的的是整體運行和經營情況,也是企業核心業務指標的分析來源。因此,對數據接入的實時性、可靠性要求較高,考慮到這一點要求,內部數據的收集應具備推送和拉取兩大能力,這兩種能力各有優缺點。推送模式的主動權在數據源方,在高峰期,推送的數據量過大,造成數據接入方的壓力過大或無法及時處理。一種解決方案是加上消息隊列,進行一步處理,以達到緩沖效果。如下圖所示:

推送模式
拉取模式的主動權在數據接入方,可以根據業務應用的需要,周期性讀取數據,高峰期產生的海量數據會在閑時被消化,關鍵的問題是數據處理的延遲明顯增加。如下圖所示:

拉取模式
技術選型上推薦Flume。Flume是一個分布式、高可靠和高可用的數據采集采集系統,提供推送和拉取兩種采集模式。當然,我們還需要根據企業生產運營數據特征,解決如何建立起一套標準化、規范化的數據模型體系,以及靈活、可擴展的技術體系,以適應體量大、多源異構的海量數據接入需求。

數據存儲能力
面對與日俱增的海量數據,企業大數據平臺如何存放它們呢?是持久化存儲還是非持久化存儲?如何提供業務應用和數據分析要求的高效查詢能力呢?數據存儲應具備持久化存儲和非持久化存儲兩種能力。

對于持久化的存儲而言,最關鍵的問題是選擇文件系統和數據庫系統。在大數據時代,單臺計算機已經無法滿足數據存儲和處理的需求,必須采用集群化的方案。近幾年,NoSQL(Not Only SQL)非關系型數據庫應運而生且逐漸成熟,其產生就是解決海量數據所帶來的大數據應用難題。技術選型上推薦分布式文件系統HDFS(Hadoop Distributed File System)和對應的分布式非關系型(非結構化)數據庫系統HBase,以及另一個非關系型的數據庫MongoDB。

無論是Hadoop的HDFS、HBase還是MongoDB等非關系型數據庫,都是為了解決大量數據的高效分布式存儲。雖然具體的實現方式和應用場景有所不同,但目標均是為了數據持久化存儲。還有一種數據存儲方式是在內存中的非持久化存儲,特征是數據量不大,斷電會丟失,但讀取速度非常快。非持久化存儲一般采用散列(Hash)的Key-Value存儲方式,適合使用緩存(Cache)的應用場景。技術選型上推薦常用的Memcached、Berkeley DB和Redis。

數據處理能力
企業級大數據平臺數據處理能力集中在用戶如何利用現有的數據進行查詢和分析,最終達到商業目標,要充分體現數據價值,就需對數據進行進一步的加工、分析和挖掘。根據數據處理的及時性不同,主要分為在線實時處理和離線批量處理,在線和離線的區別就在于對實時性的要求。由于離線對于響應沒有過高的要求,因此適合對海量數據進行批量處理的應用場景。推薦的技術:Hadoop的MapReduce和Spark。離線批量處理在一定程度上解決了大規模數據并行處理問題,當數據產生頻率高、更新時間快的情況下,在線實時處理的優勢就會體現出來了。當然,在線實時處理始終要依賴及時消息機制來支撐其運行,例如,Kafka、MQ等消息中間件。消息機制可以及時通知在線實時處理程序進行相應的處理,比起離線批量處理方式,在線實時處理可以極大提升實時性。推薦的技術方案:Storm、Spark Streaming。

信息檢索能力
信息檢索側重于信息的相關性和查詢的高效性,包含三個子領域:搜索引擎、推薦系統、在線廣告。在企業大數據平臺應用應具備的能力是實現全文檢索功能或者建立完整的全文檢索引擎。技術選型上推薦Lucene、Solar、Elasticsearch。

數據挖掘能力
數據挖掘側重于發現數據內部更深層次的價值。數據挖掘的類型,分為傳統的關系型數據庫和非結構化數據兩大類。根據數據挖掘目標的不同,數據挖掘的任務和技術也有所不同,一般的數據挖掘主題應具備集中能力:發現關聯性的頻繁項分析、用于預測的分類和回歸分析、發現相似性的聚類分析、發現離群現象的異常點分析等。推薦技術研究方向包括分類監督學習、回歸監督學習、聚類非監督學習,挖掘工具推薦Mahout和R。

結束語:企業級大數據平臺基本能力概括為:數據收集能力、數據存儲能.
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢