大數據平臺主要是解決對海量多樣化的數據源進行
數據采集、
數據存儲,
數據分析和數據處理,并提供滿足日漸增長的擴展性要求。大數據平臺的應用場景,大致可分為如下幾個:
場景一:輿情分析
有的客戶需要做輿情分析,要求所有數據存放若干年,輿情數據每日數據量可能超百萬,年數據量可達到幾十億的數據。而且爬蟲爬過來的數據是輿情,通過大數據技術進行分詞之后得到的可能是大段的網友評論,客戶往往要求對輿情進行查詢,做全文本搜索,并要求響應時間控制在秒級。爬蟲將數據爬到大數據平臺的Kafka里,在里面做流處理,去重去噪做語音分析,寫到ElasticSearch里。大數據的一個特點是多數據源,大數據平臺能根據不同的場景選擇不同的數據源。
場景二:商業智能應用BI產品主要針對數據集進行的數據分析以聚合運算為主,比如求合、求平均數、求同比、求環比、求其他的平方差或之類的標準方差。大數據平臺既能滿足大數據量的水平可伸縮,又能滿足高性能的聚合運算。同時平臺提供高效的列式存儲,可以有效滿足商業問題分析需求。
場景三:企業級大數據平臺:
從業務的角度看,細分為查詢檢索、數據挖掘、統計分析、深度分析,其中深度分析分為機器學習和神經網絡。
從技術的角度看,細分為Batch、SQL、流式處理、machine learning、Deep learning。
企業的數據一部分來自于本身的業務數據,比如:MySQL、oracle等,還有一部分是大量的事件。數據源不同,處理的方式也不一樣。傳統的技術手段很難全面覆蓋。采用
大數據實時分析平臺,那么,基于日志數據源,就用事件寫入kafka;如果是針對MySQL、oracle等傳統rdbms,就用Sqoop,寫入HDFS里,并建立Hive的集群。還可以存一份數據在云端。有一部分業務就是對數據合并后放入HDFS做大量的業務查詢和業務統計。這時希望用SQL的方式進行查詢,會有很多選項,它選擇的是大數據平臺的Impala等。還有一些流式處理或機器學習可以用到大數據平臺的Spark。
PetaBase-V 大數據實時分析平臺
PetaBase-V作為Vertica基于億信分析產品的定制版,提供面向大數據的實時分析服務,采用無共享大規模并行架構(MPP),可線性擴展集群的計算能力和數據處理容量,基于列式數據庫技術,使 PetaBase-V 擁有高性能、高擴展性、高壓縮率、高健壯性等特點,可完美解決報表計算慢和明細數據查詢等性能問題。

(部分內容來源網絡,如有侵權請聯系刪除)