今年,億信華辰
數據存儲產品升級啦。與早期的分布式
數據庫產品相比,PetaBase-s全面升級為實時大數據平臺。
很長一段時間,我們一直在致力于解決兩個問題:
1)數據量不斷快速增長,獲取、處理和存儲要求的時間越來越長;
2)用戶對即時查詢(hoc query)響應的要求越來越高。
好在有開源社區的幫助,我們的產品也在不斷增強。眾多用戶與我們的工程師一起鍛造出了PetaBase-s實時大數據平臺,通過連接PetaBase-s統一對外訪問服務,它就可以解決星形模型、企業
數據倉庫以及集成的先進分析混合模型分析等應用場景。從傳統數據倉庫用例到敏捷快速的實時數據智能平臺,PetaBase-s都很適合。
無論你需要處理的數據結構是哪種:地理空間信息、文本、自然語言或是結構化的、非結構化的圖像分析,PetaBase-s都能處理。如果你希望體驗機器學習、深度學習和人工智能?PetaBase-s也能全包。
到底PetaBase-s有多厲害,下面就是 PetaBase-s 實時大數據平臺的主要新功能一覽:

產品架構圖
全新架構擁抱大數據生態
PetaBase-s實時大數據平臺采用了全新的企業級平臺框架,以開源的Ambari作為平臺統一管理工具,集成了諸多主流開源組件,數量將近二十個,如:YARN(統一資源管理),HBase(列存NoSQL數據庫),Spark(快速通用的、基于內存的、分布式的計算引擎),Impala(聯機查詢引擎),Hive(數倉工具),Hdfs(分布式文件系統),Kudu(支持單條記錄級別的增刪改查的存儲系統),Kafka(分布式發布訂閱消息系統),Flume(分布式的海量日志采集系統),Sqoop(關系型數據庫與hdoop之間的數據ETL工具)等。
PetaBase-s用戶因此享有了更多的大
數據應用功能,不僅可以搜索、分析和查詢半結構化的文件,存儲也得以優化,同時結構化數據的處理效率也大大提升,可以更快速地進行查詢。
平臺性能顯著提升
在實際項目中,數據倉庫和分析型系統的工作負載需要合并大量的大型查詢和短查詢和一些跑批量的離線計算以及分析系統。因此,PetaBase-s一直致力于優化復雜場景下的混合負載性能。新版本中,這些工作負載的性能不同程度的提高了數倍至數十倍。在同樣的工作負載和硬件環境中,你能明顯獲得處理速度提升所帶給你的振奮和喜悅。
更加簡單的人機交互
PetaBase-s實時大數據平臺提供了統一的可視化操作管理界面,從系統部署、集群安裝、監控、故障等,都可以通過可視化的操作完成。文件的存儲訪問,平臺提供更易用的集成開發工具,實現從
數據采集、存儲、計算、分析端到端的一站式管理。數據的訪問開發,平臺支持以拖拉拽的方式進行操作,提升用戶效率。

為管理員提供更好的操控力
PetaBase-s實時大數據平臺中包含有最新的Ambari集群管理控制工具,并在此基礎上進行了一系列的改造和增強,以圖形化監控系統PetaBase-s Command Center(PBCC)對外提供管理訪問服務。大數據平臺管理員和數據架構師們可以利用它來監測數據庫系統,監督工作負載、系統的利用、鎖定、查詢進展以及歷史分析。

機器深度學習與流式處理的新突破
Spark MLlib是PetaBase-s實時大數據平臺的一個組成部分,它是Spark提供的可擴展的機器學習庫。MLlib已經集成了大量機器學習的算法,能幫助PetaBase-s的用戶簡化機器學習的工程實踐工作,并方便擴展到更大規模。
PetaBase-s內置的Flume+Kafka特別適合高可靠,高性能的混合格式數據加載,相較于傳統ETL模式有明顯優勢。PetaBase-s Streaming Processer能夠在流式消息中實時、持續地更新數據集。這一方法已經在工業物聯和金融交易用例中成功應用。Kafka持續將數據輸入Spark Streaming的APP中,支持在實時分析場景下,對數據進行低延時的處理。
結語:項目上的經驗告訴我們,PetaBase-s在處理規模在TB至PB之間的數據時,效果是最出色的。企業使用PetaBase-s運行大量的挖掘分析和混合工作負載查詢,PetaBase-s展現出了易擴展、高可用、靈活敏捷和高性能諸多驚人能力。未來,PetaBase-s致力于幫助企業更加高效地分析數據,提升企業的運營效率,加速企業的商業決策。還有其他一些新特性也非常有用,如果你感興趣,請趕緊聯系我們吧!
(部分內容來源網絡,如有侵權請聯系刪除)