- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-01-07來源:數據治理瀏覽數:892次
?這三個與數據相關的趨勢今年值得關注。
公司喜歡技術堆棧所有層的“即服務”模式,從云供應商提供的基礎架構到完整的SaaS應用程序。但是,在數據方面,公司仍然采用IT擁有和IT控制模式運行,數據用戶正在等待輪到他們。
今年,我們將看到開源技術,方法和云服務的不斷采用,使公司更接近數據的“即服務”模式,使他們的數據科學家,數據消費者和數據工程師比永遠。
趨勢#1:Apache Arrow和Arrow Flight的崛起
在過去的三年中,出現了一種名為Apache Arrow的內存分析新標準。Arrow不是應用程序或運行時進程。相反,Arrow是一個開源項目,它指定用于處理數據的柱狀內存格式以及對箭頭柱狀數據格式執行低級操作的軟件庫。
今天,Arrow用于許多類型的軟件應用程序,包括SQL引擎(例如Dremio的Sabot),數據框架(例如,Python pandas),分布式處理(例如Spark),數據庫(例如InfluxDB),機器學習環境(例如RAPIDS)和幾個可視化系統。在過去六個月中,Arrow的采用率急劇上升,僅在Python社區就有超過100萬的下載量。
這種采用的原因很明顯:分析應用程序的開發人員希望最大限度地提高系統效率,以改善用戶體驗并降低在云運行時環境中運行這些系統的成本。通過轉向基于箭頭的架構,開發人員通過大約100倍的速度和效率改進并不罕見。
2019年,我們將繼續在更多軟件應用程序中采用Arrow,包括機器學習,數據科學,統計軟件包和商業智能。部分驅動器來自速度和效率的好處,但采用也是由實現Arrow實現免費交換數據的系統的能力所驅動。當兩個系統都實現Arrow時,可以在不對數據進行序列化和反序列化的情況下進行數據交換,而無需進行不必要的復制,從而釋放CPU,GPU和內存資源以執行更重要的工作。
這將我們帶到Arrow Flight,這是應用程序與Arrow交互的新方式。您可以將Flight視為ODBC / JDBC的替代方案,以用于內存分析?,F在我們已經建立了一種在內存中表示數據的方法,Flight定義了一種在系統之間交換數據的標準化方法。
例如,對于與Dremio(我共同創建的公司)交互的客戶端應用程序,今天我們將數據反序列化為一個通用結構。當Tableau通過ODBC查詢Dremio時,我們處理查詢并將結果作為箭頭緩沖區一直流式傳輸到ODBC客戶端,然后再序列化為ODBC期望的基于單元的協議。一旦Arrow Flight一般可用,實現Arrow的應用程序就可以直接使用Arrow緩沖區。在我們的內部測試中,我們觀察到這種方法與ODBC / JDBC接口相比,效率提高了10倍-100倍。
趨勢2:數據即服務
我們現在已經進入AWS時代已經10年了,它始于按小時計費的按需基礎架構。DaaS已經在整個堆棧中向上移動,包括完整的應用程序和介于兩者之間的每個構建塊?,F在,公司希望為他們的數據提供同樣的“按需”體驗,即時滿足個人用戶的特定需求,具有出色的性能,易用性,與他們喜愛的工具的兼容性,而且無需等待數月的IT。
數據即服務包括幾個不同的功能:
數據目錄:全面的數據資產清單,使數據使用者可以輕松地跨不同系統和來源查找數據,以及以對業務有意義的方式描述數據。
數據管理:用于過濾,混合和轉換特定作業的數據的工具??梢詫⒖芍赜脭祿砑拥綌祿夸浿幸怨┢渌脩舭l現。某些部署可以在虛擬上下文中實現數據管理,以最小化數據副本。
數據沿襲:在從不同系統訪問數據集并創建新數據集時,跟蹤數據集的出處和沿襲的能力。
數據加速:數據加速允許快速,交互式訪問大型數據集。數據消費者需要以思維的速度工作。如果查詢需要幾分鐘才能處理,則用戶無法有效地執行其工作。
數據虛擬化:企業數據存在于許多不同的系統中,包括數據倉庫,數據湖泊和操作系統。數據即服務提供了一種統一的原位訪問數據的方法,無需將所有數據復制到新的孤島中。
SQL執行:?SQL仍然是數據分析的事實標準。每個BI工具和每個數據科學平臺都支持SQL作為從不同來源訪問數據的主要方法。數據即服務提供SQL作為這些工具和系統的接口。
公司現在通過結合這些功能來提高數據消費者的生產力,從而構建數據即服務。利用開源項目,開放標準和云服務,公司將在關鍵業務線上向數據消費者提供他們的第一次數據即服務迭代。
趨勢#3:云數據湖
隨著公司重新升級AWS,Azure和Google的云服務平臺,數據分析往往是最具挑戰性的過渡。每個供應商都為數據倉庫和數據集市提供了一種替代方案:AWS上的Redshift,Azure上的SQL數據倉庫和Google上的BigQuery。還有獨立產品,如Snowflake,支持多個云平臺。
除數據倉庫外,公司還可以選擇其數據科學工作負載,包括每個云供應商的本地Spark產品,以及來自不同供應商(如Databricks)的一系列數據科學平臺。
云數據湖將成為云數據倉庫和云數據科學環境基礎的通用平臺。隨著公司將其分析工作負載遷移到云,云數據湖就在哪里:
數據首先以原始形式存在,包括遺留應用程序和流數據 根據不同需求對數據進行轉換,豐富和混合 數據用于數據科學用例 數據被加載到云數據倉庫中
公司正在使用多種技術構建云數據湖:AWS上的S3,Azure上的ADLS和用于存儲數據的Google云存儲。對于數據處理,公司使用多種選項,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能將繼續出現,例如與Kafka等流媒體平臺以及數據目錄和數據準備工具更緊密的集成。即使是最基本的形式,云數據湖也將成為遷移到云的公司的基礎系統。
?