- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-07-06來源:騎豬逛超市瀏覽數:252次
ClickHouse 采用的是計算和存儲節點強耦合的架構,不能根據各自實際需求分開擴容,而且在節點擴展后數據無法自動重新分布的問題給 ClickHouse 擴展帶來很多運維的麻煩。
導讀:最近,ByteHouse團隊和InfoQ聯合發布《從ClickHouse到ByteHouse》白皮書,著重探討 ClickHouse 引入企業級生產環境過程中存在的問題以及現階段的解法。

ClickHouse 開源于 2016 年,憑借性能方面的突出優勢,在分析型數據庫領域發展可謂風生水起。目前,國內外許多頭部大廠都在深度使用 ClickHouse 技術。
在性能方面,ClickHouse 在 OLAP 場景下的性能超越同類產品數倍不止,它允許系統以亞秒級的延遲從 PB 級的原始數據生成報告,服務器吞吐量高達每秒數億行。
但是將 ClickHouse 引入企業級生產環境中,仍然存在問題。關于落地實踐的“坑”,并不是業內所有團隊都需要自己踩一遍,也不是所有團隊都能負擔得起這樣的成本,我們要做的是吸取足夠的經驗,以及選擇自研、采購等更加實際的解決方案。
在這一點上,字節跳動無疑是一家非常有代表性的國內企業:字節跳動從 2017 年開始大規模啟用 ClickHouse;作為其深度用戶,字節跳動擁有國內規模最大的 ClickHouse 集群。
目前,字節跳動內部的 ClickHouse 節點總數超過 1.8 萬個,管理總數據量超過 700PB,最大的單個集群部署規模約為 2400 余個節點。
當前,字節跳動已將經過五年定制化改造的 ClickHouse,沉淀為 ByteHouse,正式通過對外提供服務。
從采用并改造開源產品,到上線商業版本對外服務,這是一條非常難走的路,同時也讓其中的實踐思考和經驗更具參考價值。
最近, ByteHouse 聯合 InfoQ 發布白皮書《從ClickHouse到ByteHouse》,深度介紹字節跳動萬臺節點ClickHouse背后的技術實現,本卷白皮書大致分為四個章節:1. ClickHouse 介紹2. ClickHouse 典型場景3. 針對生產環境中的 ClickHouse,ByteHouse 的技術優化思考4. ByteHouse 的設計和演進思路其中,《從ClickHouse到ByteHouse》從第三章開始,重點介紹 ByteHouse 的優化思路。目前,ByteHouse 對 ClickHouse 做了很多升級和優化,本次挑選了 ByteHouse 對 ClickHouse 優化升級中非常重要的三個方面詳細展開:1. 自研表引擎2. 查詢優化器3. 彈性可擴展在自研表引擎模塊,盡管 ClickHouse 提供 MergeTree Family, Memory, File, Interface 等幾十種不同的表引擎,但在字節內部實際使用中,還是明顯感覺到表引擎不足以滿足業務的使用需求,于是我們進行了相應的優化。其中,重點介紹了HaMergeTree、HaUniqueMergeTree、HaKafka三種表引擎。
圖1 白皮書配圖摘選:HaMergeTree副本協同原理在查詢優化器模塊,ByteHouse 對 Optimizer 進行了一年多的改造投入,全面升級產品能力,白皮書詳細列舉了 ByteHouse 在查詢優化器上的改造與優化功能。
為了追求極致性能,ClickHouse 采用的是計算和存儲節點強耦合的架構,不能根據各自實際需求分開擴容,而且在節點擴展后數據無法自動重新分布的問題給 ClickHouse 擴展帶來很多運維的麻煩。ByteHouse 在改進與優化 ClickHouse 的過程中,也重點基于該架構進行了調整,比如 ByteHouse 在存儲和計算上的拆解解耦,實現彈性可擴展的技術優化方案。
圖2 白皮書配圖摘選:計算存儲分離架構
除此之外,《從ClickHouse到ByteHouse》還枚舉出廣告、金融、工業互聯網三大行業的實踐案例,這些都屬于 OLAP 的典型應用行業,并從技術與企業落地等角度給出了當下企業在 OLAP 數據引擎選型的三個核心關注點。上一篇:怎么制定數字化轉型戰略...