冷热分离概述

在数据分析的实际场景中，冷热数据面临着不同的查询频次及响应速度要求。而随着历史数据的不断增多，如果我们将所有数据存储在本地，将造成大量的资源浪费。冷热分离特性可将冷热数据分开存储，将冷热数据分别存储在成本不同的存储介质上。热数据提高时效数据的查询速度和响应能力，冷数据降低存储成本。我们还可以根据实际业务需求进行灵活的配置和调整，以满足不同场景的要求。冷热数据主要从数据访问频率、更新频率进行划分。

Hot（热数据）：访问、更新频率较高，未来被调用的概率较高的数据，对访问的响应时间要求很高的数据。
Cold（冷数据）：不允许更新或更新频率比较低，访问频率比较低，对访问的响应时间要求不高的数据。

用户可以定义冷热管理表，将符合规则的冷数据切换至OBS上进行存储，可以按照分区自动进行冷热数据的判断和迁移。

原理介绍

OBS对象存储是支持海量数据存储，并提供安全可靠的、低成本的分布式存储服务，ClickHouse基于OBS的优势构建冷热分离存储架构。ClickHouse集群所在的SSD云盘存放最近时间生成并且频繁访问的“热数据”，OBS存放较早时间生成且访问不频繁的“冷数据”，在建表的时使用TTL实现数据根据特定时间策略进行冷热存储。

图1 冷热分离原理图
点击放大

创建表：创建含有冷热分离策略的数据表，其中存储策略值必须为hot_to_cold。
写数据：新数据会按照信息导入到对应的数据表中。在ClickHouse中，每次数据写入都会生成一个新的Part，以保证冷数据的Part在不受影响的情况下写入新数据，满足冷热数据同时存储的需求。
冷热分离：数据存储在热存储上，随着容量或时间的推移往冷存储上迁移。ClickHouse的冷热分离粒度是基于Part的，当达到容量上限或冷却时间时会将当前满足条件的Part移动到OBS，之后新导入的数据生成的新Part达到容量上限或冷却时间后也会移动到OBS。
查询数据：用户在数据表上进行对应的查询，ClickHouse会根据对应表的存储策略信息查询到对应Bucket的根目录，并根据不同表下Part信息下载查询所需的数据到本地进行运算。

注意事项

开通冷热数据分离存储功能，请在业务低峰期进行。开通该功能期间集群只能查看集群信息，无法进行扩容、数据迁移等任务。
使用冷热数据分离存储功能时，需要给表指定存储策略。
冷热分离场景下，热盘不支持缩容。
冷热分离策略一旦创建无法删除。

父主题： ClickHouse冷热分离

上一篇：ClickHouse冷热分离

下一篇：配置ClickHouse冷热分离

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

冷热分离概述

原理介绍

注意事项

相关文档

意见反馈

文档内容是否对您有帮助？