Flink任务开发规则

对有更新操作的数据流进行聚合计算时要注意数据准确性问题

在针对更新数据进行聚合需要选择合适的解决方案，否则聚合结果会是错误的。

例如：

Create table t1(
    id  int,
    partid int,
    value int
);
select
   partid,sum(value) 
 from t1 
 group by partid;

第一批数据：[1,1,10],[2,1,11],[3,2,8]
聚合结果：[1,21],[2,8]
第二批数据：[2,1,12] //对ID=2的记录进行更新。
错误结果：[1,33],[2,8] //若是无法识别是对ID=2的数据进行了更新。

聚合结果：[1,22],[2,8] //识别为更新操作可以得到正确结果。

对于如何识别是更新数据有三种方式：

通过状态后端解决
 通过状态后端存储所有原始数据，新来的数据根据状态来判断是否是更新操作，进而通过Flink聚合回撤机制实现聚合结果数据的更新。

优点：可以解决聚合准确性问题，而且对用户友好，对数据没有要求。

缺点：大数据量情况下状态后端存储的数据比较多。
通过CDC格式数据解决
 CDC格式数据是指更新操作记录中会同时包含更新前数据和更新后数据。通过更新前的内容来回撤掉之前的聚合结果，通过更新后的数据更新最新的计算结果。

优点：不需要有大的状态后端存储，整体计算资源压力要小于基于状态后端的方案。

缺点：需要依赖于数据格式，常见的方式通过CDC采集工具，将数据采集到Kafka，然后Flink读Kafka数据进行计算。
通过changelog数据解决
 changelog与CDC格式的数据类似，只不过存储的方式不同，CDC格式数据会将更新前和更新后的数据在一行记录，而changelog数据会将更新数据拆分成两行，一行是对更新前数据的删除操作，一行是更新后的数据插入操作记录。Flink在计算的时候会将基于更新数据的聚合结果删除，再将基于更新后数据的计算结果插入。changelog可以基于Hudi表实现，基于CDC格式的数据可以转为changelog数据存储到Hudi的MOR表的log文件中，也可以基于状态后端生成Hudi的changelog数据。

优点：可以基于湖存储实现更新数据聚合一致性保证。

缺点：
- Hudi的MOR表中仅在log文件中存在changelog数据，如果Flink作业计算延迟导致上游数据积压，而Hudi又清理了log文件，就会导致changelog丢失。针对这种情况需要保留版本数多一点，且给Flink作业合理的资源配置避免数据积压周期超过了清理周期。
- 基于状态后端生成changelog也是依赖于状态后端的，状态后端通常是会配置TTL时间的，不会永久保留。这种场景下更新操作是任意更新，没有一定时间周期限制。例如更新近一个月的数据，TTL设置大于一个月即可；若更新全部数据，就需要设置TTL为永久，不适用于大表。
- 目前changelog的MOR表，仅支持Flink引擎进行compaction处理，不支持Spark引擎。

父主题： Flink任务开发规范

上一篇：Flink任务开发规范

下一篇：Flink任务开发建议

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消