消减Spark Insert Overwrite自读自写风险

场景说明

对于目的表，需要使用动态分区插入（使用历史分区更新），且目的表和数据源表都是同一张表。

由于直接在源表上执行insert overwrite可能会导致数据丢失或数据不一致的风险，建议将作业拆解为2个子作业进行处理，从而保证每次作业重复执行结果都一致。

作业1：新建临时表，将结果数据写入临时表。
作业2：将临时表数据写入源表和删除临时表。

操作步骤

假设存在如下一张表：

user_data(user_group int, user_name string, update_time timestamp);

其中user_group是分区列，现在需要根据已有数据，按更新时间进行排序，刷新用户组信息。

任务1：新建临时表，将结果数据写临时表。

开启Hive动态分区参数。

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

创建一个临时表存储去重后的数据。

CREATE TABLE temp_user_data AS
SELECT * FROM (
SELECT *,
ROW_NUMBER() OVER(PARTITION BY user_group ORDER BY update_time DESC) as rank
FROM user_data
) tmp
WHERE rank = 1;

任务2：将临时表数据写入源表和删除临时表。

使用临时数据作为数据源，插入目的表。

INSERT OVERWRITE TABLE user_data
SELECT user_group, user_name, update_time
FROM temp_user_data;

清理临时表。
```
DROP TABLE IF EXISTS temp_user_data;
```

父主题： Spark运维管理

上一篇：配置列统计值直方图Histogram用以增强CBO准确度

下一篇：Spark常见问题

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

消减Spark Insert Overwrite自读自写风险

场景说明

操作步骤

相关文档

意见反馈

文档内容是否对您有帮助？