如何对insert overwrite自读自写场景进行优化

对于需要使用动态分区插入（使用历史分区更新）数据到目的表中，且和数据源表是同一张表时，由于直接在原表上执行insert overwrite可能会导致数据丢失或数据不一致的风险，建议先使用一个临时表来处理数据，再执行insert overwrite操作。

假设存在如下一张表：

user_data(user_group int, user_name string, update_time timestamp);

其中user_group是分区列，需要根据已有数据，按更新时间进行排序，刷新用户组信息。操作步骤如下：

在Hive Beeline命令行执行以下命令开启Hive动态分区：

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;
执行以下命令创建一个临时表，用于存储去重后的数据：

CREATE TABLE temp_user_data AS

SELECT * FROM (

SELECT *,

ROW_NUMBER() OVER(PARTITION BY user_group ORDER BY update_time DESC) as rank

FROM user_data

) tmp

WHERE rank = 1;
执行以下命令使用临时数据作为数据源，并插入到目的表中：

INSERT OVERWRITE TABLE user_data

SELECT user_group, user_name, update_time

FROM temp_user_data;
执行以下命令清理临时表：

DROP TABLE IF EXISTS temp_user_data;

父主题： Hive故障排除

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消