文档首页/ MapReduce服务 MRS/ 组件操作指南(阿布扎比区域)/ 使用Spark2x/ Spark2x常见问题/ SQL和DataFrame/ Spark SQL无法查询到ORC类型的Hive表的新插入数据

更新时间：2024-07-19 GMT+08:00

查看PDF

Spark SQL无法查询到ORC类型的Hive表的新插入数据

问题

为什么通过Spark SQL无法查询到存储类型为ORC的Hive表的新插入数据？主要有以下两种场景存在这个问题：

对于分区表和非分区表，在Hive客户端中执行插入数据的操作后，会出现Spark SQL无法查询到最新插入的数据的问题。
对于分区表，在Spark SQL中执行插入数据的操作后，如果分区信息未改变，会出现Spark SQL无法查询到最新插入的数据的问题。

回答

由于Spark存在一个机制，为了提高性能会缓存ORC的元数据信息。当通过Hive或其他方式更新了ORC表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。

对于存储类型为ORC的Hive分区表，在执行插入数据操作后，如果分区信息未改变，则缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。

解决措施：

在使用Spark SQL查询之前，需执行Refresh操作更新元数据信息：
REFRESH TABLE table_name;

table_name为刷新的表名，该表必须存在，否则会出错。

执行查询语句时，即可获取到最新插入的数据。
使用sqark时，执行以下命令禁用Spark优化：
set spark.sql.hive.convertMetastoreOrc=false;

父主题： SQL和DataFrame

上一篇：为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误

下一篇：Spark Streaming

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消