文档首页> MapReduce服务 MRS> 开发指南（普通版_3.x）> 开发规范> Hive> 建议

更新时间：2023-05-08 GMT+08:00

建议

HQL编写之隐式类型转换

查询语句使用字段的值做过滤时，不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。

建议示例：

select * from default.tbl_src where id = 10001;
select * from default.tbl_src where name = 'TestName';

不建议示例：

select * from default.tbl_src where id = '10001';
select * from default.tbl_src where name = TestName;

表tbl_src的id字段为Int类型，name字段为String类型。

HQL编写之对象名称长度

HQL的对象名称，包括表名、字段名、视图名、索引名等，其长度建议不要超过30个字节。

Oracle中任何对象名称长度不允许超过30个字节，超过时会报错。PT为了兼容Oracle，对对象的名称进行了限制，不允许超过30个字节。

太长不利于阅读、维护、移植。

HQL编写之记录个数统计

统计某个表所有的记录个数，建议使用“select count(1) from table_name”。

统计某个表某个字段有效的记录个数，建议使用“select count(column_name) from table_name”。

增加高斯DB备节点查询成功率

在备库上执行查询时，经常会出现如下错误：

由于备库从主库同步数据时发现备库执行了耗时较长的SQL，会主动将SQL取消，SQL最长执行时间默认为30s。此问题需要在高斯备节点执行如下语句：

su ommdba
gs_guc reload -c "hot_standby_feedback=on"

这个参数的设置是有利有弊，好处就是减少了冲突，缺点就是由于主库的清理需要等待备库的事务结束，那么在频繁更新的场景下，可能造成主库数据膨胀。因此只建议在备库上执行不频繁且耗时段的SQL。

JDBC超时限制

Hive提供的JDBC实现有超时限制，默认是5分钟，用户可以通过java.sql.DriverManager.setLoginTimeout(int seconds)设置，seconds的单位为秒。

UDF管理

建议由管理员创建永久UDF，避免每次使用时都去add jar，和重新定义UDF。

Hive的UDF会有一些默认属性，比如“deterministic”默认为“true”（同一个输入会返回同一个结果），“stateful”（是否有状态，默认为“true”）。当用户实现的自定义UDF内部实现了汇总等，需要在类上加上相应的注解，例如如下类：

@UDFType(deterministic = false)
Public class MyGenericUDAFEvaluator implements Closeable {

表分区优化建议

当数据量较大，且经常需要按天统计时，建议使用分区表，按天存放数据。
为了避免在插入动态分区数据的过程中，产生过多的小文件，在执行插入时，在分区字段上加上distribute by。

存储文件格式优化建议

Hive支持多种存储格式，比如TextFile，RCFile，ORC，Sequence，Parquet等。为了节省存储空间，或者大部分时间只查询其中的一部分字段时，可以在建表时使用列式存储(比如ORC文件)。

父主题： Hive

上一篇：规则

下一篇：示例

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

建议

HQL编写之隐式类型转换

HQL编写之对象名称长度

HQL编写之记录个数统计

增加高斯DB备节点查询成功率

JDBC超时限制

UDF管理

表分区优化建议

存储文件格式优化建议

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线