更新时间:2022-05-06 GMT+08:00
OBS表压缩率较高
当Parquet/Orc格式的OBS表对应的文件压缩率较高时(跟文本相比,超过5倍压缩率),建议在提交导入数据到DLI表作业时,在submit-job请求体conf字段中配置“dli.sql.files.maxPartitionBytes=33554432”,该配置项默认值为128MB,将其配置成32MB,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。
父主题: SQL作业相关问题
SQL作业相关问题所有常见问题
- 查看DLI的执行SQL记录
- 查看DLI SQL日志
- 如何避免字符码不一致导致的乱码
- 创建OBS表时正确指定OBS路径
- OBS表压缩率较高
- 关联OBS桶中嵌套的JSON格式数据如何创建表
- 用户导表到OBS报“path obs://xxx already exists”错误
- DLI如何访问OBS桶中的数据
- 用户通过CTAS创建hive表报schema解析异常错误
- 如何将一个区域中的DLI表数据同步到另一个区域中?
- 如何合并小文件
- 配置AE参数解决数据倾斜
- DLI是否支持创建临时表?
- 对两个表进行join操作时,提示:SQL_ANALYSIS_ERROR: Reference 't.id' is ambiguous, could be: t.id, t.id.;
- count函数如何进行聚合
- 执行查询语句报错:The current account does not have permission to perform this operation,the current account was restricted. Restricted for no budget.
- 在SQL语句中如何设置局部变量
- 执行查询语句报错:There should be at least one partition pruning predicate on partitioned table XX.YYY
- LOAD数据到OBS外表报错:IllegalArgumentException: Buffer size too small. size
- 使用CDM迁移数据到DLI,迁移作业日志上报UQUERY_CONNECTOR_0001:Invoke DLI service api failed错误
- 在DGC上运行DLI SQL脚本,执行结果报org.apache.hadoop.fs.obs.OBSIOException错误
- 删除表后再重新创建同名的表,需要对操作该表的用户和项目重新赋权
- DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败
- 创建OBS外表,因为OBS文件中的某字段存在回车换行符导致表字段数据错误
- SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中
- DLI控制台中无法查询到对应表
more
