全部文档
MapReduce服务 MRS
MapReduce服务 MRS
最新动态
功能总览
服务公告
漏洞公告
Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)公告
Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)修复指导
MRS Fastjson漏洞修复指导
简介
影响范围
修复Manager Web
修复Manager Controller
修复Manager nodeagent
修复Kafka
修复Flink
版本支持公告
MRS集群版本生命周期
产品介绍
图解MapReduce服务
什么是MRS
MRS与自建Hadoop对比优势
应用场景
如何选择MRS版本
组件介绍
MRS组件版本一览表
Alluxio
CarbonData
ClickHouse
图解ClickHouse
ClickHouse
CDL
CDL基本原理
CDL和其他组件的关系
DBService
DBService基本原理
DBService与其他组件的关系
Doris
Doris基本原理
Doris与其他组件的关系
Flink
Flink基本原理
Flink HA方案介绍
Flink与其他组件的关系
Flink开源增强特性
窗口
Job Pipeline
Stream SQL Join
Flink CEP in SQL
Flume
Flume基本原理
Flume与其他组件的关系
Flume开源增强特性
HBase
HBase基本原理
HBase HA方案介绍
HBase与其他组件的关系
HBase开源增强特性
HDFS
HDFS基本原理
HDFS HA方案介绍
HDFS与其他组件的关系
HDFS开源增强特性
HetuEngine
HetuEngine产品概述
HetuEngine与其他组件的关系
Hive
Hive基本原理
Hive CBO原理介绍
Hive与其他组件的关系
Hive开源增强特性
Hudi
Hue
Hue基本原理
Hue与其他组件的关系
Hue开源增强特性
Impala
IoTDB
IoTDB基本原理
IoTDB与其他组件的关系
IoTDB开源增强特性
Kafka
Kafka基本原理
Kafka与其他组件的关系
Kafka开源增强特性
KafkaManager
KrbServer及LdapServer
KrbServer及LdapServer基本原理
KrbServer及LdapServer开源增强特性
Kudu
Loader
Loader基本原理
Loader与其他组件的关系
Loader开源增强特性
Manager
Manager基本原理
Manager关键特性
MapReduce
MapReduce基本原理
MapReduce与其他组件的关系
MapReduce开源增强特性
Oozie
Oozie基本原理
Oozie开源增强特性
OpenTSDB
Presto
Ranger
Ranger基本原理
Ranger与其他组件的关系
Spark
Spark基本原理
Spark HA方案介绍
Spark与HDFS和YARN的关系
Spark开源增强特性:跨源复杂数据的SQL查询优化
Spark2x
Spark2x基本原理
Spark2x HA方案介绍
Spark2x多主实例
Spark2x多租户
Spark2x与组件的关系
Spark2x开源新特性
Spark2x开源增强特性
CarbonData简介
跨源复杂数据的SQL查询优化
StarRocks
StarRocks基本原理
Storm
Storm基本原理
Storm与其他组件的关系
Storm开源增强特性
Tez
YARN
YARN基本原理
YARN HA方案介绍
Yarn与其他组件的关系
YARN开源增强特性
ZooKeeper
ZooKeeper基本原理
ZooKeeper与其他组件的关系
ZooKeeper开源增强特性
产品功能
多租户
安全增强
组件WebUI便捷访问
可靠性增强
作业管理
自定义引导操作
企业项目管理
元数据
集群管理
集群生命周期管理
集群扩缩容
自动弹性伸缩
创建Task节点
升级Master节点规格
隔离主机
标签管理
集群运维
消息通知
安全
责任共担
资产识别与管理
身份认证与访问控制
数据保护技术
审计与日志
服务韧性
监控安全风险
更新管理
安全加固
约束与限制
技术支持
计费说明
权限管理
与其他云服务的关系
配额说明
常见概念
发行版本
版本概述
版本说明
MRS 3.1.2-LTS.3版本说明
MRS 3.1.5版本说明
MRS 3.2.0-LTS.1版本说明
计费说明
计费概述
计费模式
计费模式概述
包年/包月
按需计费
计费项
计费样例
变更计费模式
变更计费模式概述
按需转包年/包月
续费
续费概述
手动续费
自动续费
费用账单
欠费说明
停止计费
成本管理
计费FAQ
创建MRS集群时计价器为什么未显示价格?
MapReduce服务集群的Task节点如何收费?
退订MRS服务后,在ECS中退订弹性云服务器时报异常如何处理?
快速入门
购买并使用MRS集群
如何快速使用MRS
购买集群
上传数据
添加作业
删除集群
安装并使用集群客户端
快速使用Kerberos认证集群
从零开始使用Hadoop
从零开始使用Kafka
从零开始使用HBase
修改MRS服务配置参数
配置MRS集群弹性伸缩
配置Hive存算分离
提交Spark任务到新增Task节点
配置MRS集群阈值类告警
MRS组件应用开发快速入门
HBase应用开发快速入门
HDFS应用开发快速入门
Hive JDBC应用开发快速入门
Hive HCatalog应用开发快速入门
Kafka应用开发快速入门
Flink应用开发快速入门
ClickHouse应用开发快速入门
Spark应用开发快速入门
入门实践
用户指南
准备用户
配置云服务授权
创建MRS操作用户
创建MRS自定义策略
IAM用户同步MRS说明
配置集群
购买方式简介
快速购买集群
快速购买Hadoop分析集群
快速购买HBase查询集群
快速购买Kafka流式集群
快速购买ClickHouse集群
快速购买实时分析集群
购买自定义集群
购买自定义拓扑集群
创建专属云MRS集群
添加集群/节点标签
授权安全通信
配置弹性伸缩规则
简介
创建集群时配置弹性伸缩
为已有集群新增弹性伸缩策略
场景1:单独配置弹性伸缩规则
场景2:单独使用资源计划
场景3:弹性伸缩规则与资源计划叠加使用
修改已有弹性伸缩策略
删除已有弹性伸缩策略
开启或关闭已有弹性伸缩策略
查看已有弹性伸缩策略
配置自动化脚本
配置弹性伸缩指标
管理数据连接
配置数据连接
配置RDS数据连接
配置RDS数据连接操作
配置Ranger数据连接
配置Hive数据连接
配置LakeFormation数据连接
概述
准备工作
创建集群时配置LakeFormation数据连接
通过引导操作安装第三方软件
查看失败的集群操作任务
查看历史集群信息
管理集群
登录集群
MRS集群节点简介
登录集群节点
如何确认主备管理节点
集群概览
集群列表简介
查看集群状态
查看集群基本信息
查看集群补丁信息
管理组件和主机监控
查看和定制集群监控指标
集群运维
导入导出数据
切换集群子网
配置消息通知
健康检查
使用前须知
执行健康检查
查看并导出检查报告
远程运维
运维授权
日志共享
查看MRS服务操作日志
按需集群转包周期集群
退订集群
退订包周期集群指定节点
删除集群
克隆集群
节点管理
扩容集群
缩容集群
缩容ClickHouseServer
缩容ClickHouseServer约束限制
缩容ClickHouseServer节点
管理主机(节点)操作
隔离主机
取消隔离主机
升级Master节点规格
扩容数据盘
同步磁盘信息
作业管理
MRS作业简介
运行MapReduce作业
运行SparkSubmit或Spark作业
运行HiveSql作业
运行SparkSql作业
运行Flink作业
运行HadoopStream作业
查看作业配置信息和日志
停止作业
克隆作业
删除作业
使用OBS加密数据运行作业
配置作业消息通知
组件管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服角色实例
启动及停止集群
同步集群配置
导出集群的配置数据
支持滚动重启
告警管理
查看告警列表
查看事件列表
查看与手动清除告警
补丁管理
安装在线补丁
安装滚动补丁
修复隔离主机补丁
MRS补丁说明
omm用户提权漏洞修复
MRS 3.2.0-LTS.1版本补丁说明
MRS 3.1.5版本补丁说明
MRS 3.1.2-LTS版本补丁说明
MRS 3.1.0版本补丁说明
MRS 3.1.2-LTS.2版本补丁说明
MRS 2.1.0.11补丁说明
MRS 3.0.5.1补丁说明
MRS 2.1.0.10补丁说明
MRS 2.1.0.9补丁说明
MRS 2.1.0.8补丁说明
MRS 2.1.0.7补丁说明
MRS 2.1.0.6补丁说明
MRS 2.1.0.5补丁说明
MRS 2.1.0.3补丁说明
MRS 2.1.0.2补丁说明
MRS 2.1.0.1补丁说明
MRS 2.0.6.1补丁说明
MRS 2.0.1.3补丁说明
MRS 2.0.1.2补丁说明
MRS 2.0.1.1补丁说明
MRS 1.9.3.9及之后版本补丁说明
MRS 1.9.3.3补丁说明
MRS 1.9.3.1补丁说明
MRS 1.9.2.3补丁说明
MRS 1.9.2.2补丁说明
MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
MRS 1.9.0.7补丁说明
MRS 1.9.0.6补丁说明
MRS 1.9.0.5补丁说明
MRS 1.8.10.6补丁说明
MRS 1.8.10.1补丁说明
MRS 1.8.7.1补丁说明
MRS 1.7.1.6补丁说明
MRS 1.7.1.5补丁说明
MRS 1.7.1.3补丁说明
MRS 1.5.1.4补丁说明
租户管理
使用前须知
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
引导操作
引导操作简介
准备引导操作脚本
查看执行记录
添加引导操作
修改引导操作
删除引导操作
使用MRS客户端
安装客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
各组件客户端使用实践
使用ClickHouse客户端
使用Flink客户端
使用Flume客户端
使用HBase客户端
使用HDFS客户端
使用Hive客户端
使用Impala客户端
使用Kafka客户端
使用Kudu客户端
使用Oozie客户端
使用Storm客户端
使用Yarn客户端
配置存算分离
MRS存算分离简介
基于委托机制对接OBS
配置存算分离集群(委托方式)
配置存算分离集群(AKSK方式)
配置组件数据回收站清理策略
MRS集群组件对接OBS(基于委托)
Flink对接OBS文件系统
Flume对接OBS文件系统
HDFS客户端对接OBS文件系统
Hive对接OBS文件系统
MapReduce对接OBS文件系统
Spark2x对接OBS文件系统
Sqoop对接外部存储系统
Hudi对接OBS文件系统
配置MRS多用户访问OBS细粒度权限
集群外客户端访问OBS
基于Guardian服务对接OBS
Guardian服务对接OBS场景说明
配置Guardian服务对接OBS
MRS集群组件对接OBS(基于Guardian)
Hive组件对接OBS
Flink组件对接OBS
Spark组件对接OBS
Hudi组件对接OBS
HetuEngine组件对接OBS
HDFS组件对接OBS
Yarn组件对接OBS
Mapreduce组件对接OBS
常见问题
HDFS对接OBS业务使用样例
访问MRS集群上托管的开源组件Web页面
开源组件Web站点
组件常用端口列表
通过专线访问
通过弹性公网IP访问
通过Windows弹性云服务器访问
创建连接MRS集群的SSH隧道并配置浏览器
访问集群Manager
访问FusionInsight Manager(MRS 3.x及之后版本)
访问MRS Manager(MRS 2.x及之前版本)
FusionInsight Manager操作指导(适用于3.x)
主页
主页概述
管理监控指标数据报表
查询FusionInsight Manager版本号
集群
管理集群
集群管理概述
滚动重启集群
管理配置过期
下载客户端
修改集群属性
管理集群配置
静态服务池
静态服务资源
配置集群静态资源
查看集群静态资源
客户端管理
管理客户端
批量升级客户端
批量刷新hosts文件
管理服务
服务管理概述
服务管理操作
服务详情概述
执行角色实例主备倒换
资源监控
采集堆栈信息
切换Ranger鉴权
服务配置
修改服务配置参数
修改服务自定义配置参数
管理实例
实例管理概述
入服与退服实例
管理实例配置
查看实例配置文件
实例组
管理实例组
查看实例组信息
配置实例组参数
主机
主机管理页面
查看主机列表
查看主机概览
查看主机进程及资源
主机维护操作
启动、停止主机上的所有实例
执行主机健康检查
分配机架
隔离主机
导出主机信息
资源概况
分布
趋势
集群
主机
运维
告警
告警与事件概述
配置告警阈值
配置告警屏蔽状态
日志
在线检索日志
下载日志
健康检查
查看健康检查任务
管理健康检查报告
修改健康检查配置
备份恢复设置
创建备份任务
创建恢复任务
其他任务管理说明
审计
审计管理页面概述
配置审计日志转储
租户资源
多租户介绍
简介
技术原理
多租户管理页面概述
相关模型
资源概述
动态资源
存储资源
多租户使用
使用说明
流程概述
使用Superior调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
管理资源
添加资源池
修改资源池
删除资源池
修改队列资源
配置资源池的队列容量策略
清除队列容量配置
管理全局用户策略
使用Capacity调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
Capacity Scheduler模式下清除租户非关联队列
管理资源
添加资源池
修改资源池
删除资源池
修改队列资源
配置资源池的队列容量策略
清除队列容量配置
切换调度器
系统设置
权限设置
用户管理
创建用户
修改用户信息
导出用户信息
锁定用户
解锁用户
删除用户
修改用户密码
初始化用户密码
导出认证凭据文件
用户组管理
角色管理
安全策略
配置密码策略
配置私有属性
对接设置
配置SNMP北向参数
配置Syslog北向参数
配置监控指标数据转储
导入证书
OMS管理
OMS维护页面概述
修改OMS服务配置参数
查看部件包
集群管理
集群互信管理
集群互信概述
修改Manager系统域名
配置跨Manager集群互信
配置跨集群互信后的用户权限
配置定时备份告警与审计信息
修改FusionInsight Manager添加的路由表
修改集群NTP服务器
切换维护模式
Manager例行维护说明
日志管理
关于日志
Manager日志清单
配置日志级别与文件大小
配置审计日志本地备份数
查看角色实例日志
备份恢复管理
备份恢复简介
备份数据
备份Manager数据
备份CDL数据
备份ClickHouse元数据
备份ClickHouse业务数据
备份DBService数据
备份Flink元数据
备份HBase元数据
备份HBase业务数据
备份NameNode数据
备份HDFS业务数据
备份Hive业务数据
备份IoTDB元数据
备份IoTDB业务数据
备份Kafka元数据
恢复数据
恢复Manager数据
恢复CDL数据
恢复ClickHouse元数据
恢复ClickHouse业务数据
恢复DBService数据
恢复Flink元数据
恢复HBase元数据
恢复HBase业务数据
恢复NameNode数据
恢复HDFS业务数据
恢复Hive业务数据
恢复IoTDB元数据
恢复IoTDB业务数据
恢复Kafka元数据
启用集群间拷贝功能
管理本地快速恢复任务
修改备份任务
查看备份恢复任务
创建ClickHouse备份任务路径选择RemoteHDFS时的环境配置
SQL防御
SQL防御概述
添加SQL防御规则
配置Hive SQL防御
配置ClickHouse SQL防御
配置HetuEngine SQL防御
配置Spark SQL防御
安全管理
安全概述
权限模型
权限机制
认证策略
鉴权策略
用户账号一览表
默认权限信息一览
FusionInsight Manager安全功能
账户管理
账户安全设置
解锁LDAP用户和管理账户
解锁系统内部用户
修改集群组件鉴权配置开关
使用普通模式集群用户在非集群节点登录
修改系统用户密码
修改admin密码
修改操作系统用户密码
修改系统内部用户密码
修改Kerberos管理员密码
修改OMS Kerberos管理员密码
修改LDAP管理员和LDAP用户密码(含OMS LDAP)
修改LDAP管理账户密码
修改组件运行用户密码
修改默认数据库用户密码
修改OMS数据库管理员密码
修改OMS数据库访问用户密码
修改组件数据库用户密码
重置组件数据库用户密码
重置DBService数据库omm用户密码
修改DBService数据库compdbuser用户密码
修改或重置Manager的admin用户密码
证书管理
更换CA证书
更换HA证书
安全加固
加固策略
配置受信任IP访问LDAP
加密HFile和WAL内容
配置Hadoop安全参数
配置HBase允许修改操作的IP地址白名单
更新集群密钥
加固LDAP
配置Kafka数据传输加密
配置HDFS数据传输加密
配置Spark2x数据传输加密
配置ZooKeeper SSL
配置Controller与Agent间通信加密
更新omm用户ssh密钥
修改Manager页面超时时间
安全维护
账户维护建议
密码维护建议
日志维护建议
安全声明
MRS Manager操作指导(适用于2.x及之前)
MRS Manager简介
查看集群运行任务
监控管理
系统概览
管理服务和主机监控
管理资源分布
配置监控指标转储
告警管理
查看与手动清除告警
配置监控与告警阈值
配置Syslog北向参数
配置SNMP北向参数
告警参考(适用于MRS 2.x及以前版本)
ALM-12001 审计日志转储失败(2.x及以前版本)
ALM-12002 HA资源异常(2.x及以前版本)
ALM-12004 OLdap资源异常(2.x及以前版本)
ALM-12005 OKerberos资源异常(2.x及以前版本)
ALM-12006 节点故障(2.x及以前版本)
ALM-12007 进程故障(2.x及以前版本)
ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
ALM-12012 NTP服务异常(2.x及以前版本)
ALM-12014 设备分区丢失(2.x及以前版本)
ALM-12015 设备分区文件系统只读(2.x及以前版本)
ALM-12016 CPU使用率超过阈值(2.x及以前版本)
ALM-12017 磁盘容量不足(2.x及以前版本)
ALM-12018 内存使用率超过阈值(2.x及以前版本)
ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
ALM-12031 omm用户或密码即将过期(2.x及以前版本)
ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
ALM-12033 慢盘故障(2.x及以前版本)
ALM-12034 周期备份任务失败(2.x及以前版本)
ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
ALM-12037 NTP服务器异常(2.x及以前版本)
ALM-12038 监控指标转储失败(2.x及以前版本)
ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
ALM-12040 系统熵值不足(2.x及以前版本)
ALM-12041关键文件权限异常(2.x及以前版本)
ALM-12042 关键文件配置异常(2.x及以前版本)
ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
ALM-12054 证书文件失效(2.x及以前版本)
ALM-12055 证书文件即将过期(2.x及以前版本)
ALM-12180 磁盘卡IO(2.x及以前版本)
ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
ALM-14000 HDFS服务不可用(2.x及以前版本)
ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
ALM-14010 NameService服务异常(2.x及以前版本)
ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
ALM-16004 Hive服务不可用(2.x及以前版本)
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
ALM-18000 Yarn服务不可用(2.x及以前版本)
ALM-18002 NodeManager心跳丢失(2.x及以前版本)
ALM-18003 NodeManager不健康(2.x及以前版本)
ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
ALM-18006 执行MapReduce任务超时(2.x及以前版本)
ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
ALM-19000 HBase服务不可用(2.x及以前版本)
ALM-19006 HBase容灾同步失败(2.x及以前版本)
ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
ALM-20002 Hue服务不可用(2.x及以前版本)
ALM-23001 Loader服务不可用(2.x及以前版本)
ALM-24000 Flume服务不可用(2.x及以前版本)
ALM-24001 Flume Agent异常(2.x及以前版本)
ALM-24003 Flume Client连接中断(2.x及以前版本)
ALM-24004 Flume读取数据异常(2.x及以前版本)
ALM-24005 Flume传输数据异常(2.x及以前版本)
ALM-25000 LdapServer服务不可用(2.x及以前版本)
ALM-25004 LdapServer数据同步异常(2.x及以前版本)
ALM-25500 KrbServer服务不可用(2.x及以前版本)
ALM-26051 Storm服务不可用(2.x及以前版本)
ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
ALM-27001 DBService服务不可用(2.x及以前版本)
ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
ALM-27004 DBService主备数据不同步(2.x及以前版本)
ALM-28001 Spark服务不可用(2.x及以前版本)
ALM-38000 Kafka服务不可用(2.x及以前版本)
ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
ALM-43001 Spark服务不可用(2.x及以前版本)
ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
ALM-45325 Presto服务不可用(2.x及以前版本)
对象管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服务角色实例
管理主机操作
隔离主机
取消隔离主机
启动及停止集群
同步集群配置
导出集群的配置数据
日志管理
关于日志
Manager日志清单
查看及导出审计日志
导出服务日志
配置审计日志导出参数
健康检查管理
执行健康检查
查看并导出检查报告
配置健康检查报告保存数
管理健康检查报告
DBService健康检查指标项说明
Flume 健康检查指标项说明
HBase健康检查指标项说明
Host健康检查指标项说明
HDFS健康检查指标项说明
Hive健康检查指标项说明
Kafka健康检查指标项说明
KrbServer健康检查指标项说明
LdapServer健康检查指标项说明
Loader健康检查指标项说明
MapReduce健康检查指标项说明
OMS健康检查指标项说明
Spark健康检查指标项说明
Storm健康检查指标项说明
Yarn健康检查指标项说明
ZooKeeper健康检查指标项说明
静态服务池管理
查看静态服务池状态
配置静态服务池
租户管理
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
备份与恢复
备份与恢复简介
备份元数据
恢复元数据
修改备份任务
查看备份恢复任务
安全管理
未开启Kerberos认证集群中的默认用户清单
开启Kerberos认证集群中的默认用户清单
修改操作系统用户密码
修改admin密码
修改Kerberos管理员密码
修改LDAP管理员和LDAP用户密码
修改组件运行用户密码
修改OMS数据库管理员密码
修改OMS数据库数据访问用户密码
修改组件数据库用户密码
更换HA证书
更新集群密钥
权限管理
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
MRS多用户权限管理
MRS集群中的用户与权限
开启Kerberos认证集群中的默认用户清单
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
配置跨集群互信
配置并使用互信集群的用户
补丁操作指导
MRS 3.x之前版本补丁操作指导
支持滚动补丁
修复隔离主机补丁
支持滚动重启
告警参考(适用于MRS 3.x版本)
ALM-12001 审计日志转储失败
ALM-12004 OLdap资源异常
ALM-12005 OKerberos资源异常
ALM-12006 节点故障
ALM-12007 进程故障
ALM-12010 Manager主备节点间心跳中断
ALM-12011 Manager主备节点同步数据异常
ALM-12012 NTP服务异常
ALM-12014 设备分区丢失
ALM-12015 设备分区文件系统只读
ALM-12016 CPU使用率超过阈值
ALM-12017 磁盘容量不足
ALM-12018 内存使用率超过阈值
ALM-12027 主机PID使用率超过阈值
ALM-12028 主机D状态和Z状态进程数超过阈值
ALM-12033 慢盘故障
ALM-12034 周期备份任务失败
ALM-12035 恢复任务失败后数据状态未知
ALM-12037 NTP服务器异常
ALM-12038 监控指标转储失败
ALM-12039 OMS数据库主备不同步
ALM-12040 系统熵值不足
ALM-12041 关键文件权限异常
ALM-12042 关键文件配置异常
ALM-12045 网络读包丢包率超过阈值
ALM-12046 网络写包丢包率超过阈值
ALM-12047 网络读包错误率超过阈值
ALM-12048 网络写包错误率超过阈值
ALM-12049 网络读吞吐率超过阈值
ALM-12050 网络写吞吐率超过阈值
ALM-12051 磁盘Inode使用率超过阈值
ALM-12052 TCP临时端口使用率超过阈值
ALM-12053 主机文件句柄使用率超过阈值
ALM-12054 证书文件失效
ALM-12055 证书文件即将过期
ALM-12057 元数据未配置周期备份到第三方服务器的任务
ALM-12061 进程使用率超过阈值
ALM-12062 OMS参数配置同集群规模不匹配
ALM-12063 磁盘不可用
ALM-12064 主机随机端口范围配置与集群使用端口冲突
ALM-12066 节点间互信失效
ALM-12067 tomcat资源异常
ALM-12068 acs资源异常
ALM-12069 aos资源异常
ALM-12070 controller资源异常
ALM-12071 httpd资源异常
ALM-12072 floatip资源异常
ALM-12073 cep资源异常
ALM-12074 fms资源异常
ALM-12075 pms资源异常
ALM-12076 gaussDB资源异常
ALM-12077 omm用户过期
ALM-12078 omm密码过期
ALM-12079 omm用户即将过期
ALM-12080 omm密码即将过期
ALM-12081 ommdba用户过期
ALM-12082 ommdba用户即将过期
ALM-12083 ommdba密码即将过期
ALM-12084 ommdba密码过期
ALM-12085 服务审计日志转储失败
ALM-12087 系统处于升级观察期
ALM-12089 节点间网络互通异常
ALM-12091 disaster资源异常
ALM-12099 发生core dump
ALM-12100 AD服务器连接异常
ALM-12101 AZ不健康
ALM-12102 AZ高可用组件未按容灾需求部署
ALM-12103 executor资源异常
ALM-12104 knox资源异常
ALM-12110 获取ECS临时ak/sk失败
ALM-12172 指标上报CES失败
ALM-12180 磁盘卡IO
ALM-12186 用户CGroup任务数使用率超过阈值
ALM-12187 磁盘分区扩容失败
ALM-12188 diskmgt磁盘监控服务不可用
ALM-12190 Knox连接数超过阈值
ALM-13000 ZooKeeper服务不可用
ALM-13001 ZooKeeper可用连接数不足
ALM-13002 ZooKeeper直接内存使用率超过阈值
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
ALM-13004 ZooKeeper堆内存使用率超过阈值
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
ALM-13006 Znode数量或容量超过阈值
ALM-13007 ZooKeeper客户端可用连接数不足
ALM-13008 ZooKeeper Znode数量使用率超出阈值
ALM-13009 ZooKeeper Znode容量使用率超出阈值
ALM-13010 配置quota的目录Znode使用率超出阈值
ALM-14000 HDFS服务不可用
ALM-14001 HDFS磁盘空间使用率超过阈值
ALM-14002 DataNode磁盘空间使用率超过阈值
ALM-14003 丢失的HDFS块数量超过阈值
ALM-14006 HDFS文件数超过阈值
ALM-14007 NameNode堆内存使用率超过阈值
ALM-14008 DataNode堆内存使用率超过阈值
ALM-14009 Dead DataNode数量超过阈值
ALM-14010 NameService服务异常
ALM-14011 DataNode数据目录配置不合理
ALM-14012 Journalnode数据不同步
ALM-14013 NameNode FsImage文件更新失败
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
ALM-14016 DataNode直接内存使用率超过阈值
ALM-14017 NameNode直接内存使用率超过阈值
ALM-14018 NameNode非堆内存使用率超过阈值
ALM-14019 DataNode非堆内存使用率超过阈值
ALM-14020 HDFS目录条目数量超过阈值
ALM-14021 NameNode RPC处理平均时间超过阈值
ALM-14022 NameNode RPC队列平均时间超过阈值
ALM-14023 总副本预留磁盘空间所占比率超过阈值
ALM-14024 租户空间使用率超过阈值
ALM-14025 租户文件对象使用率超过阈值
ALM-14026 DataNode块数超过阈值
ALM-14027 DataNode磁盘故障
ALM-14028 待补齐的块数超过阈值
ALM-14029 单副本的块数超过阈值
ALM-14030 HDFS已开启允许写入单副本数据
ALM-14031 DataNode进程状态异常
ALM-14032 JournalNode进程状态异常
ALM-14033 ZKFC进程状态异常
ALM-14034 Router进程状态异常
ALM-14035 HttpFS进程状态异常
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
ALM-16001 Hive数据仓库空间使用率超过阈值
ALM-16002 Hive SQL执行成功率低于阈值
ALM-16003 Background线程使用率超过阈值
ALM-16004 Hive服务不可用
ALM-16005 Hive服务进程堆内存使用超出阈值
ALM-16006 Hive服务进程直接内存使用超出阈值
ALM-16007 Hive GC 时间超出阈值
ALM-16008 Hive服务进程非堆内存使用超出阈值
ALM-16009 Map数超过阈值
ALM-16045 Hive数据仓库被删除
ALM-16046 Hive数据仓库权限被修改
ALM-16047 HiveServer已从Zookeeper注销
ALM-16048 Tez或者Spark库路径不存在
ALM-17003 Oozie服务不可用
ALM-17004 Oozie堆内存使用率超过阈值
ALM-17005 Oozie非堆内存使用率超过阈值
ALM-17006 Oozie直接内存使用率超过阈值
ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
ALM-17008 Oozie连接ZooKeeper状态异常
ALM-17009 Oozie连接DBService状态异常
ALM-17010 Oozie连接HDFS状态异常
ALM-17011 Oozie连接Yarn状态异常
ALM-18000 Yarn服务不可用
ALM-18002 NodeManager心跳丢失
ALM-18003 NodeManager不健康
ALM-18008 ResourceManager堆内存使用率超过阈值
ALM-18009 JobHistoryServer堆内存使用率超过阈值
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
ALM-18013 ResourceManager直接内存使用率超过阈值
ALM-18014 NodeManager直接内存使用率超过阈值
ALM-18015 JobHistoryServer直接内存使用率超过阈值
ALM-18016 ResourceManager非堆内存使用率超过阈值
ALM-18017 NodeManager非堆内存使用率超过阈值
ALM-18018 NodeManager堆内存使用率超过阈值
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
ALM-18020 Yarn任务执行超时
ALM-18021 Mapreduce服务不可用
ALM-18022 Yarn队列资源不足
ALM-18023 Yarn任务挂起数超过阈值
ALM-18024 Yarn任务挂起内存量超阈值
ALM-18025 Yarn被终止的任务数超过阈值
ALM-18026 Yarn上运行失败的任务数超过阈值
ALM-19000 HBase服务不可用
ALM-19006 HBase容灾同步失败
ALM-19007 HBase GC时间超出阈值
ALM-19008 HBase服务进程堆内存使用率超出阈值
ALM-19009 HBase服务进程直接内存使用率超出阈值
ALM-19011 RegionServer的Region数量超出阈值
ALM-19012 HBase系统表目录或文件丢失
ALM-19013 region处在RIT状态的时长超过阈值
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
ALM-19018 HBase合并队列超出阈值
ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
ALM-19021 RegionSever handler 使用率超过阈值
ALM-19022 HBase热点检测功能不可用
ALM-19023 HBase Region限流
ALM-19024 RegionServer RPC响应时间的P99超过阈值
ALM-19025 HBase存在损坏的StoreFile文件
ALM-19026 HBase存在损坏的WAL文件
ALM-20002 Hue服务不可用
ALM-23001 Loader服务不可用
ALM-23003 Loader任务执行失败
ALM-23004 Loader堆内存使用率超过阈值
ALM-23005 Loader非堆内存使用率超过阈值
ALM-23006 Loader直接内存使用率超过阈值
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
ALM-24000 Flume服务不可用
ALM-24001 Flume Agent异常
ALM-24003 Flume Client连接中断
ALM-24004 Flume读取数据异常
ALM-24005 Flume传输数据异常
ALM-24006 Flume Server堆内存使用率超过阈值
ALM-24007 Flume Server直接内存使用率超过阈值
ALM-24008 Flume Server非堆内存使用率超过阈值
ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
ALM-24010 Flume证书文件非法或已损坏
ALM-24011 Flume证书文件即将过期
ALM-24012 Flume证书文件已过期
ALM-24013 Flume MonitorServer证书文件非法或已损坏
ALM-24014 Flume MonitorServer证书文件即将过期
ALM-24015 Flume MonitorServer证书文件已过期
ALM-25000 LdapServer服务不可用
ALM-25004 LdapServer数据同步异常
ALM-25005 Nscd服务异常
ALM-25006 Sssd服务异常
ALM-25007 SlapdServer连接数超过阈值
ALM-25008 SlapdServer CPU使用率超过阈值
ALM-25500 KrbServer服务不可用
ALM-26051 Storm服务不可用
ALM-26052 Storm服务可用Supervisor数量小于阈值
ALM-26053 Storm Slot使用率超过阈值
ALM-26054 Nimbus堆内存使用率超过阈值
ALM-27001 DBService服务不可用
ALM-27003 DBService主备节点间心跳中断
ALM-27004 DBService主备数据不同步
ALM-27005 数据库连接数使用率超过阈值
ALM-27006 数据目录磁盘空间使用率超过阈值
ALM-27007 数据库进入只读模式
ALM-29000 Impala服务不可用
ALM-29004 Impalad进程内存占用率超过阈值
ALM-29005 Impalad JDBC连接数超过阈值
ALM-29006 Impalad ODBC连接数超过阈值
ALM-29010 Impalad 正在提交的查询总数超过阈值
ALM-29011 Impalad 正在执行的查询总数超过阈值
ALM-29012 Impalad 正在等待的查询总数超过阈值
ALM-29016 Impalad实例亚健康
ALM-29100 Kudu服务不可用
ALM-29104 Tserver进程内存占用率超过阈值
ALM-29106 Tserver进程CPU占用率过高
ALM-29107 Tserver进程内存使用百分比超过阈值
ALM-38000 Kafka服务不可用
ALM-38001 Kafka磁盘容量不足
ALM-38002 Kafka堆内存使用率超过阈值
ALM-38004 Kafka直接内存使用率超过阈值
ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
ALM-38007 Kafka默认用户状态异常
ALM-38008 Kafka数据目录状态异常
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
ALM-38010 存在单副本的Topic
ALM-38011 Broker上用户连接数使用率超过设定阈值
ALM-43001 Spark2x服务不可用
ALM-43006 JobHistory2x进程堆内存使用超出阈值
ALM-43007 JobHistory2x进程非堆内存使用超出阈值
ALM-43008 JobHistory2x进程直接内存使用超出阈值
ALM-43009 JobHistory2x进程GC时间超出阈值
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
ALM-43013 JDBCServer2x进程GC时间超出阈值
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
ALM-43018 JobHistory2x进程Full GC次数超出阈值
ALM-43019 IndexServer2x进程堆内存使用超出阈值
ALM-43020 IndexServer2x进程非堆内存使用超出阈值
ALM-43021 IndexServer2x进程直接内存使用超出阈值
ALM-43022 IndexServer2x进程GC时间超出阈值
ALM-43023 IndexServer2x进程Full GC次数超出阈值
ALM-44000 Presto服务不可用
ALM-44004 Presto Coordinator资源组排队任务超过阈值
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
ALM-44006 Presto Worker进程垃圾收集时间超出阈值
ALM-45000 HetuEngine服务不可用
ALM-45001 HetuEngine计算实例故障
ALM-45003 HetuEngine QAS磁盘容量不足
ALM-45175 OBS元数据接口调用平均时间超过阈值
ALM-45176 OBS元数据接口调用成功率低于阈值
ALM-45177 OBS数据读操作接口调用成功率低于阈值
ALM-45178 OBS数据写操作接口调用成功率低于阈值
ALM-45179 OBS readFully接口调用失败数高于阈值
ALM-45180 OBS read接口调用失败数高于阈值
ALM-45181 OBS write接口调用失败数高于阈值
ALM-45182 OBS操作被流控次数高于阈值
ALM-45275 Ranger服务不可用
ALM-45276 RangerAdmin状态异常
ALM-45277 RangerAdmin堆内存使用率超过阈值
ALM-45278 RangerAdmin直接内存使用率超过阈值
ALM-45279 RangerAdmin非堆内存使用率超过阈值
ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
ALM-45281 UserSync堆内存使用率超过阈值
ALM-45282 UserSync直接内存使用率超过阈值
ALM-45283 UserSync非堆内存使用率超过阈值
ALM-45284 UserSync垃圾回收(GC)时间超过阈值
ALM-45285 TagSync堆内存使用率超过阈值
ALM-45286 TagSync直接内存使用率超过阈值
ALM-45287 TagSync非堆内存使用率超过阈值
ALM-45288 TagSync垃圾回收(GC)时间超过阈值
ALM-45289 PolicySync堆内存使用率超过阈值
ALM-45290 PolicySync直接内存使用率超过阈值
ALM-45291 PolicySync非堆内存使用率超过阈值
ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
ALM-45325 Presto服务不可用
ALM-45326 Presto Coordinator线程数超过阈值
ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
ALM-45328 Presto Worker进程垃圾收集时间超出阈值
ALM-45329 Presto Coordinator资源组排队任务超过阈值
ALM-45330 Presto Worker线程数超过阈值
ALM-45331 Presto Worker1线程数超过阈值
ALM-45332 Presto Worker2线程数超过阈值
ALM-45333 Presto Worker3线程数超过阈值
ALM-45334 Presto Worker4线程数超过阈值
ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
ALM-45425 ClickHouse服务不可用
ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
ALM-45428 ClickHouse磁盘IO异常
ALM-45429 ClickHouse扩容节点上同步表元数据失败
ALM-45430 ClickHouse扩容节点上同步权限元数据失败
ALM-45431 ClickHouse 实例不满足拓扑分配
ALM-45432 ClickHouse用户同步进程故障
ALM-45433 ClickHouse AZ拓扑检查异常
ALM-45434 ClickHouse组件数据表中存在单副本
ALM-45435 ClickHouse表元数据不一致
ALM-45436 ClickHouse表数据倾斜
ALM-45437 ClickHouse表part数量过多
ALM-45438 ClickHouse磁盘使用率超过80%
ALM-45439 ClickHouse节点进入只读模式
ALM-45440 ClickHouse副本间不一致
ALM-45441 ZooKeeper连接断开
ALM-45442 SQL并发数过高
ALM-45443 集群存在慢SQL查询
ALM-45444 ClickHouse进程异常
ALM-45475 Kudu组件数据表中存在单副本
ALM-45476 Kudu组件进入维护模式失败
ALM-45477 Kudu组件更换磁盘后恢复数据失败
ALM-45478 Kudu组件数据均衡失败
ALM-45479 Tserver进程tablet数量超过阈值
ALM-45480 Tserver进程tablet leader分布不均衡
ALM-45585 IoTDB服务不可用
ALM-45586 IoTDBServer堆内存使用率超过阈值
ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
ALM-45588 IoTDBServer直接内存使用率超过阈值
ALM-45589 ConfigNode堆内存使用率超过阈值
ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
ALM-45591 ConfigNode直接内存使用率超过阈值
ALM-45592 IoTDBServer RPC执行时长超过阈值
ALM-45593 IoTDBServer Flush执行时长超过阈值
ALM-45594 IoTDBServer空间内合并执行时长超过阈值
ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
ALM-45596 Procedure执行失败
ALM-45615 CDL服务不可用
ALM-45616 CDL任务执行异常
ALM-45617 CDL复制槽Slot积压数据量超过阈值
ALM-45635 FlinkServer作业失败
ALM-45636 FlinkServer作业连续checkpoint失败
ALM-45636 Flink作业连续checkpoint失败
ALM-45637 FlinkServer作业task持续背压
ALM-45638 FlinkServer作业失败重启次数超阈值
ALM-45638 Flink作业失败重启次数超阈值
ALM-45639 Flink作业checkpoint完成时间超过阈值
ALM-45640 FlinkServer主备节点间心跳中断
ALM-45641 FlinkServer主备节点同步数据异常
ALM-45642 RocksDB持续触发写限流
ALM-45643 RocksDB的MemTable大小持续超过阈值
ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
ALM-45645 RocksDB的Pending Flush持续超过阈值
ALM-45646 RocksDB的Pending Compaction持续超过阈值
ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
ALM-45648 RocksDB持续发生Write-Stopped
ALM-45649 RocksDB的Get P95耗时持续超过阈值
ALM-45650 RocksDB的Write P95耗时持续超过阈值
ALM-45652 Flink服务不可用
ALM-45653 Flink HA证书文件失效
ALM-45654 Flink HA证书文件即将过期
ALM-45655 Flink HA证书文件已过期
ALM-45736 Guardian服务不可用
ALM-45737 TokenServer堆内存使用率超过阈值
ALM-45738 TokenServer直接内存使用率超过阈值
ALM-45739 TokenServer非堆内存使用率超过阈值
ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
ALM-45741 请求ECS securitykey接口失败
ALM-45742 请求ECS metadata接口失败
ALM-45743 请求IAM接口失败
ALM-50201 Doris服务不可用
ALM-50202 FE CPU使用率超过阈值
ALM-50203 FE内存使用率超过阈值
ALM-50205 BE CPU使用率超过阈值
ALM-50206 BE内存使用率超过阈值
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
ALM-50209 生成元数据镜像文件失败的次数超过阈值
ALM-50210 所有BE节点中最大的compaction score值超过阈值
ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
ALM-50212 FE进程的老年代GC耗时累计值超过阈值
ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
ALM-50216 FE节点使用的内存比率超过阈值
ALM-50217 FE节点堆内存的使用率超过阈值
ALM-50219 当前查询执行线程池等待队列的长度超过阈值
ALM-50220 TCP包接收错误的次数的比率超过阈值
ALM-50221 BE数据盘的使用率超过阈值
ALM-50222 BE中指定数据目录的磁盘状态异常
ALM-50223 BE所需最大内存大于机器剩余可用内存
ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
ALM-50225 FE实例故障
ALM-50226 BE实例故障
ALM-50401 JobServer中等待执行的任务数超过阈值
ALM-50402 JobGateway服务不可用
安全性说明
集群(未启用Kerberos认证)安全配置建议
安全认证原理和认证机制
高危操作一览表
Jupyter Notebook采用自定义Python对接MRS
简介
安装集群外节点客户端
安装Python3
配置MRS客户端
安装Jupyter Notebook
验证Jupyter Notebook访问MRS
常见问题
附录
MRS所使用的弹性云服务器规格
MRS所使用的裸金属服务器规格
数据迁移方案介绍
准备工作
元数据导出
数据拷贝
数据恢复
MRS 3.x版本操作注意事项
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
组件操作指南(普通版)
使用Alluxio
配置底层存储系统
通过数据应用访问Alluxio
Alluxio常用操作
使用CarbonData(MRS 3.x之前版本)
从零开始使用CarbonData
CarbonData表简介
创建CarbonData表
删除CarbonData表
使用CarbonData(MRS 3.x及之后版本)
概述
CarbonData简介
CarbonData主要规格
CarbonData常用参数
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库发生Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
使用ClickHouse
从零开始使用ClickHouse
ClickHouse表引擎介绍
ClickHouse表创建
ClickHouse数据类型
配置ClickHouse对接OBS
ClickHouse开启mysql_port配置
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
ALTER TABLE修改表数据
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
ClickHouse数据迁移
ClickHouse访问RDS MySql服务
ClickHouse导入DWS服务数据
ClickHouse数据导入导出
将Kafka数据同步至ClickHouse
使用ClickHouse数据迁移工具
用户管理及认证
ClickHouse用户及权限管理
ClickHouse使用OpenLDAP认证
ClickHouse集群管理
ClickHouse集群配置说明
ClickHouse增加磁盘容量
通过ELB访问ClickHouse
通过数据文件备份恢复ClickHouse数据
ClickHouse日志介绍
ClickHouse性能调优
数据表报错Too many parts解决方法
加速Merge操作
加速TTL操作
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
如何迁移Hive/HDFS的数据到ClickHouse
如何迁移OBS/S3的数据到ClickHouse
使用辅助Zookeeper或者副本数据同步表数据时,日志报错
如何为ClickHouse用户赋予数据库级别的Select权限
使用DBService
DBService日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置Flink服务参数
配置Flink安全特性
安全特性描述
认证和加密
配置对接Kafka
配置Pipeline
配置开发Flink可视化作业
Flink WebUI应用简介
Flink WebUI权限管理
创建FlinkServer角色
访问Flink WebUI
创建应用
创建集群连接
创建数据连接
创建流表
创建作业
配置管理UDF
Flink日志介绍
Flink性能调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
经验总结
Flink常见Shell命令
参考
签发证书样例
Flink重启策略
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume对接安全Hive指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
配置Flume定制脚本
Flume常见问题
使用HBase
从零开始使用HBase
使用HBase客户端
创建HBase角色
配置HBase备份
配置HBase参数
启用集群间拷贝功能
使用ReplicationSyncUp工具
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
索引数据迁移
配置RSGroup
配置HBase容灾
配置HBase数据压缩和编码
HBase容灾业务切换
HBase容灾主备集群倒换
社区BulkLoad Tool
自研增强BulkLoad Tool
按自定义方式导入数据
批量导入数据
组合rowkey
自定义rowkey实现
组合字段
指定字段数据类型
定义不适用的数据行
按自定义方式导入带有索引的数据
批量导入数据时创建二级索引
组合rowkey
自定义rowkey实现
组合字段
指定字段数据类型
定义不适用的数据行
批量更新
批量删除
获取行统计数
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
使用二级索引
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会发生“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
租户访问Phoenix提示权限不足
租户使用HBase bulkload功能提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
使用HDFS
从零开始使用Hadoop
配置HDFS常用参数
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置HDFS DataNode数据均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置LZC压缩
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS Mover
使用HDFS AZ Mover
配置HDFS DiskBalancer
配置从NameNode支持读
使用HDFS文件并发操作命令
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并发生异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅Hive管理员用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
切换Hive执行引擎为Tez
Hive支持分区元数据冷热存储
Hive支持ZSTD压缩格式
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
Hive复杂类型字段名称中包含特殊字符导致建表失败
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
如何关闭Hive客户端日志
Hive快删目录配置类问题
Hive配置类问题
使用Hudi
快速入门
基本操作
Hudi表结构
写操作指导
批量写入
流式写入
将Hudi表数据同步到Hive
读操作指导
简介
cow表视图读取
mor表视图读取
数据管理维护
Clustering
Cleaning
Compaction
Savepoint
单表并发控制
Hudi客户端使用
使用Hudi-Cli.sh操作Hudi表
配置参考
概述
写入操作配置
同步hive表配置
index相关配置
存储配置
compaction&cleaning配置
单表并发控制配置
Hudi性能调优
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue(MRS 3.x之前版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
使用Hue(MRS 3.x及之后版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
典型场景
HDFS on Hue
配置HDFS冷热数据迁移
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
Hue WebUI中Oozie编辑器的时区设置问题
访问Hue原生页面时间长,文件浏览器报错Read timed out
使用Impala
从零开始使用Impala
Impala常用参数
访问Impala的WebUI
使用Impala操作Kudu
Impala对接外部LDAP
Impala启用并配置动态资源池
使用Impala查询管理界面
Impala常见问题
Impala服务是否支持磁盘热插拔
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
基于binlog的MySQL数据同步到MRS集群中
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka扩容节点后数据均衡
Kafka Token认证机制工具使用说明
使用KafkaUI
访问KafkaUI
KafkaUI概览
在KafkaUI创建Topic
在KafkaUI进行分区迁移
使用KafkaUI管理Topic
使用KafkaUI查看Broker
使用KafkaUI查看Consumer Group
Kafka日志介绍
性能调优
Kafka性能调优
Kafka 特性说明
Kafka节点内数据迁移
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用KafkaManager
KafkaManager介绍
访问KafkaManager的WebUI
管理Kafka集群
Kafka集群监控管理
使用Loader
从零开始使用Loader
Loader使用简介
Loader常用参数
创建Loader角色
Loader连接配置说明
管理Loader连接(MRS 3.x之前版本)
管理Loader连接(MRS 3.x及之后版本)
Loader作业源连接配置说明
Loader作业目的连接配置说明
管理Loader作业
准备MySQL数据库连接的驱动
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
样例:通过Loader将数据从OBS导入HDFS
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Kudu
从零开始使用Kudu
访问Kudu的WebUI
使用Mapreduce
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用OpenTSDB
使用MRS客户端操作OpenTSDB指标数据
使用curl命令操作OpenTSDB
使用Oozie
从零开始使用Oozie
使用Oozie客户端
开启Oozie HA机制
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Streaming作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
Oozie常用排查手段
使用Presto
访问Presto的WebUI
使用客户端执行查询语句
Presto常见问题
Presto配置多Hive连接
使用Ranger(MRS 1.9.2)
创建Ranger集群
访问Ranger WebUI及同步Unix用户到Ranger WebUI
在Ranger中配置Hive/Impala的访问权限
在Ranger中配置HBase的访问权限
使用Ranger(MRS 3.x)
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
查看Ranger权限信息
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加Storm的Ranger访问权限策略
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
在Ranger管理界面查看不到创建的MRS用户
MRS用户无法同步至Ranger管理界面
使用Spark
使用前须知
从零开始使用Spark
从零开始使用Spark SQL
使用Spark客户端
访问Spark Web UI界面
Spark对接OpenTSDB
创建表关联OpenTSDB
插入数据至OpenTSDB表
查询OpenTSDB表
默认配置修改
使用Spark2x
使用前须知
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
使用Sqoop
从零开始使用Sqoop
Sqoop1.4.7适配MRS 3.x集群
Sqoop常用命令及参数介绍
Sqoop常见问题
报错找不到QueryProvider类
使用hcatalog方式同步数据,报错getHiveClient方法不存在
连接postgresql或者gaussdb时报错
使用hive-table方式同步数据到obs上的hive表报错
使用hive-table方式同步数据到orc表或者parquet表失败
使用hive-table方式同步数据报错
使用hcatalog方式同步hive parquet表报错
使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错
使用Storm
从零开始使用Storm
使用Storm客户端
使用客户端提交Storm拓扑
访问Storm的WebUI
管理Storm拓扑
查看Storm拓扑日志
Storm常用参数
配置Storm业务用户密码策略
迁移Storm业务至Flink
概述
完整迁移Storm业务
嵌入式迁移Storm业务
迁移Storm对接的外部安全组件业务
Storm日志介绍
性能调优
Storm性能调优
使用Tez
使用前须知
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问集群Manager
访问MRS Manager(MRS 3.x之前版本)
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
组件操作指南(LTS版)
使用CarbonData
概述
CarbonData简介
CarbonData主要规格
CarbonData常用参数
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库抛出Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
使用CDL
CDL使用说明
从零开始使用CDL
创建CDL用户
创建CDL作业前准备
开启Kafka高可靠功能
登录CDLService WebUI
上传驱动文件
创建数据库连接
管理ENV
配置同步任务的心跳和数据判齐
创建CDL作业
创建CDL数据同步任务作业
创建CDL数据比较任务作业
常见CDL作业示例
从PgSQL同步数据到Kafka
从PgSQL同步数据到Hudi
从Openguass同步数据到Hudi
从ThirdKafka同步openGauss数据到Hudi
从ThirdKafka同步drs-oracle-json数据库数据到Hudi
从ThirdKafka同步drs-oracle-avro数据库数据到Hudi
从Hudi同步数据到DWS
从Hudi同步数据到ClickHouse
DDL变更
CDL日志介绍
CDL常见问题
CDL任务执行后Hudi中没有接收到数据
CDL任务运行一段时间后发生“104”或“143”报错
启动从PgSQL中抓取数据到Hudi任务报错
停止CDL任务时报“403”错误
启用Ranger鉴权场景下,删除用户所有权限后,该用户仍能够操作自己创建的任务
MySQL链路任务启动时如何从指定位置抓取数据
从ogg同步数据到Hudi时,ogg Source配置的Task值与任务实际运行的Task数量不一致
CDL同步任务名对应的Topic分区过多
执行CDL同步数据到Hudi任务,报错当前用户无权限在其他用户创建的数据库中创建表
使用ClickHouse
从零开始使用ClickHouse
ClickHouse权限管理
ClickHouse用户及权限管理
配置ClickHouse默认用户密码(MRS 3.1.2-LTS版本)
配置ClickHouse默认用户密码(MRS 3.3.0-LTS版本)
清除ClickHouse默认用户密码
ClickHouse使用OpenLDAP认证
使用ClickHouse多租户
ClickHouse多租户介绍
开启CPU优先级特性
管理ClickHouse租户
修改ClickHouse服务级别内存限制
ClickHouse数据类型
ClickHouse表引擎介绍
ClickHouse表创建
修改ClickHouse表为只读表模式
收集ClickHouse系统表转储日志
ClickHouse集群管理
ClickHouse增加磁盘容量
ClickHouse数据迁移
ClickHouse访问RDS MySql服务
ClickHouse导入DWS服务数据
ClickHouse数据导入导出
将Kafka数据同步至ClickHouse
使用ClickHouse数据迁移工具
使用迁移工具快速迁移ClickHouse集群数据
ClickHouse数据批量导入
通过数据文件备份恢复ClickHouse数据
配置ClickHouse对接OBS
配置ClickHouse对接HDFS
配置ClickHouse对接Kafka
通过用户密码对接Kafka
通过Kerberos认证对接Kafka
对接普通模式Kafka
通过ELB访问ClickHouse
配置ClickHouse副本间数据强一致
配置ClickHouse支持事务能力
ClickHouse开启mysql_port配置
ClickHouse慢查询语句和复制表数据同步指标监控
慢查询语句监控
复制表数据同步监控
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
Delete轻量化删除表数据
SELECT查询表数据
ALTER TABLE修改表结构
ALTER TABLE修改表数据
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
Upsert数据写入
ClickHouse日志介绍
ClickHouse性能调优
数据表报错Too many parts解决方法
加速Merge操作
加速TTL操作
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
如何迁移Hive/HDFS的数据到ClickHouse
如何迁移OBS/S3的数据到ClickHouse
使用辅助Zookeeper或者副本数据同步表数据时,日志报错
如何为ClickHouse用户赋予数据库级别的Select权限
使用DBService
配置HA模块的SSL
还原HA模块的SSL
配置DBService备份任务超时时间
DBService日志介绍
使用Doris
安装MySQL客户端
从零开始使用Doris
Doris权限管理
访问Doris原生Web页面
Doris数据模型介绍
配置Doris高可用功能
Doris高可用介绍
通过ELB访问Doris
数据操作
数据导入
Broker Load
Stream Load
数据导出
导出数据
导出查询结果集
Doris常用SQL语法
创建数据库
创建表
插入数据
修改表结构
删除表
备份恢复Doris数据
备份Doris数据
恢复Doris数据
Hive数据源分析
多源数据目录
Hive数据源
生态扩展
Spark Doris Connector
Flink Doris Connector
Doris常见问题
数据目录SSD和HDD的配置导致建表时偶现报错Failed to find enough host with storage medium and tag
多副本场景下,如果有部分副本丢失损坏,查询时如果运行在副本丢失的Be节点,查询报错
使用Stream Load时报RPC超时错误
FE服务故障恢复
使用MySQL客户端连接Doris数据库时报错“plugin not enabled”如何处理
FE启动失败
BE匹配错误IP导致启动失败
MySQL客户端连接Doris报错“Read timed out”
BE运行数据导入或查询任务报错
Broker Load导入数据时报超时错误
Broker Load导入任务的数据量超过阈值
使用Broker Load导入数据报错
Doris日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置Flink服务参数
配置Flink安全特性
安全特性描述
认证和加密
配置对接Kafka
配置Pipeline
配置开发Flink可视化作业
Flink WebUI应用简介
Flink WebUI权限管理
创建FlinkServer角色
访问Flink WebUI
创建应用
创建集群连接
创建数据连接
创建流表
创建作业
配置依赖管理
配置管理UDF
Flink UDF重用
导入导出作业
Flink作业级巡检能力
配置FlinkServer对接其他组件
FlinkServer对接ClickHouse
FlinkServer对接GaussDB(DWS)
FlinkServer对接HBase
FlinkServer对接HDFS
FlinkServer对接Hive
FlinkServer对接Hudi
FlinkServer对接Kafka
配置任务运行残留信息清理
Flink日志介绍
Flink性能调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
状态后端优化
RocksDB状态后端调优
开启状态后端冷热分级存储
经验总结
Flink常见Shell命令
Flink重启策略
FlinkSQL特性增强
FlinkSQL DISTRIBUTEBY
FlinkSQL窗口函数支持迟到数据
Flink多流Join配置表级别TTL
FlinkSQL Client SQL校验
FlinkSQL Client提交作业
Flink作业大小表Join
Flink作业大小表Join去重
FlinkSQL支持设置Source的并发
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
安装Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume对接安全Hive指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
配置Flume定制脚本
Flume常见问题
使用HBase
从零开始使用HBase
使用HBase客户端
创建HBase角色
配置HBase备份
启用集群间拷贝功能
使用ReplicationSyncUp工具
自研增强Phoenix
CsvBulkloadTool支持解析数据文件中的自定义分隔符
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
使用全局二级索引
全局二级索引介绍
全局二级索引限制与约束
使用全局二级索引工具
创建索引
索引信息查询
删除索引
修改索引状态
索引数据批量构建
索引一致性检查与修复
全局二级索引API介绍
基于索引查询数据
配置RSGroup
配置HBase容灾
配置HBase数据压缩和编码
HBase容灾业务切换
HBase容灾主备集群倒换
社区BulkLoad Tool
自研增强BulkLoad Tool
按自定义方式导入数据
批量导入数据
组合rowkey
自定义rowkey实现
组合字段
指定字段数据类型
定义不适用的数据行
按自定义方式导入带有索引的数据
批量导入数据时创建二级索引
组合rowkey
自定义rowkey实现
组合字段
指定字段数据类型
定义不适用的数据行
批量更新
批量删除
获取行统计数
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
开启HBase分时Compaction功能
使用二级索引
查看HBase慢请求和超大请求
HBase冷热分离
冷热分离概述
开启HBase冷热分离功能
HBase冷热分离相关命令
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
租户访问Phoenix提示权限不足
租户使用HBase bulkload功能提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
如何查看ENABLED表的CLOSED状态的Region
集群异常掉电导致HBase文件损坏,如何快速自恢复?
使用HDFS
从零开始使用Hadoop
配置HDFS常用参数
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置HDFS DataNode数据均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置LZC压缩
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS Mover
使用HDFS AZ Mover
配置HDFS DiskBalancer
配置从NameNode支持读
使用HDFS文件并发操作命令
配置HDFS快速关闭文件
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并抛出异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用HetuEngine
从零开始使用HetuEngine
HetuEngine权限管理
HetuEngine权限管理概述
HetuEngine基于Ranger权限管控
HetuEngine基于MetaStore权限管控
HetuEngine使用代理用户鉴权
创建HetuEngine用户
创建HetuEngine计算实例
管理HetuEngine计算实例
配置资源组
配置Worker节点数量
配置HetuEngine维护实例
导入导出计算实例配置
查看实例监控页面
查看Coordinator和Worker日志
配置查询容错执行能力
使用HetuEngine客户端
使用HetuEngine跨源功能
使用HetuEngine跨域功能
配置数据源
配置数据源前必读
配置Hive数据源
配置共部署Hive数据源
配置独立部署Hive数据源
配置Hudi格式数据源
配置ClickHouse数据源
配置GAUSSDB数据源
配置HBase数据源
配置HetuEngine数据源
配置IoTDB数据源
配置MySQL数据源
管理已配置的数据源
使用HetuEngine物化视图
物化视图概述
物化视图SQL示例
配置物化视图改写能力
配置物化视图推荐能力
配置物化视图缓存能力
配置物化视图的有效期与数据刷新能力
配置智能物化视图能力
查看物化视图自动化任务
使用HetuEngine SQL诊断功能
开发和应用Function及UDF功能
开发和应用HetuEngine Function Plugin
开发和应用Hive UDF
开发和应用HetuEngine UDF
HetuEngine日志介绍
HetuEngine性能调优
调整Yarn服务配置
调整集群节点资源配置
调整INSERT写入优化
调整元数据缓存
调整CTE(公用表表达式)配置
调整动态过滤
调整自适应查询执行
调整Hive元数据超时
HetuEngine常见问题
如何进行域名修改后的相关操作
如何处理通过客户端启动集群超时
如何处理数据源丢失问题
如何处理HetuEngine告警
如何处理计算实例启动失败报错Python不存在
如何处理计算实例启动30秒后直接故障
HetuEngine SQL语法
数据类型
数据类型介绍
布尔类型
整数类型
固定精度型
浮点型
字符类型
时间和日期类型
复杂类型
SQL 语法
DDL 语法
CREATE SCHEMA
CREATE VIRTUAL SCHEMA
CREATE TABLE
CREATE TABLE AS
CREATE TABLE LIKE
CREATE VIEW
CREATE FUNCTION
CREATE MATERIALIZED VIEW
ALTER MATERIALIZED VIEW STATUS
ALTER MATERIALIZED VIEW
ALTER TABLE
ALTER VIEW
ALTER SCHEMA
DROP SCHEMA
DROP TABLE
DROP VIEW
DROP FUNCTION
DROP MATERIALIZED VIEW
REFRESH MATERIALIZED VIEW
TRUNCATE TABLE
COMMENT
VALUES
SHOW语法使用概要
SHOW CATALOGS
SHOW SCHEMAS(DATABASES)
SHOW TABLES
SHOW TBLPROPERTIES TABLE|VIEW
SHOW TABLE/PARTITION EXTENDED
SHOW STATS
SHOW FUNCTIONS
SHOW SESSION
SHOW PARTITIONS
SHOW COLUMNS
SHOW CREATE TABLE
SHOW VIEWS
SHOW CREATE VIEW
SHOW MATERIALIZED VIEWS
SHOW CREATE MATERIALIZED VIEW
DML 语法
INSERT
DELETE
UPDATE
LOAD
TCL 语法
START TRANSACTION
COMMIT
ROLLBACK
DQL 语法
SELECT
WITH
GROUP BY
HAVING
UNION | INTERSECT | EXCEPT
ORDER BY
OFFSET
LIMIT | FETCH FIRST
TABLESAMPLE
UNNEST
JOINS
Subqueries
SELECT VIEW CONTENT
REWRITE HINT
辅助命令语法
USE
SET SESSION
RESET SESSION
DESCRIBE
DESCRIBE FORMATTED COLUMNS
DESCRIBE DATABASE| SCHEMA
DESCRIBE INPUT
DESCRIBE OUTPUT
EXPLAIN
EXPLAIN ANALYZE
REFRESH CATALOG
REFRESH SCHEMA
REFRESH TABLE
ANALYZE
CALL
PREPARE
DEALLOCATE PREPARE
EXECUTE
VERIFY
预留关键字
SQL函数和操作符
逻辑运算符
比较函数和运算符
条件表达式
Lambda 表达式
转换函数
数学函数和运算符
Bitwise函数
十进制函数和操作符
字符串函数和运算符
正则表达式函数
二进制函数和运算符
Json函数和运算符
日期、时间函数及运算符
聚合函数
窗口函数
数组函数和运算符
Map函数和运算符
URL函数
Geospatial函数
HyperLogLog函数
UUID函数
Color 函数
Session信息
Teradata函数
Data masking函数
IP Address函数
Quantile digest函数
T-Digest函数
Set Digest函数
数据类型隐式转换
简介
开启/关闭隐式转换功能
开启隐式转换
关闭隐式转换
隐式转换对照表
附录
本文样例表数据准备
常用数据源语法兼容性
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅Hive管理员用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
Hive支持MetaStore根据组件隔离
切换Hive执行引擎为Tez
Hive支持读取Hudi表
Hive支持分区元数据冷热存储
Hive支持ZSTD压缩格式
Hive分区表支持OBS和HDFS存储源
Hive异常文件定位定界工具
使用ZSTD_JNI压缩算法压缩Hive ORC表
HiveMetaStore客户端连接支持负载均衡
Hive数据导入导出
Hive表/分区数据导入导出
Hive数据库导入导出
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
Hive复杂类型字段名称中包含特殊字符导致建表失败
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
如何关闭Hive客户端日志
Hive快删目录配置类问题
Hive配置类问题
使用Hudi
快速入门
Hudi常用参数
基本操作
Hudi表结构
写操作指导
批量写入
流式写入
将Hudi表数据同步到Hive
读操作指导
简介
cow表视图读取
mor表视图读取
数据管理维护
Clustering
Cleaning
Compaction
Savepoint
单表并发控制
分区并发控制
历史数据清理
使用Hudi Payload
Hudi客户端使用
使用Hudi-Cli.sh操作Hudi表
Hudi SQL语法参考
使用约束
DDL
CREATE TABLE
CREATE TABLE AS SELECT
DROP TABLE
SHOW TABLE
ALTER RENAME TABLE
ALTER ADD COLUMNS
ALTER COLUMN
TRUNCATE TABLE
DML
INSERT INTO
MERGE INTO
UPDATE
DELETE
COMPACTION
SET/RESET
ARCHIVELOG
CLEAN
CLEANARCHIVE
CALL COMMAND (MRS 3.2.0及之后版本)
CHANGE_TABLE
CLEAN_FILE
SHOW_TIME_LINE
SHOW_HOODIE_PROPERTIES
SAVE_POINT
ROLL_BACK
CLUSTERING
Cleaning
Compaction
SHOW_COMMIT_FILES
SHOW_FS_PATH_DETAIL
SHOW_LOG_FILE
SHOW_INVALID_PARQUET
Hudi Schema演进
Schema演进介绍
Schema演进支持范围
SparkSQL支持Schema演进及语法说明
功能开启
新增列操作
更新列操作
删除列操作
修改表名操作
表属性修改操作
修改列名称
Schema演进并发
Hudi支持列设置默认值
Hudi性能调优
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
Hue WebUI使用HetuEngine SQL编辑器
典型场景
HDFS on Hue
配置HDFS冷热数据迁移
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
Hue WebUI中Oozie编辑器的时区设置问题
访问Hue原生页面时间长,文件浏览器报错Read timed out
使用IoTDB
从零开始使用IoTDB
使用IoTDB客户端
配置IoTDB常用参数
IoTDB支持的数据类型和编码
IoTDB权限管理
IoTDB权限介绍
创建IoTDB角色
IoTDB日志介绍
用户自定义函数(UDF)
UDF概述
UDF样例程序与操作
IoTDB数据导入与导出
IoTDB数据导入
IoTDB数据导出
规划IoTDB容量
IoTDB性能调优
使用JobGateway
从零使用JobGateway
JobGateway常用参数配置
JobGateway日志介绍
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
基于binlog的MySQL数据同步到MRS集群中
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka Token认证机制工具使用说明
使用KafkaUI
访问KafkaUI
KafkaUI概览
在KafkaUI创建Topic
在KafkaUI进行分区迁移
使用KafkaUI管理Topic
使用KafkaUI查看Broker
使用KafkaUI查看Consumer Group
Kafka日志介绍
性能调优
Kafka性能调优
Kafka 特性说明
Kafka节点内数据迁移
Kafka配置内外网访问
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用Loader
Loader常用参数
创建Loader角色
管理Loader连接
准备MySQL数据库连接的驱动
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HDFS导出数据到MOTService
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
典型场景:从HDFS导出数据到ClickHouse
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
清理Loader历史数据
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
SQLServer全数据类型导入HDFS数据跳过
大量数据写入HDFS时报错
sftp-connector连接器相关作业运行失败
使用Mapreduce
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用Oozie
从零开始使用Oozie
使用Oozie客户端
开启Oozie HA机制
使用Share Lib检查工具
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Streaming作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
Oozie常用排查手段
使用Ranger
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
查看Ranger权限信息
添加CDL的Ranger访问权限策略
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加HetuEngine的Ranger访问权限策略
添加OBS的Ranger访问权限策略
Hive表支持级联授权功能
配置RangerKMS多实例
使用RangerKMS原生UI管理权限及密钥
Ranger规格配置
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
RangerKMS鉴权失败,Ranger管理界面无KMS页签
使用Spark/Spark2x
Spark/Spark2x服务名称说明
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
配置Drop Partition命令支持批量删除
配置Executor退出时执行自定义代码
配置Structured Streaming使用RocksDB做状态存储
配置Spark Native引擎
配置小文件自动合并
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
Spark中使用代理用户提交Spark任务
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark on OBS调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
Spark多服务场景下,普通用户无法登录Spark客户端
安装使用集群外客户端时,连接集群端口失败
Datasource Avro格式查询异常
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
SQL语法兼容TIMESTAMP/DATE特殊字符
Spark客户端设置回收站version不生效
Spark yarn-client模式下如何修改日志级别为INFO
使用Tez
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
TimelineServer支持HA
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问集群Manager
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端
更新客户端
最佳实践
数据分析
使用Spark2x实现车联网车主驾驶行为分析
使用Hive加载HDFS数据并分析图书评分情况
使用Hive加载OBS数据并分析企业雇员信息
通过Flink作业处理OBS数据
通过Spark Streaming作业消费Kafka数据
通过Flume采集指定目录日志系统文件至HDFS
基于Kafka的Word Count数据流统计案例
数据迁移
数据迁移方案介绍
准备工作
元数据导出
数据拷贝
数据恢复
数据迁移到MRS前信息收集
数据迁移到MRS前网络准备
数据迁移网络端口要求
Hadoop数据迁移到华为云MRS服务
HBase数据迁移到华为云MRS服务
Hive数据迁移到华为云MRS服务
使用BulkLoad向HBase中批量导入数据
MySQL数据迁移到MRS集群Hive分区表
MRS HDFS数据迁移到OBS
数据备份与恢复
元数据备份恢复说明
HDFS数据
Hive元数据
Hive数据
HBase数据
Kafka数据
系统对接
MRS对接LakeFormation
概述
准备工作
创建集群时配置LakeFormation数据连接
通过Ranger为MRS集群内用户绑定LakeFormation角色
使用DBeaver访问Phoenix
使用DBeaver访问HetuEngine
使用FineBI访问HetuEngine
使用Tableau访问HetuEngine
使用永洪BI访问HetuEngine
Hive对接外置自建关系型数据库
Hive对接CSS服务
Hive对接外部LDAP
使用MRS Spark SQL访问DWS
MRS Kafka对接Kafka Eagle
ClickHouse设计开发规范
规范概述
数据库规划
集群规划
集群业务规划
数据分布设计
容量规划设计
依赖服务设计
数据库设计
DataBase设计
业务隔离设计规范
命名规范设计
表引擎使用场景选择
宽表设计
宽表设计原则
表命名规范
表字段设计
本地表设计
分布式表设计
分区设计
索引设计
物化视图设计
物化视图设计约束
普通物化视图与projection对比
普通物化视图
Projection
逻辑视图设计
数据库开发
数据入库
数据入库工具
数据入库规范
数据查询
数据查询
数据修改
数据merge
数据库应用开发
数据库调优
调优思路
系统调优
SQL调优
最佳实践参数调整
数据库运维
日志
日志运维管理
日志管理规则
日志详细信息
开发指南
开发指南(LTS版)
简介
通过开源镜像站获取样例工程
MRS各组件样例工程汇总
组件应用开发快速入门
使用开源jar包冲突列表
HBase
HDFS
Kafka
Spark2x
Maven仓库的jar版本与MRS集群版本的对应关系
安全认证
安全认证原理和认证机制
准备开发用户
认证失败处理FAQ
ClickHouse开发指南(安全模式)
概述
ClickHouse简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
配置并导入事务样例工程
配置并导入springboot样例工程
开发程序
典型场景说明
开发思路
样例代码说明
设置属性
建立连接
创建库
创建表
插入数据
查询数据
删除表
调测程序(MRS 3.3.0之前版本)
在Windows下调测程序
在Linux下调测程序
调测程序(MRS 3.3.0及之后版本)
在Windows下调测程序
在Linux下调测程序
调测springboot样例程序
在Windows下调测springboot程序
在linux下调测springboot程序
ClickHouse开发指南(普通模式)
概述
ClickHouse简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
配置并导入事务样例工程
配置并导入springboot样例工程
开发程序
典型场景说明
开发思路
样例代码说明
设置属性
建立连接
创建库
创建表
插入数据
查询数据
删除表
调测程序(MRS 3.3.0之前版本)
在Windows下调测程序
在Linux下调测程序
调测程序(MRS 3.3.0及之后版本)
在Windows下调测程序
在Linux下调测程序
调测springboot样例程序
在Windows下调测springboot程序
在linux下调测springboot程序
Doris开发指南(安全模式)
概述
Doris简介
常用概念
开发流程
Doris样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入JDBC样例工程
配置并导入SpringBoot样例工程
Doris JDBC接口调用样例程序
典型场景说明
开发思路
建立连接
创建数据库
创建表
插入数据
查询数据
删除表
调测程序
在Windows下调测程序
编译并运行程序
查看Windows调测结果
在Linux下调测程序
编译并运行程序
查看Linux调测结果
Doris开发指南(普通模式)
概述
Doris简介
常用概念
开发流程
Doris样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入JDBC样例工程
配置并导入SpringBoot样例工程
Doris JDBC接口调用样例程序
典型场景说明
开发思路
建立连接
创建数据库
创建表
插入数据
查询数据
删除表
调测程序
在Windows下调测程序
编译并运行程序
查看Windows调测结果
在Linux下调测程序
编译并运行程序
查看Linux调测结果
Flink开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
新建工程(可选)
准备安全认证
配置SpringBoot样例工程
开发程序
DataStream程序
场景说明
Java样例代码
Scala样例代码
向Kafka生产并消费数据程序
场景说明
Java样例代码
Scala样例代码
异步Checkpoint机制程序
场景说明
Java样例代码
Scala样例代码
Job Pipeline程序
场景说明
Java样例代码
Scala样例代码
Stream SQL Join程序
场景说明
Java样例代码
Scala样例代码
使用Flink Jar提交SQL作业
场景说明
Java样例代码
FlinkServer REST API JavaExample
场景说明
Java样例代码
使用代理用户访问Flinkserver REST API Java样例代码
Flink读写HBase
场景说明
Java样例代码
Flink读写Hudi
场景说明
Java样例代码
Python开发程序样例
使用Python提交普通作业
场景说明
Python样例代码
运行程序
使用Python提交SQL作业
场景说明
Python样例代码
运行程序
调测程序
编包并运行程序
查看调测结果
SpringBoot样例工程运行及结果查看
更多信息
常用API介绍
Java
scala
REST API介绍
Savepoints CLI介绍
Flink Client CLI介绍
FAQ
Savepoints相关问题解决方案
如何处理用户在使用chrome浏览器时无法显示title的问题
如何处理IE10/11页面显示异常的问题
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足
为什么Flink Web页面无法直接连接
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
GLIBC版本问题
Flink开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
新建工程(可选)
配置SpringBoot样例工程
开发程序
DataStream程序
场景说明
Java样例代码
Scala样例代码
向Kafka生产并消费数据程序
场景说明
Java样例代码
Scala样例代码
异步Checkpoint机制程序
场景说明
Java样例代码
Scala样例代码
Job Pipeline程序
场景说明
Java样例代码
Scala样例代码
Stream SQL Join程序
场景说明
Java样例代码
Scala样例代码
使用Flink Jar提交SQL作业
场景说明
Java样例代码
FlinkServer REST API JavaExample
使用代理用户访问Flinkserver REST API Java样例代码
Flink读写HBase
场景说明
Java样例代码
Flink读写Hudi
场景说明
Java样例代码
Python开发程序样例
使用Python提交普通作业
场景说明
Python样例代码
运行程序
使用Python提交SQL作业
场景说明
Python样例代码
运行程序
调测程序
编包并运行程序
查看调测结果
SpringBoot样例工程运行及结果查看
更多信息
常用API介绍
Java
Scala
REST API介绍
Savepoints CLI介绍
Flink Client CLI介绍
FAQ
Savepoints相关问题解决方案
如何处理用户在使用chrome浏览器时无法显示title的问题
如何处理IE10/11页面显示异常的问题
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足
为什么Flink Web页面无法直接连接
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
GLIBC版本问题
HBase开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
准备安全认证
准备认证机制代码
互信场景多实例认证
访问HBase REST服务认证
访问ThriftServer服务认证
访问多ZooKeeper场景认证
HBase/Phoenix对接SpringBoot样例安全认证
开发程序
HBase数据读写示例程序
典型场景说明
开发思路
创建Configuration
创建Connection
创建表
删除表
修改表
插入数据
删除数据
使用Get读取数据
使用Scan读取数据
使用过滤器Filter
创建二级索引
删除索引
基于二级索引的查询
Region的多点分割
创建Phoenix表
写Phoenix表
读Phoenix表
使用HBase双读
Log4j日志输出配置
HBase全局二级索引样例程序
业务场景说明
创建HBase全局二级索引
全局二级索引信息查询
基于全局二级索引的查询
禁用全局二级索引
删除全局二级索引
HBase Rest接口调用样例程序
使用REST获取所有表
使用REST查询集群信息
使用REST操作Namespace
使用REST操作表
访问HBase ThriftServer样例程序
访问ThriftServer操作表
访问ThriftServer写数据
访问ThriftServer读数据
HBase访问多个ZooKeeper样例程序
访问多ZooKeeper
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看Linux调测结果
更多信息
SQL查询
HBase双读配置项
对外接口
Shell
Java API
Sqlline
JDBC API
Web UI
Phoenix命令行
FAQ
运行HBase应用开发程序产生异常,提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法
bulkload和put应用场景
install构建jar包,提示Could not transfer artifact org.apache.commons:commons-crypto:pom:${commons-crypto.version} from/to huaweicloudsdk
HBase开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
开发程序
HBase数据读写示例程序
典型场景说明
开发思路
创建Configuration
创建Connection
创建表
删除表
修改表
插入数据
删除数据
使用Get读取数据
使用Scan读取数据
使用过滤器Filter
创建二级索引
删除索引
基于二级索引的查询
Region的多点分割
创建Phoenix表
写Phoenix表
读Phoenix表
使用HBase双读
Log4j日志输出配置
HBase全局二级索引样例程序
业务场景说明
创建HBase全局二级索引
全局二级索引信息查询
基于全局二级索引的查询
禁用全局二级索引
删除全局二级索引
HBase Rest接口调用样例程序
使用REST查询集群信息
使用REST获取所有表
使用REST操作Namespace
使用REST操作表
访问HBase ThriftServer样例程序
访问ThriftServer操作表
访问ThriftServer写数据
访问ThriftServer读数据
HBase访问多个ZooKeeper样例程序
访问多ZooKeeper
HBase/Phoenix对接SpringBoot样例配置
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看Linux调测结果
更多信息
SQL查询
HBase双读配置项
对外接口
Shell
Java API
Sqlline
JDBC API
Web UI
Phoenix命令行
FAQ
运行HBase应用开发程序产生异常,提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法
bulkload和put应用场景
install构建jar包,提示Could not transfer artifact org.apache.commons:commons-crypto:pom:${commons-crypto.version} from/to huaweicloudsdk
HDFS开发指南(安全模式)
概述
HDFS简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
准备安全认证
开发程序
场景说明
开发思路
样例代码说明
HDFS初始化
创建目录
写文件
追加文件内容
读文件
删除文件
删除目录
多线程任务
设置存储策略
Colocation
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
C API
HTTP REST API
Shell命令介绍
配置Windows通过EIP访问安全模式集群HDFS
HDFS开发指南(普通模式)
概述
HDFS简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
开发程序
场景说明
开发思路
样例代码说明
HDFS初始化
创建目录
写文件
追加文件内容
读文件
删除文件
删除目录
多线程任务
设置存储策略
Colocation
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
C API
HTTP REST API
Shell命令介绍
配置Windows通过EIP访问普通模式集群HDFS
HetuEngine开发指南(安全模式)
概述
HetuEngine简介
常用概念
连接方式说明
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
配置Python3样例工程
准备安全认证
通过HSFabric实现KeyTab文件认证
通过HSFabric实现用户名密码认证
通过HSBroker实现用户名密码认证
开发程序
典型场景说明
Java样例代码
通过HSFabric实现KeyTab文件认证
通过HSFabric实现用户名密码认证
通过JDBC方式实现查询SQL任务执行进度和状态
通过HSBroker实现用户名密码认证
Python3样例代码
通过HSBroker实现用户名密码认证
通过HSFabric实现用户名密码认证
通过HSFabric实现KeyTab文件认证
调测程序
在Windows中调测程序
在Linux中调测程序
调测Python3样例程序
HetuEngine开发指南(普通模式)
概述
HetuEngine简介
常用概念
连接方式说明
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
配置Python3样例工程
开发程序
典型场景说明
Java样例代码
通过HSFabric方式访问Hive数据源
通过HSBroker方式访问Hive数据源
通过JDBC方式实现查询SQL任务执行进度和状态
Python3样例代码
通过HSBroker方式访问Hive数据源
通过HSFabric方式访问Hive数据源
调测程序
在Windows中调测程序
在Linux中调测程序
调测Python3样例程序
Hive开发指南(安全模式)
概述
应用开发简介
常用概念
权限要求
开发流程
环境准备
准备开发和运行环境
配置JDBC样例工程
配置HCatalog样例工程
配置Python样例工程
配置Python3样例工程
配置SpringBoot样例工程
开发程序
典型场景说明
样例代码
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
访问多ZooKeeper
调测程序
JDBC样例工程运行及结果查看
HCatalog样例工程运行及结果查看
Python样例工程运行及结果查看
Python3样例工程运行及结果查看
SpringBoot样例工程运行及结果查看
更多信息
对外接口
JDBC
Hive SQL
WebHCat
配置Windows通过EIP访问安全模式集群Hive
FAQ
使用二次开发程序产生异常,提示“Unable to read HiveServer2 configs from ZooKeeper”信息
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Hive SQL与SQL2003标准兼容性问题
Hive开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置JDBC样例工程
配置HCatalog样例工程
配置Python样例工程
配置Python3样例工程
配置SpringBoot样例工程
开发程序
典型场景说明
样例代码
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
访问多ZooKeeper
调测程序
JDBC样例工程运行及结果查看
HCatalog样例工程运行及结果查看
Python样例工程运行及结果查看
Python3样例工程运行及结果查看
SpringBoot样例工程运行及结果查看
更多信息
对外接口
JDBC
Hive SQL
WebHCat
配置Windows通过EIP访问普通模式集群Hive
FAQ
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
IoTDB开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
IoTDB样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
开发程序
IoTDB JDBC程序
Java样例代码
使用keytab文件进行JDBC认证
IoTDB Session程序
Java样例代码
使用Keytab文件进行Session认证
IoTDB Flink程序
FlinkIoTDBSink
FlinkIoTDBSource
IoTDB Kafka程序
Java样例代码
IoTDB 自定义函数(UDF)程序
IoTDB UDF样例代码
调测程序
在Windows中调测程序
编译和运行程序
查看调测结果
在Linux中调测JDBC、Session程序
编译和运行程序
查看调测结果
在Flink WebUI和Linux中调测Flink程序
编译和运行程序
查看调测结果
在Linux中调测Kafka程序
编译和运行程序
查看调测结果
使用UDF
注册UDF
使用UDF进行查询
卸载UDF
更多信息
常用API介绍
Java API
IoTDB开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
IoTDB样例工程介绍
环境准备
准备开发和运行环境
准备连接集群配置文件
配置并导入样例工程
开发程序
IoTDB JDBC程序
Java样例代码
IoTDB Session程序
Java样例代码
IoTDB Flink程序
FlinkIoTDBSink
FlinkIoTDBSource
IoTDB Kafka程序
Java样例代码
IoTDB 自定义函数(UDF)程序
IoTDB UDF样例代码
调测程序
在Windows中调测程序
编译和运行程序
查看调测结果
在Linux中调测JDBC、Session程序
编译和运行程序
查看调测结果
在Flink WebUI和Linux中调测Flink程序
编译和运行程序
查看调测结果
在Linux中调测Kafka程序
编译和运行程序
查看调测结果
使用UDF
注册UDF
使用UDF进行查询
卸载UDF
更多信息
常用API介绍
Java API
Kafka开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Kafka样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
准备安全认证
Sasl Kerberos认证
Sasl Plaintext认证
Kafka Token认证
开发程序
典型场景说明
典型场景样例代码说明
Producer API使用样例
Consumer API使用样例
多线程Producer样例
多线程Consumer样例
KafkaStreams样例
Kafka对接SpringBoot样例
调测程序
调测Producer样例
调测Consumer样例
调测High level Streams样例
调测Low level Streams样例
Kafka Token认证机制样例运行指导
调测SpringBoot样例
更多信息
对外接口
Shell命令
Java API
安全接口说明
客户端SSL加密功能使用说明
配置Windows通过EIP访问集群Kafka
FAQ
样例运行时提示Topic鉴权失败“example-metric1=TOPIC_AUTHORIZATION_FAILED”
已经拥有Topic访问权限,但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法
Kafka开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Kafka样例工程简介
环境准备
准备开发环境
准备运行环境配置文件
配置并导入样例工程
开发程序
典型场景说明
典型场景样例代码说明
Producer API样例
Consumer API样例
多线程Producer样例
多线程Consumer样例
KafkaStreams样例
调测程序
调测Producer样例
调测Consumer样例
调测High Level KafkaStreams API样例
调测Low Level KafkaStreams API样例
更多信息
对外接口
Shell命令
Java API
配置Windows通过EIP访问集群Kafka
FAQ
已经拥有Topic访问权限,但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法
MapReduce开发指南(安全模式)
概述
MapReduce简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
创建工程(可选)
准备安全认证
开发程序
MapReduce统计样例程序
典型场景说明
样例代码说明
MapReduce访问多组件样例程序
场景说明
样例代码
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
在Linux环境中运行程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
REST API
FAQ
提交MapReduce任务时客户端长时间无响应
网络问题导致运行应用程序时出现异常
MapReduce二次开发远程调试
MapReduce开发指南(普通模式)
概述
MapReduce简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
创建工程(可选)
开发程序
MapReduce统计样例程序
典型场景说明
样例代码说明
MapReduce访问多组件样例程序
场景说明
样例代码
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
在Linux环境中运行程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
REST API
FAQ
提交MapReduce任务时客户端长时间无响应
MapReduce二次开发远程调试
Oozie开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
下载并导入样例工程
准备安全认证代码
开发程序
配置文件开发
场景说明
开发步骤
代码样例
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
JAVA开发
场景说明
代码样例
使用Oozie调度Spark2x访问HBase以及Hive
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Shell
Java
REST
Oozie开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
下载并导入样例工程
开发程序
配置文件开发
场景说明
开发步骤
代码样例
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
JAVA开发
场景说明
代码样例
使用Oozie调度Spark2x访问HBase以及Hive
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Shell
Java
Rest
Spark2x开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
新建工程(可选)
准备安全认证
配置Python3样例工程
开发程序
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Spark on HBase程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartitions接口使用
SparkStreaming批量写入HBase表
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark Streaming对接Kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Structured Streaming流流Join
场景说明
Scala样例代码
Structured Streaming 状态操作
场景说明
Scala样例代码
Spark同时访问两个HBase
场景说明
Scala样例代码
Spark同步HBase数据到CarbonData
场景说明
Java样例代码
使用Spark执行Hudi基本操作
场景说明
Scala样例代码
Python样例代码
Java样例代码
Hudi的自定义配置项
HoodieDeltaStreamer
自定义排序器
调测程序
在Windows中调测程序
配置Windows通过EIP访问集群Spark
编包并运行程序
查看调试结果
在linux中调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
Scala
Python
REST API
常用CLI介绍
JDBCServer接口介绍
structured streaming功能与可靠性介绍
FAQ
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
SparkSQL UDF功能的权限控制机制
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Spark2x开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
配置并导入样例工程
新建工程(可选)
配置Python3样例工程
开发程序
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Spark on HBase程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartition接口使用
SparkStreaming批量写入HBase表
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
Streaming对接Kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Structured Streaming流流Join
场景说明
Scala样例代码
Structured Streaming 状态操作
场景说明
Scala样例代码
Spark同步HBase数据到CarbonData
场景说明
Java样例代码
使用Spark执行Hudi基本操作
场景说明
Scala样例代码
Python样例代码
Java样例代码
Hudi的自定义配置项
HoodieDeltaStreamer
自定义排序器
调测程序
在Windows中调测程序
配置Windows通过EIP访问集群Spark
编包并运行程序
查看调试结果
在linux中调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
Scala
Python
REST API
常用CLI介绍
JDBCServer接口介绍
structured streaming功能与可靠性介绍
FAQ
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码规避方案
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
YARN开发指南(安全模式)
概述
对外接口
Command
Java API
REST API
REST APIs of Superior Scheduler
YARN开发指南(普通模式)
概述
对外接口
Command
Java API
REST API
REST APIs of Superior Scheduler
Manager管理开发指南
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
配置并导入样例工程
开发程序
典型场景说明
开发思路
样例代码说明
登录认证
添加用户
查找用户
修改用户
删除用户
导出用户列表
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
更多信息
对外接口
Java API
FAQ
本地用JDK1.6连接JDK1.8服务端的问题
操作失败,且日志显示“authorize failed”
操作失败,且日志显示“log4j:WARN No appenders could be found for logger(basicAuth.Main)”
操作失败,日志出现“illegal character in path at index 57”
curl命令访问REST API
开发指南(普通版_3.x)
简介
通过开源镜像站获取样例工程
MRS各组件样例工程汇总
组件应用开发快速入门
使用开源jar包冲突列表
HBase
HDFS
Kafka
Spark2x
Maven仓库的jar版本与MRS集群版本的对应关系
安全认证
安全认证原理和认证机制
准备开发用户
认证失败处理FAQ
ClickHouse开发指南(安全模式)
概述
ClickHouse简介
常用概念
开发流程
ClickHouse样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
开发程序
典型场景说明
开发思路
样例代码说明
设置属性
建立连接
创建库
创建表
插入数据
查询数据
删除表
调测程序
在Windows下调测程序
在Linux下调测程序
ClickHouse开发指南(普通模式)
概述
ClickHouse简介
常用概念
开发流程
ClickHouse样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
开发程序
典型场景说明
开发思路
样例代码说明
设置属性
建立连接
创建库
创建表
插入数据
查询数据
删除表
调测程序
在Windows下调测程序
在Linux下调测程序
Flink开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Flink样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
新建工程(可选)
准备安全认证
开发程序
DataStream程序
场景说明
Java样例代码
Scala样例代码
向Kafka生产并消费数据程序
场景说明
Java样例代码
Scala样例代码
异步Checkpoint机制程序
场景说明
Java样例代码
Scala样例代码
Job Pipeline程序
场景说明
Java样例代码
Scala样例代码
Stream SQL Join程序
场景说明
Java样例代码
调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
scala
REST API介绍
Savepoints CLI介绍
Flink Client CLI介绍
FAQ
Savepoints相关问题解决方案
如何处理用户在使用chrome浏览器时无法显示title的问题
如何处理IE10/11页面显示异常的问题
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足
为什么Flink Web页面无法直接连接
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
GLIBC版本问题
Flink开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Flink样例工程介绍
环境准备
准备开发和运行环境
配置并导入样例工程
新建工程(可选)
开发程序
DataStream程序
场景说明
Java样例代码
Scala样例代码
向Kafka生产并消费数据程序
场景说明
Java样例代码
Scala样例代码
异步Checkpoint机制程序
场景说明
Java样例代码
Scala样例代码
Job Pipeline程序
场景说明
Java样例代码
Scala样例代码
Stream SQL Join程序
场景说明
Java样例代码
Flink对接云搜索服务(CSS)
场景说明
Java样例代码
调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
Scala
REST API介绍
Savepoints CLI介绍
Flink Client CLI介绍
FAQ
Savepoints相关问题解决方案
如何处理用户在使用chrome浏览器时无法显示title的问题
如何处理IE10/11页面显示异常的问题
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足
为什么Flink Web页面无法直接连接
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
GLIBC版本问题
HBase开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
HBase样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
准备安全认证
HBase数据读写示例安全认证(单集群场景)
HBase服务数据读写示例安全认证(多集群互信场景)
访问HBase REST服务安全认证
访问ThriftServer服务认证
访问多ZooKeeper场景认证
开发程序
HBase数据读写示例程序
典型场景说明
应用开发思路
创建Configuration
创建Connection
创建表
删除表
修改表
插入数据
删除数据
使用Get读取数据
使用Scan读取数据
使用过滤器Filter
创建二级索引
删除索引
基于二级索引的查询
Region的多点分割
创建Phoenix表
写Phoenix表
读Phoenix表
使用HBase双读能力
Log4j日志输出配置
HBase Rest接口调用样例程序
使用REST查询集群信息
使用REST获取所有表
使用REST操作Namespace
使用REST操作表
访问HBase ThriftServer样例程序
访问ThriftServer操作表
访问ThriftServer写数据
访问ThriftServer读数据
HBase访问多个ZooKeeper样例程序
访问多ZooKeeper
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看Linux调测结果
更多信息
SQL查询
HBase双读配置项
对外接口
Shell
Java API
Sqlline
JDBC API
Web UI
配置Windows通过EIP访问安全模式集群HBase
Phoenix命令行
FAQ
运行HBase应用开发程序产生异常,提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法
bulkload和put应用场景
install构建jar包,提示Could not transfer artifact org.apache.commons:commons-crypto:pom:${commons-crypto.version} from/to huaweicloudsdk
HBase开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
HBase样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
开发程序
HBase数据读写示例程序
业务场景说明
应用开发思路
创建Configuration
创建Connection
创建表
删除表
修改表
插入数据
删除数据
使用Get读取数据
使用Scan读取数据
使用过滤器Filter
创建二级索引
删除索引
基于二级索引的查询
Region的多点分割
创建Phoenix表
写Phoenix表
读Phoenix表
使用HBase双读能力
Log4j日志输出配置
HBase Rest接口调用样例程序
使用REST查询集群信息
使用REST获取所有表
使用REST操作Namespace
使用REST操作表
访问HBase ThriftServer样例程序
访问ThriftServer操作表
访问ThriftServer写数据
访问ThriftServer读数据
HBase访问多个ZooKeeper样例程序
访问多ZooKeeper
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看Linux调测结果
更多信息
SQL查询
HBase双读配置项
对外接口
Shell
Java API
Sqlline
JDBC API
Web UI
配置Windows通过EIP访问普通模式集群HBase
Phoenix命令行
FAQ
运行HBase应用开发程序产生异常,提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法
bulkload和put应用场景
install构建jar包,提示Could not transfer artifact org.apache.commons:commons-crypto:pom:${commons-crypto.version} from/to huaweicloudsdk
HDFS开发指南(安全模式)
概述
HDFS简介
常用概念
开发流程
HDFS样例工程介绍
环境准备
准备开发和运行环境
配置并导入样例工程
准备安全认证
开发程序
场景说明
开发思路
样例代码说明
HDFS初始化
创建目录
写文件
追加文件内容
读文件
删除文件
删除目录
多线程任务
设置存储策略
Colocation
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
C API
HTTP REST API
Shell命令介绍
配置Windows通过EIP访问安全模式集群HDFS
HDFS开发指南(普通模式)
概述
HDFS简介
常用概念
开发流程
HDFS样例工程介绍
环境准备
准备开发和运行环境
配置并导入样例工程
开发程序
场景说明
开发思路
样例代码说明
HDFS初始化
创建目录
写文件
追加文件内容
读文件
删除文件
删除目录
多线程任务
设置存储策略
Colocation
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
C API
HTTP REST API
Shell命令介绍
配置Windows通过EIP访问普通模式集群HDFS
Hive开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Hive样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
配置并导入JDBC/HCatalog样例工程
配置Python样例工程
配置Python3样例工程
配置JDBC访问Hive安全认证
开发程序
JDBC访问Hive样例程序
典型场景说明
创建表
数据加载
数据查询
访问多ZooKeeper
使用JDBC接口提交数据分析任务
HCatalog访问Hive样例程序
Python访问Hive样例程序
Python3访问Hive样例程序
调测程序
在Windows中调测JDBC样例程序
在Linux中调测JDBC样例程序
调测HCatalog样例程序
调测Python样例程序
调测Python3样例程序
更多信息
对外接口
JDBC
Hive SQL
WebHCat
配置Windows通过EIP访问安全模式集群Hive
FAQ
使用二次开发程序产生异常,提示“Unable to read HiveServer2 configs from ZooKeeper”信息
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Hive SQL与SQL2003标准兼容性问题
Hive开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Hive样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
配置并导入JDBC/HCatalog样例工程
配置Python样例工程
配置Python3样例工程
开发程序
JDBC访问Hive样例程序
典型场景说明
创建表
数据加载
数据查询
访问多ZooKeeper
使用JDBC提交数据分析任务
HCatalog访问Hive样例程序
Python访问Hive样例程序
Python3访问Hive样例程序
调测程序
在Windows中调测JDBC样例程序
在Linux中调测JDBC样例程序
调测HCatalog样例程序
调测Python样例程序
调测Python3样例程序
更多信息
对外接口
JDBC
Hive SQL
WebHCat
配置Windows通过EIP访问普通模式集群Hive
FAQ
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Impala开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
开发程序
典型场景说明
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
调测程序
在Windows中调测程序
在Linux中调测程序
Impala接口
JDBC
Impala SQL
开发规范
规则
建议
示例
Impala开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
准备开发和运行环境
配置并导入样例工程
开发程序
典型场景说明
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
调测程序
在Windows中调测程序
在Linux中调测程序
Impala接口
JDBC
Impala SQL
开发规范
规则
建议
示例
Kafka开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Kafka样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
准备安全认证
Sasl Kerberos认证
Kafka Token认证
开发程序
典型场景说明
典型场景样例代码说明
Producer API样例
Consumer API样例
多线程Producer样例
多线程Consumer样例
KafkaStreams样例
调测程序
调测Producer样例
调测Consumer样例
调测High level Streams样例
调测Low level Streams样例
Kafka Token认证机制样例运行指导
更多信息
对外接口
Shell命令
Java API
安全接口说明
客户端SSL加密功能使用说明
配置Windows通过EIP访问安全模式集群Kafka
FAQ
样例运行时提示Topic鉴权失败“example-metric1=TOPIC_AUTHORIZATION_FAILED”
已经拥有Topic访问权限,但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法
Kafka开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Kafka样例工程简介
环境准备
准备开发环境
准备运行环境配置文件
配置并导入样例工程
开发程序
典型场景说明
典型场景样例代码说明
Producer API样例
Consumer API样例
多线程Producer样例
多线程Consumer样例
KafkaStreams样例
调测程序
调测Producer样例
调测Consumer样例
调测High Level KafkaStreams API样例
调测Low Level KafkaStreams API样例
更多信息
对外接口
Shell命令
Java API
配置Windows通过EIP访问普通模式集群Kafka
FAQ
已经拥有Topic访问权限,但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法
Kudu开发指南(安全模式)
概述
Kudu简介
常用概念
开发流程
环境准备
准备开发和运行环境
准备安全认证
开发程序
典型场景说明
开发思路
样例代码说明
建立连接
创建表
打开表
修改表
写数据
读数据
删除表
调测程序
更多信息
常用API介绍
Java API
Kudu开发指南(普通模式)
概述
Kudu简介
常用概念
开发流程
环境准备
准备开发和运行环境
开发程序
典型场景说明
开发思路
样例代码说明
建立连接
创建表
打开表
修改表
写数据
读数据
删除表
调测程序
更多信息
常用API介绍
Java API
MapReduce开发指南(安全模式)
概述
MapReduce简介
常用概念
开发流程
MapReduce样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
创建工程(可选)
准备安全认证
开发程序
MapReduce统计样例程序
典型场景说明
样例代码说明
MapReduce访问多组件样例程序
场景说明
样例代码
调测程序
准备初始数据
在Windows环境中调测程序
编译并运行程序
查看调测结果
在Linux环境中运行程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
REST API
FAQ
提交MapReduce任务时客户端长时间无响应
网络问题导致运行应用程序时出现异常
MapReduce二次开发远程调试
MapReduce开发指南(普通模式)
概述
MapReduce简介
常用概念
开发流程
MapReduce样例工程介绍
环境准备
准备开发和运行环境
配置并导入样例工程
创建工程(可选)
开发程序
MapReduce统计样例程序
典型场景说明
样例代码说明
MapReduce访问多组件样例程序
场景说明
样例代码
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
在Linux环境中运行程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Java API
REST API
FAQ
提交MapReduce任务时客户端长时间无响应
MapReduce二次开发远程调试
Oozie开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Oozie样例工程介绍
环境准备
准备开发和运行环境
下载并导入样例工程
准备安全认证代码
开发程序
配置文件开发
场景说明
开发步骤
代码样例
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
JAVA开发
场景说明
代码样例
使用Oozie调度Spark2x访问HBase以及Hive
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Shell
Java
REST
Oozie开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Oozie样例工程介绍
环境准备
准备开发和运行环境
下载并导入样例工程
开发程序
配置文件开发
场景说明
开发步骤
代码样例
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
JAVA开发
场景说明
代码样例
使用Oozie调度Spark2x访问HBase以及Hive
调测程序
在Windows环境中调测程序
编译并运行程序
查看调测结果
更多信息
常用API介绍
Shell
Java
Rest
Spark2x开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
Spark2x样例工程介绍
环境准备
准备开发环境
准备连接集群配置文件
配置并导入样例工程
新建工程(可选)
准备安全认证
配置Python3样例工程
开发程序
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Spark on HBase程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartitions接口使用
SparkStreaming批量写入HBase表
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark Streaming对接Kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Structured Streaming流流Join
场景说明
Scala样例代码
Structured Streaming 状态操作
场景说明
Scala样例代码
Spark同时访问两个HBase
场景说明
Scala样例代码
Spark同步HBase数据到CarbonData
场景说明
Java样例代码
使用Spark执行Hudi基本操作
场景说明
Java样例代码
Scala样例代码
Python样例代码
Hudi的自定义配置项
HoodieDeltaStreamer
自定义排序器
调测程序
在Windows中调测程序
配置Windows通过EIP访问集群Spark
编包并运行程序
查看调试结果
在linux中调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
Scala
Python
REST API
常用CLI介绍
JDBCServer接口介绍
structured streaming功能与可靠性介绍
FAQ
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
SparkSQL UDF功能的权限控制机制
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Spark2x开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
Spark2x样例工程介绍
环境准备
准备开发和运行环境
准备连接集群配置文件
配置并导入样例工程
新建工程(可选)
配置Python3样例工程
开发程序
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Spark on HBase程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartition接口使用
SparkStreaming批量写入HBase表
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Python样例代码
Streaming对接Kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Structured Streaming流流Join
场景说明
Scala样例代码
Structured Streaming 状态操作
场景说明
Scala样例代码
Spark同步HBase数据到CarbonData
场景说明
Java样例代码
使用Spark执行Hudi基本操作
场景说明
Java样例代码
Scala样例代码
Python样例代码
Hudi的自定义配置项
HoodieDeltaStreamer
自定义排序器
调测程序
在Windows中调测程序
配置Windows通过EIP访问集群Spark
编包并运行程序
查看调试结果
在linux中调测程序
编包并运行程序
查看调测结果
更多信息
常用API介绍
Java
Scala
Python
常用CLI介绍
JDBCServer接口介绍
structured streaming功能与可靠性介绍
FAQ
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码规避方案
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Storm开发指南(安全模式)
概述
应用开发简介
常用概念
开发流程
环境准备
环境准备简介
准备开发和运行环境
配置并导入样例工程
开发程序
典型场景说明
开发思路
代码样例说明
创建Spout
创建Bolt
创建Topology
运行应用
打包IntelliJ IDEA代码
打包业务
概述
Linux下打包过程
Windows下打包过程
提交拓扑
Linux中安装客户端时提交拓扑
Linux中未安装客户端时提交拓扑
IntelliJ IDEA中远程提交拓扑
查看结果
更多信息
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-HBase开发指引
Flux开发指引
对外接口
FAQ
如何使用IDEA远程调试业务
IntelliJ IDEA中远程提交拓扑执行Main时报错:Command line is too long
Storm开发指南(普通模式)
概述
应用开发简介
常用概念
开发流程
环境准备
环境准备简介
准备开发和运行环境
配置并导入样例工程
开发程序
典型场景说明
开发思路
代码样例说明
创建Spout
创建Bolt
创建Topology
运行应用
打包IntelliJ IDEA代码
打包业务
概述
Linux下打包过程
Windows下打包过程
提交拓扑
Linux中安装客户端时提交拓扑
Linux中未安装客户端时提交拓扑
IntelliJ IDEA中远程提交拓扑
查看结果
更多信息
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-HBase开发指引
Flux开发指引
对外接口
FAQ
如何使用IDEA远程调试业务
使用旧插件storm-kafka时如何正确设置offset
IntelliJ IDEA中远程提交拓扑执行Main时报错:Command line is too long
YARN开发指南(安全模式)
概述
对外接口
Command
Java API
REST API
REST APIs of Superior Scheduler
YARN开发指南(普通模式)
概述
对外接口
Command
Java API
REST API
REST APIs of Superior Scheduler
Manager管理开发指南
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
配置并导入样例工程
开发程序
典型场景说明
开发思路
样例代码说明
登录认证
添加用户
查找用户
修改用户
删除用户
导出用户列表
调测程序
在Windows中调测程序
编译并运行程序
查看Windows调测结果
更多信息
对外接口
Java API
FAQ
本地用JDK1.6连接JDK1.8服务端的问题
操作失败,且日志显示“authorize failed”
操作失败,且日志显示“log4j:WARN No appenders could be found for logger(basicAuth.Main)”
操作失败,日志出现“illegal character in path at index 57”
通过curl命令访问REST API
开发规范
开发环境搭建
规则
安全认证
规则
建议
ClickHouse
规则
建议
Flink
适用场景
规则
建议
HBase
适用场景
规则
建议
示例
附录
HDFS
适用场景
规则
建议
Hive
适用场景
规则
建议
示例
Hudi
适用场景
建议
Impala
规则
建议
示例
Kafka
适用场景
规则
建议
Mapreduce
适用场景
规则
建议
示例
Oozie
适用场景
规则
建议
Spark
规则
建议
Spark2x
适用场景
规则
建议
Yarn
适用场景
规则
开发指南(普通版_2.x及之前)
简介
MapReduce服务样例工程构建方式
MRS各组件样例工程汇总
HBase应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
准备开发用户
配置并导入样例工程
开发程序
典型场景开发思路
创建Configuration
创建Connection
创建表
删除表
修改表
插入数据
删除数据
使用Get读取数据
使用Scan读取数据
使用过滤器Filter
添加二级索引
启用/禁用二级索引
查询二级索引列表
使用二级索引读取数据
删除二级索引
写MOB表
读MOB数据
Region的多点分割
ACL安全配置
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
安装客户端时编译并运行程序
未安装客户端时编译并运行程序
查看调测结果
HBase Phoenix样例代码调测
HBase python样例代码调测
更多信息
SQL查询
配置HBase文件存储
HFS的JAVA API
HBase接口
Shell
Java API
Phoenix
REST
FAQ
运行HBase应用开发程序产生异常
bulkload和put应用场景
开发规范
规则
建议
示例
附录
Hive应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备环境
准备开发用户
准备JDBC客户端开发环境
准备HCatalog开发环境
开发程序
典型场景说明
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
调测程序
在Windows中调测程序
JDBC客户端运行及结果查询
在Linux中调测程序
JDBC客户端运行及结果查看
HCatalog运行及结果查看
Hive接口
JDBC
HiveQL
WebHCat
开发规范
规则
建议
示例
MapReduce应用开发
概述
MapReduce简介
常用概念
开发流程
环境准备
开发环境简介
准备开发用户
准备Eclipse与JDK
准备Linux客户端运行环境
获取并导入样例工程
准备kerberos认证
开发程序
MapReduce统计样例程序
MapReduce访问多组件样例程序
调测程序
编译并运行程序
查看调测结果
MapReduce接口
Java API
FAQ
提交MapReduce任务时客户端长时间无响应
开发规范
规则
建议
示例
HDFS应用开发
概述
HDFS简介
常用概念
开发流程
环境准备
开发环境简介
准备开发用户
准备Eclipse与JDK
准备Linux客户端运行环境
获取并导入样例工程
开发程序
场景及开发思路
HDFS初始化
写文件
追加文件内容
读文件
删除文件
Colocation
设置存储策略
访问OBS
调测程序
在Linux中调测程序
安装客户端时编译并运行程序
查看调测结果
HDFS接口
Java API
C API
HTTP REST API
Shell命令介绍
开发规范
规则
建议
Spark应用开发
概述
Spark应用开发简介
常用概念
开发流程
环境准备
环境简介
准备开发用户
准备Java开发环境
准备Scala开发环境
准备Python开发环境
准备运行环境
下载并导入样例工程
新建工程(可选)
准备认证机制代码
开发程序
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Spark Streaming程序
场景说明
Java样例代码
Scala样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark on HBase程序
场景说明
Java样例代码
Scala样例代码
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Streaming从Kafka读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Spark Streaming对接kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
调测程序
编包并运行程序
查看调测结果
调优程序
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
INSERT...SELECT操作调优
Spark Streaming调优
Spark CBO调优
Spark接口
Java
Scala
Python
REST API
ThriftServer接口介绍
常用命令介绍
FAQ
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何采用Java命令提交Spark应用
SparkSQL UDF功能的权限控制机制
由于kafka配置的限制,导致Spark Streaming应用运行失败
如何使用IDEA远程调试
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
Spark任务读取HBase报错“had a not serializable result”
本地运行Spark程序连接MRS集群的Hive、HDFS
开发规范
规则
建议
Storm应用开发
概述
应用开发简介
常用概念
开发流程
Linux客户端环境准备
Windows开发环境准备
开发环境简介
准备Eclipse与JDK
配置并导入工程
开发程序
典型场景说明
创建Spout
创建Bolt
创建Topology
运行应用
生成示例Jar包
Linux中安装客户端时提交拓扑
查看结果
更多信息
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-OBS开发指引
Storm-HBase开发指引
Flux开发指引
对外接口
开发规范
规则
建议
Kafka应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备Maven和JDK
导入样例工程
准备安全认证
开发程序
典型场景说明
Old Producer API使用样例
Old Consumer API使用样例
Producer API使用样例
Consumer API使用样例
多线程Producer API使用样例
多线程Consumer API 使用样例
SimpleConsumer API使用样例
样例工程配置文件说明
调测程序
在Linux中调测程序
Kafka接口
Shell命令
Java API
安全接口说明
FAQ
已经拥有Topic访问权限,但是运行Producer.java样例运行获取元数据失败“ERROR fetching topic metadata for topics...”的解决办法
开发规范
规则
建议
Presto应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备环境
准备开发用户
准备JDBC客户端开发环境
准备HCatalog开发环境
开发程序
典型场景说明
样例代码说明
调测程序
在Windows中调测程序
在Linux中调测程序
Presto接口
FAQ
在集群外节点运行PrestoJDBCExample缺少证书
在集群外节点连接开启Kerberos认证的集群,HTTP在Kerberos数据库中无法找到相应的记录
OpenTSDB应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备环境
准备开发用户
配置并导入样例工程
开发程序
典型场景开发思路
配置参数
写入数据
查询数据
删除数据
调测程序
在Windows中调测程序
编译并运行程序
查看调测结果
在Linux中调测程序
编译并运行程序
查看调测结果
OpenTSDB接口
CLI Tools
HTTP API
Flink应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发和运行环境简介
准备开发用户
安装客户端
配置并导入样例工程
新建工程(可选)
准备安全认证
开发程序
DataStream程序
场景说明
Java样例代码
Scala样例代码
向Kafka生产并消费数据程序
场景说明
Java样例代码
Scala样例代码
异步Checkpoint机制程序
场景说明
Java样例代码
Scala样例代码
Stream SQL Join程序
场景说明
Java样例代码
调测程序
编译并运行程序
查看调测结果
性能调优
更多信息
Savepoints CLI介绍
Flink Client CLI介绍
FAQ
Savepoints相关问题解决方案
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
为什么Flink Web页面无法直接连接?
Impala应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备环境
准备开发用户
准备JDBC客户端开发环境
开发程序
典型场景说明
创建表
数据加载
数据查询
用户自定义函数
样例程序指导
调测程序
在Windows中调测程序
JDBC客户端运行及结果查询
在Linux中调测程序
JDBC客户端运行及结果查看
Impala接口
JDBC
Impala SQL
开发规范
规则
建议
示例
Alluxio应用开发
概述
应用开发简介
常用概念
开发流程
环境准备
开发环境简介
准备环境
获取并导入样例工程
开发程序
场景说明
Alluxio初始化
写文件
读文件
调测程序
Alluxio接口
附录
登录MRS Manager
下载MRS客户端
修订记录
组件开发规范
开发规范
开发环境搭建
规则
安全认证
规则
建议
ClickHouse
规则
建议
Flink
适用场景
规则
建议
HBase
适用场景
规则
建议
示例
附录
HDFS
适用场景
规则
建议
Hive
适用场景
规则
建议
示例
Hudi
适用场景
建议
IoTDB
适用场景
规则
建议
Kafka
适用场景
规则
建议
Mapreduce
适用场景
规则
建议
示例
Oozie
适用场景
规则
建议
Spark
适用场景
规则
建议
Yarn
适用场景
规则
API参考
使用前必读
概述
调用说明
终端节点
约束与限制
基本概念
API版本选择建议
API概览
如何调用API
构造请求
认证鉴权
返回结果
应用示例
创建MRS集群
扩容集群
缩容集群
新增作业
终止作业
删除集群
API V2
集群管理接口
创建集群
修改集群名称
创建集群并提交作业
扩容集群
缩容集群
集群添加组件
作业管理接口
新增并执行作业
查询作业列表信息
查询单个作业信息
终止作业
获取SQL结果
批量删除作业
弹性伸缩接口
查看弹性伸缩策略
更新弹性伸缩策略
删除弹性伸缩策略
创建弹性伸缩策略
集群HDFS文件接口
获取指定目录文件列表
SQL接口
提交SQL语句
查询SQL结果
取消SQL执行任务
委托管理
查询用户(组)与IAM委托的映射关系
更新用户(组)与IAM委托的映射关系
数据连接管理
创建数据连接
查询数据连接列表
更新数据连接
删除数据连接
版本元数据查询
展示MRS版本列表
查询MRS集群版本可用的规格
IAM同步管理接口
获取已经同步的IAM用户和用户组
IAM同步
指定用户、用户组取消同步
标签管理接口
集群操作默认标签
查询默认标签状态
查询标签配额
API V1.1
集群管理接口
创建集群并执行作业
调整集群节点
查询集群列表
查询集群详情
查询主机列表
删除集群
弹性伸缩接口
配置弹性伸缩规则
标签管理接口
给指定集群添加标签
查询指定集群的标签
删除指定集群的标签
批量添加集群标签
批量删除集群标签
查询所有标签
查询特定标签的集群列表
可用区
查询可用区信息
版本元数据查询
查询对应版本元数据
历史API
V1.1 作业管理接口(废弃)
新增作业并执行(废弃)
查询作业exe对象列表(废弃)
查询作业exe对象详情(废弃)
删除作业执行对象(废弃)
权限策略和授权项
策略及授权项说明
附录
MRS所使用的弹性云服务器规格
MRS所使用的裸金属服务器规格
状态码
错误码
获取项目ID
获取账号ID
获取MRS集群信息
MRS支持的角色与组件对应表
修订记录
SDK参考
SDK概述
场景代码示例
常见问题
产品咨询类
MRS可以做什么?
MRS支持什么类型的分布式存储?
什么是区域和可用区?
MRS是否支持更换网段?
MRS集群内节点是否支持降配操作?
MRS集群是否支持Hive on Spark?
不同版本的Hive之间是否可以兼容?
数据存储在OBS和HDFS有什么区别?
Hadoop压力测试工具如何获取?
关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
MRS是否支持Hive on Kudu?
10亿级数据量场景的解决方案有哪些?
如何修改DBService的IP地址?
MRS集群内节点的sudo log能否清理?
MRS 2.1.0版本集群对Storm日志的大小有什么限制?
Kafka支持的访问协议类型有哪些?
MRS节点访问OBS报错408如何处理?
zstd的压缩比有什么优势?
MRS 3.1.0版本的集群,Spark任务支持哪些python版本?
如何让不同的业务程序分别用不同的Yarn队列?
MRS管理控制台和集群Manager页面功能区别有哪些?
MRS集群如何解绑已绑定至Manager的EIP?
MRS集群内节点的操作系统是什么?
MRS集群磁盘如何分区的?
计费相关
创建MRS集群时计价器为什么未显示价格?
MRS集群中的弹性伸缩功能如何收费?
Mapreduce服务集群的Task节点如何收费?
退订MRS服务后,在ECS中退订弹性云服务器时报异常如何处理?
集群创建类
如何使用自定义安全组创建MRS集群?
购买MRS集群时,找不到HDFS、Yarn、MapReduce组件如何处理?
购买MRS集群时,找不到ZooKeeper组件如何处理?
购买MRS集群,提交订单时,报无效认证如何处理?
账号密码类
登录集群Manager的用户是什么?
集群内用户密码的过期时间如何查询和修改?
账号权限类
如果不开启Kerberos认证,MRS集群能否支持访问权限细分?
如何给集群内用户添加租户管理权限?
为什么在Manager中找不到用户管理页面?
Hue有配置账号权限的功能吗?
为什么IAM子账号添加了MRS权限却无法在控制台提交作业?
客户端使用类
如何关闭ZooKeeper的SASL认证?
在MRS集群外客户端中执行kinit报错“Permission denied”如何处理?
Web页面访问类
如何修改开源组件Web页面会话超时时间?
MRS租户管理中的动态资源计划页面无法刷新怎么办?
Kafka Topic监控页签在Manager页面不显示如何处理?
访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI界面报错或部分页面不可用如何处理?
如何切换访问MRS Manager方式?
监控告警类
在MRS流式集群中,Kafka Topic监控是否支持发送告警?
产生“ALM-18022 Yarn队列资源不足”告警时,正在运行的资源队列可以在哪查看?
HBase操作请求次数指标中的多级图表统计如何理解?
性能优化类
MRS集群是否支持重装系统?
MRS集群是否支持切换操作系统?
如何提高集群Core节点的资源使用率?
如何关闭防火墙服务?
作业开发类
如何准备MRS的数据源?
MRS集群支持提交哪些形式的Spark作业?
MRS集群的租户资源最小值改为0后,只能同时运行一个Spark任务吗?
作业提交参数间用空格隔开导致参数信息不被识别如何处理?
Spark作业的Client模式和Cluster模式有什么区别?
如何查看MRS作业的日志?
提交作业时系统提示当前用户在Manager不存在如何处理?
LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
SparkStreaming作业运行几十个小时后失败,报OBS访问403如何处理?
ClickHouse客户端执行SQL查询时报内存不足如何处理?
Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
Spark作业访问OBS报错“requestId=XXX”如何处理?
Spark作业报错“UnknownScannerExeception”如何处理?
DataArts Studio调度Spark作业偶现失败如何处理?
Flink任务运行失败,报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
提交的Yarn作业在界面上查看不到如何处理?
如何修改现有集群的HDFS fs.defaultFS?
提交Flink任务时launcher-job被Yarn终止如何处理?
提交Flink作业时报错slot request timeout如何处理?
DistCP作业导入导出数据常见问题
如何通过Yarn WebUI查看Hive作业对应的SQL语句?
如何查看指定Yarn任务的日志?
集群升级/补丁
MRS集群版本如何进行升级?
MRS是否支持升级集群内组件的内核版本?
周边生态对接使用
MRS是否支持对DLI服务的业务表进行读写操作?
OBS是否支持ListObjectsV2协议?
MRS集群内的节点中可以部署爬虫服务吗?
MRS服务是否支持安全删除的能力?
如何使用PySpark连接MRS Spark?
HBase同步数据到CSS为什么没有映射字段?
MRS集群是否支持对接外部KDC?
开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
MRS导出数据到OBS加密桶失败如何处理?
MRS服务如何对接云日志服务?
MRS集群的节点如何安装主机安全服务?
集群访问类
MRS集群内节点的登录方式如何切换?
如何获取ZooKeeper的IP地址和端口?
如何通过集群外的节点访问MRS集群?
大数据业务开发
MRS是否支持同时运行多个Flume任务?
如何修改FlumeClient的日志为标准输出日志?
Hadoop组件jar包位置和环境变量的位置在哪里?
HBase支持的压缩算法有哪些?
MRS是否支持通过Hive的HBase外表将数据写入到HBase?
如何查看HBase日志?
HBase表如何设置和修改数据保留期?
如何通过happybase连接到MRS服务的HBase?
如何修改HDFS的副本数?
如何修改HDFS主备倒换类?
DynamoDB的number在Hive表中用什么类型比较好?
Hive Driver是否支持对接dbcp2?
用户A如何查看用户B创建的Hive表?
Hive样例工程中的com.huawei.gaussc10依赖包在哪里下载?
Hive查询数据是否支持导出?
Hive使用beeline -e执行多条语句报错如何处理?
添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
Hue下载的Excel无法打开如何处理?
Hue连接hiveserver,不释放session,报错over max user connections如何处理?
如何重置Kafka数据?
Kafka目前支持的访问协议类型有哪些?
消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
Kudu支持的压缩算法有哪些?
如何查看Kudu日志?
新建集群Kudu服务异常如何处理?
MRS是否支持Python代码?
OpenTSDB是否支持Python的接口?
Presto如何配置其他数据源?
MRS 1.9.3 Ranger证书如何更新?
MRS如何连接spark-shell?
MRS如何连接spark-beeline?
Spark Job对应的运行日志保存在哪里?
MRS的Storm集群提交任务时如何指定日志路径?
如何检查Yarn的ResourceManager配置是否正常?
如何修改Clickhouse服务的allow_drop_detached配置项?
执行Spark任务报内存不足告警如何处理?
ClickHouse系统表日志过大,如何添加定期删除策略?
如何获取Spark Jar包?
修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
spark.yarn.executor.memoryOverhead设置不生效如何处理?
如何修改ClickHouse服务时区?
连接ClickHouse服务端异常报错“code: 516”如何处理?
API使用类
使用调整集群节点接口时参数node_id如何配置?
集群管理类
如何查看所有集群?
如何查看MRS服务的操作日志信息?
如何查看MRS集群配置信息?
如何在MRS集群中手动添加组件?
升级Master节点规格需要关机吗?
MRS集群中安装的组件能否删除?
MRS是否支持变更MRS集群节点?
如何取消集群风险告警的消息通知?
为什么MRS集群显示的资源池内存小于实际集群内存?
如何配置knox内存?
MRS集群安装的Python版本是多少?
如何查看各组件配置文件路径?
如何上传本地文件到集群内节点?
MRS集群节点时间信息不正确如何处理?
如何查询MRS节点的启动时间?
节点互信异常如何处理?
如何调整manager-executor进程内存?
MRS集群是否支持调整Master节点规格?
Hive服务运行状态为亚健康是否会影响上层业务?
Kerberos使用
已创建的MRS集群如何修改Kerberos状态?
Kerberos认证服务的端口有哪些?
如何避免Kerberos认证过期?
元数据管理
如何查看MRS Hive元数据?
故障排除
账号密码类
如何重置或修改Manager(admin)密码?
用户名过长导致下载认证凭据失败
账号权限类
获取MRS集群主机列表接口时提示用户无权限
查看MRS集群详情失败
Web页面访问类
无法访问MRS集群Manager页面如何处理?
登录集群Manager常见异常问题
访问MRS Manager页面报错“502 Bad Gateway”
访问Manager页面报错“请求VPC错误”
通过专线访问Manager页面方式出现503报错
登录Manager集群页面时报错“You have no right to access the page”
登录Manager时界面报错“认证信息无效”
Manager界面超时退出后无法正常登录
升级Python后无法登录Manager页面
修改集群域名后无法登录Manager页面
登录Manager界面后页面空白无内容
集群节点内安装了原生Kerberos导致登录集群失败
macOS使用浏览器访问MRS Manager
Manager界面登录用户被锁如何解锁
Manager页面加载卡顿
访问MRS组件Web UI界面常见异常问题
使用admin用户访问组件的WebUI界面报错或部分功能不可用
访问组件WebUI页面报500异常
【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
【Hue WebUI】登录Hue WebUI报错无权限
【Hue WebUI】Hue WebUI页面无法访问
【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
【Hue WedUI】Hue(主)无法打开web网页
【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
【Tez WebUI】访问Tez WebUI界面报错404
【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
【Yarn WebUI】无法访问Yarn WebUI
API使用类
调用API接口创建集群失败
集群管理类
缩容Task节点失败
如何处理集群内部OBS证书过期
MRS集群更换磁盘(适用于2.x及之前)
MRS集群更换磁盘(适用于3.x)
MRS备份任务执行失败
Core节点出现df显示的容量和du显示的容量不一致
如何解除网络ACL的关联子网
修改节点主机名后导致MRS集群状态异常
进程被终止如何定位原因
MRS配置跨集群互信失败
MRS集群节点使用pip3安装Python时提示网络不可达
开源confluent-kafka-go连接MRS安全集群
MRS集群周期备份任务执行失败
MRS集群客户端无法下载
开启Kerberos认证的MRS集群提交Flink作业报错
通过Hive beeline命令行执行插入命令的时候报错
MRS集群节点如何进行操作系统漏洞升级
使用CDM服务迁移数据至MRS HDFS时任务运行失败
MRS集群频繁产生节点间心跳中断告警
PMS进程占用内存高
Knox进程占用内存高
安全集群外的客户端访问HBase很慢
作业无法提交如何定位?
HBase日志文件过大导致OS盘空间不足
HDFS日志文件过大导致OS盘空间不足
MRS集群节点规格升级异常
Manager页面新建的租户删除失败
MRS集群切换VPC后集群状态异常不可用
MRS管理控制台上提交作业异常处理
生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
使用Alluixo
Alluixo在HA模式下出现Does not contain a valid host:port authority报错
使用ClickHouse
ZooKeeper上数据错乱导致ClickHouse启动失败问题
ClickHouse消费Kafka数据异常
使用DBservice
DBServer实例状态异常
DBServer实例一直处于Restoring状态
DBService默认端口20050或20051被占用
/tmp目录权限不对导致DBserver实例状态一直处于Restoring
DBService备份任务执行失败
DBService状态正常,组件无法连接DBService
DBServer启动失败
浮动IP不通导致DBService备份失败
DBService配置文件丢失导致启动失败
使用Flink
Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
Flink客户端执行命令报错“Could not connect to the leading JobManager”
使用不同用户执行yarn-session创建Flink集群失败
Flink业务程序无法读取NFS盘上的文件
自定义Flink log4j日志输出级别不生效
使用Flume
Flume向Spark Streaming提交作业后报类找不到错误
Flume客户端安装失败
Flume客户端无法连接服务端
Flume数据写入组件失败
Flume服务端进程故障
Flume数据采集慢
Flume启动失败
使用HBase
连接到HBase响应慢
HBase用户认证失败
端口被占用导致RegionServer启动失败
节点剩余内存不足导致HBase启动失败
HDFS性能差导致HBase服务不可用告警
参数不合理导致HBase启动失败
残留进程导致Regionsever启动失败
HDFS上设置配额导致HBase启动失败
HBase version文件损坏导致启动失败
无业务情况下,RegionServer占用CPU高
HBase启动失败,RegionServer日志中提示“FileNotFoundException”
HBase启动后原生页面显示RegionServer个数多于实际个数
RegionServer实例异常,处于Restoring状态
新安装的集群HBase启动失败
acl表目录丢失导致HBase启动失败
集群上下电之后HBase启动失败
文件块过大导致HBase数据导入失败
使用Phoenix创建HBase表后,向索引表中加载数据报错
在MRS集群客户端无法执行hbase shell命令
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
RegionServer剩余内存不足导致HBase服务启动失败
集群扩容之后新节点HRegionServer启动失败
HBase文件丢失导致Region状态长时间为RIT
使用HDFS
修改RPC端口后HDFS NameNode实例都变为备状态
通过公网IP连接使用HDFS客户端报错
使用Python远程连接HDFS的端口失败
HDFS容量达到100%导致上层服务HBase、Spark等不可用
启动HDFS和Yarn服务报错“Permission denied”
HDFS用户可在其他用户目录下创建或删除文件
HDFS的DataNode一直显示退服中
内存不足导致HDFS NameNode启动失败
ntpdate修改时间导致HDFS出现大量丢块
DataNode概率性出现CPU占用接近100%导致节点丢失
单NameNode长期故障时如何使用客户端手动checkpoint
HDFS文件读写时报错“Failed to place enough replicas”
文件最大打开句柄数设置太小导致读写文件异常
HDFS客户端写文件close失败
文件错误导致上传文件到HDFS失败
界面配置dfs.blocksize后上传数据,block大小未改变
读取HDFS文件失败,报错“FileNotFoundException”
HDFS写文件失败,报错“item limit of xxx is exceeded”
调整HDFS SHDFShell客户端日志级别
HDFS读文件失败报错“No common protection layer”
HDFS目录配额不足导致写文件失败
执行balance失败报错“Source and target differ in block-size”
查询或者删除HDFS文件失败
非HDFS数据残留导致数据分布不均衡
HDFS客户端安装在数据节点导致数据分布不均衡
节点内DataNode磁盘使用率不均衡
执行balance常见问题定位方法
HDFS显示磁盘空间不足,其实还有10%磁盘空间
使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
集群外节点安装客户端上传HDFS文件失败
HDFS写并发较大时报副本不足
HDFS客户端无法删除超长目录
集群外节点访问MRS HDFS报错
NameNode节点存在ALM-12027主机PID使用率超过阈值告警
集群出现ALM-14012 Journalnode数据不同步告警
由于HDFS块丢失导致DataNode退服失败
使用distcp命令拷贝空文件夹报错
使用Hive
Hive常见日志说明
Hive服务启动失败
安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
提交Hive任务时如何指定队列?
怎么通过客户端设置Map/Reduce内存?
如何在导入Hive表时指定输出的文件压缩格式?
Hive表desc描述过长导致无法完整显示
Hive表中增加分区列后再插入数据显示为NULL
集群中创建的新用户执行查询Hive操作时无权限
执行SQL提交任务到指定队列时报错
执行load data inpath命令报错
执行load data local inpath命令报错
执行create external table命令报错
在beeline客户端执行dfs -put命令报错
执行set role admin命令报无权限
在beeline客户端创建UDF时报错
Hive服务状态为故障
Hive服务状态为亚健康
Hive服务健康状态和Hive实例健康状态的区别
Shell客户端连接提示“authentication failed”
客户端提示访问ZooKeeper失败
使用UDF函数时提示“Invalid function”
Hive服务状态为Unknown
HiveServer或者MetaStore实例的健康状态为unknown
HiveServer或者MetaStore实例的健康状态为Concerning
TEXTFILE类型文件使用ARC4压缩时查询结果乱码
Hive任务运行过程中失败,重试成功
执行select语句时报错“Execution Error return code 2”
有大量分区时执行drop partition操作失败
执行join操作时localtask启动失败
修改hostname后导致WebHCat启动失败
集群修改域名后Hive样例程序运行报错
DBService超过最大连接数后导致Hive MetaStore异常
beeline客户端报错“Failed to execute session hooks: over max connections”
beeline客户端报错“OutOfMemoryError”
输入文件数超出设置限制导致任务执行失败
Hive任务执行中报栈内存溢出导致任务执行失败
对同一张表或分区并发写数据导致任务失败
Hive任务失败,报没有HDFS目录的权限
Load数据到Hive表失败
参考Hive JDBC代码用例开发的业务应用运行失败
HiveServer和HiveHCat进程故障
MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
Hive执行insert into语句报错
增加Hive表字段超时
重启Hive服务失败
Hive分区数过多导致删除表失败
Hive执行msck repair table命令时报错
Hive执行insert into命令报用户权限不足
在Hive中drop表后如何完全释放磁盘空间
JSON表中有破损数据导致Hive查询异常
Hive客户端执行SQL报错连接超时
WebHCat健康状态异常导致启动失败
mapred-default.xml文件解析异常导致WebHCat启动失败
Hive元数据使用RDS时创建视图表中文乱码
使用Hue
Hue界面中查看到未知Job在运行
使用IE浏览器在Hue中执行HQL失败
Hue WebUI界面访问失败
Hue界面无法加载HBase表
Hue中的输入框输入中文会出现混乱
Hue上执行Impala SQL查询中文报错
使用Impala
连接impala-shell失败
创建Kudu表报错
Impala客户端登录失败
使用Kafka
运行Kafka客户端获取Topic时报错
安全集群中使用Python3.x对接Kafka
Flume正常连接Kafka后发送消息失败
Producer发送数据失败,报错“NullPointerException”
Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
Producer偶现发送数据失败,日志提示“Too many open files in system”
Consumer初始化成功但是无法从Kafka中获取指定Topic消息
Consumer消费数据失败,Consumer一直处于等待状态
SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
Consumer消费数据失败,提示“SchemaException: Error reading field”
Kafka Consumer消费数据丢失
账号锁定导致启动Kafka组件失败
Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
执行Kafka Topic删除操作时发现无法删除
执行Kafka Topic删除操作时提示“AdminOperationException”
执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
Consumer消费数据时存在重复消费现象
执行Kafka Topic创建操作时发现Partition的Leader显示为none
Kafka安全使用说明
如何获取Kafka Consumer Offset信息
如何针对Topic进行配置增加和删除
如何读取“__consumer_offsets”内部topic的内容
如何配置Kafka客户端shell命令日志
如何获取Topic的分布信息
Kafka高可靠使用说明
使用Kafka Shell命令无法操作Kafka集群
Kafka生产者写入单条记录过长问题
Kakfa消费者读取单条记录过长问题
Kafka集群节点内多磁盘数据量占用高
Kafka连接ZooKeeper客户端时发生断链
使用Oozie
并发提交大量oozie任务时,任务一直没有运行
Oozie调度HiveSQL作业报错处理
在MRS集群外客户端提交不了Oozie任务或两个小时才提交成功
使用Presto
配置sql-standard-with-group创建schema失败报Access Denied
Presto的coordinator进程无法正常启动
Presto查询Kudu表时系统报错找不到表
Presto查询Hive表无数据
MRS Presto查询报错“The node may have crashed or be under too much load”
MRS集群如何使用公网访问Presto
使用Spark
运行Spark应用时修改split值报错
提交Spark任务时提示参数格式错误
磁盘容量不足导致Spark、Hive和Yarn服务不可用
引入jar包不正确导致Spark任务无法运行
Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
提交Spark任务时报错“ClassNotFoundException”
提交Spark任务时Driver端提示运行内存超限
Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
JDK版本不匹配导致启动spark-sql和spark-shell失败
Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
提交Spark任务时连接ResourceManager异常
DataArts Studio调度Spark作业失败
通过API提交Spark作业后作业状态为error
MRS集群反复上报43006告警
在spark-beeline中创建或删除表失败
集群外节点提交Spark作业时报错无法连接Driver
运行Spark任务发现大量shuffle结果丢失
JDBCServer长时间运行导致磁盘空间不足
spark-shell执行SQL跨文件系统load数据到Hive表失败
Spark任务提交失败
Spark任务运行失败
JDBCServer连接失败
查看Spark任务日志失败
Spark Streaming任务提交问题
Spark连接其他服务认证问题
Spark连接Kafka认证错误
SparkSQL读取ORC表报错
Spark WebUI页面上stderr和stdout无法跳转到日志页面
spark-beeline查询Hive视图报错
使用Sqoop
Sqoop如何连接MySQL
Sqoop读取MySQL数据到HBase时报HBaseAdmin.<init>方法找不到异常
通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错
通过Sqoop从Hive导出数据到MySQL 8.0时报数据格式错误
通过sqoop import命令从PgSQL导出数据到Hive时报错
通过Sqoop读取MySQL数据并写parquet文件到OBS时失败
通过Sqoop迁移数据库数据时报错
使用Storm
Storm WebUI页面中events超链接地址无效
提交Storm拓扑失败排查思路
提交Storm拓扑失败,提示Failed to check principle for keytab
提交Storm拓扑后Worker日志为空
提交Storm拓扑后Worker运行异常,日志提示Failed to bind to XXX
使用jstack命令查看进程堆栈提示“well-known file is not secure”
使用Storm-JDBC插件开发Oracle写入Bolt时发现数据无法写入
Storm业务拓扑配置GC参数不生效
Storm UI查看信息时显示Internal Server Error
使用Ranger
Hive启用Ranger鉴权后,在Hue页面能查看到没有权限的表和库
使用Yarn
集群启动Yarn后产生大量作业占用资源
通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
Yarn汇聚日志过大导致节点磁盘被占满
MapReduce任务异常,临时文件未删除
Yarn客户端的端口信息错误导致提交任务后报错connection refused
通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
使用Yarn客户端命令查询历史作业报错
TimelineServer目录文件数量到达上限
使用ZooKeeper
通过MRS客户端连接ZooKeeper报错
由于主备Master节点时间未同步导致ZooKeeper服务不可用
存算分离类
没有/tmp目录权限导致执行访问OBS的作业报错
使用Hadoop客户端删除OBS上数据时报.Trash目录没有权限错误
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败
视频帮助
文档下载
通用参考
产品术语
云服务等级协议(SLA)
白皮书资源
支持区域
系统权限