MapReduce服务 MRS
MapReduce服务 MRS
本产品内“
”的所有结果
本产品内“
”的所有结果
最新动态
功能总览
服务公告
漏洞公告
Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)修复指导
MRS Fastjson漏洞修复指导
简介
影响范围
修复Manager Web
修复Manager Controller
修复Manager nodeagent
修复Kafka
修复Flink
版本支持公告
MRS集群版本生命周期
产品介绍
图解MapReduce服务
什么是MapReduce服务
产品优势
应用场景
MRS集群版本说明
MRS组件版本一览表
组件介绍
Alluxio
CarbonData
ClickHouse
ClickHouse基本原理
ClickHouse与其他组件的关系
ClickHouse开源增强特性
CDL
CDL基本原理
DBService
DBService基本原理
Flink
Flink基本原理
Flink HA方案介绍
Flink与其他组件的关系
Flink开源增强特性
Flink滑动窗口增强
Flink Job Pipeline增强
Flink Stream SQL Join
Flink CEP in SQL
Flume
Flume基本原理
Flume与其他组件的关系
Flume开源增强特性
HBase
HBase基本原理
HBase HA方案介绍
HBase与其他组件的关系
HBase开源增强特性
HDFS
HDFS基本原理
HDFS HA方案介绍
HDFS与其他组件的关系
HDFS开源增强特性
HetuEngine
HetuEngine基本原理
HetuEngine与其他组件的关系
Hive
Hive基本原理
Hive CBO原理介绍
Hive与其他组件的关系
Hive开源增强特性
Hudi
Hue
Hue基本原理
Hue与其他组件的关系
Hue开源增强特性
Impala
IoTDB
IoTDB基本原理
IoTDB开源增强特性
Kafka
Kafka基本原理
Kafka与其他组件的关系
Kafka开源增强特性
KafkaManager
KrbServer及LdapServer
KrbServer及LdapServer基本原理
KrbServer及LdapServer开源增强特性
Kudu
Loader
Loader基本原理
Loader与其他组件的关系
Loader开源增强特性
Manager
Manager基本原理
Manager关键特性
MapReduce
MapReduce基本原理
MapReduce与其他组件的关系
MapReduce开源增强特性
Oozie
Oozie基本原理
Oozie开源增强特性
OpenTSDB
Presto
Ranger
Ranger基本原理
Ranger与其他组件的关系
Spark
Spark基本原理
Spark HA方案介绍
Spark与其他组件的关系
Spark开源增强特性
Spark2x
Spark2x基本原理
Spark2x HA方案介绍
Spark2x多主实例
Spark2x多租户
Spark2x与其他组件的关系
Spark2x开源增强特性
Spark2x开源新特性说明
CarbonData基本原理
Spark跨源复杂数据的SQL查询优化
Storm
Storm基本原理
Storm与其他组件的关系
Storm开源增强特性
Tez
YARN
YARN基本原理
YARN HA方案介绍
Yarn与其他组件的关系
YARN开源增强特性
ZooKeeper
ZooKeeper基本原理
ZooKeeper与其他组件的关系
ZooKeeper开源增强特性
产品功能
作业管理
元数据管理
企业项目管理
多租户资源管理
组件WebUI便捷访问
节点自定义引导操作
集群管理
集群生命周期管理
集群在线扩缩容
创建Task节点
自动弹性伸缩
节点隔离
升级Master节点规格
节点标签管理
集群运维
集群状态消息通知
MRS安全增强
MRS可靠性增强
安全
责任共担
资产识别与管理
身份认证与访问控制
数据保护技术
审计与日志
服务韧性
监控安全风险
更新管理
安全加固
MRS集群保留JDK说明
约束与限制
技术支持
计费说明
权限管理
与其他云服务的关系
配额说明
常见概念
发行版本
版本概述
版本说明
MRS 3.1.2-LTS.3版本说明
MRS 3.1.5版本说明
MRS 3.2.0-LTS.1版本说明
计费说明
计费概述
计费模式
计费模式概述
包年/包月
按需计费
计费项
计费样例
变更计费模式
变更计费模式概述
按需转包年/包月
续费
续费概述
手动续费
自动续费
费用账单
欠费说明
停止计费
成本管理
计费FAQ
创建MRS集群时计价器为什么未显示价格?
MapReduce服务集群的Task节点如何收费?
退订MRS服务后,在ECS中退订弹性云服务器时报异常如何处理?
快速入门
快速创建和使用Hadoop离线数据分析集群
快速创建和使用Kafka流式数据处理集群
快速创建和使用HBase离线数据查询集群
快速创建和使用ClickHouse列式数据库集群
快速创建和使用启用安全认证的MRS集群
入门实践
用户指南
准备工作
配置MRS云服务授权
创建IAM用户并授权使用MRS
创建MRS IAM自定义权限策略
MRS集群规划
业务选型
MRS集群类型介绍
MRS集群节点类型说明
MRS集群节点规格说明
MRS集群部署说明
MRS集群部署方案说明
MRS集群Kerberos认证介绍
MRS集群支持的云服务器规格
购买MRS集群
快速购买MRS集群
自定义购买MRS集群
安装MRS集群客户端
安装客户端(3.x版本)
安装客户端(2.x及之前版本)
提交MRS作业
MRS作业类型介绍
上传应用数据至MRS集群
运行MRS作业
运行MapReduce作业
运行SparkSubmit作业
运行HiveSql作业
运行SparkSql作业
运行Flink作业
运行HadoopStream作业
查看MRS作业详情和日志
管理MRS集群
MRS集群管理概述
MRS集群Manager简介
访问MRS集群Manager
管理MRS集群
查看MRS集群基本信息
查看MRS集群运行状态
启动停止MRS集群
重启MRS集群
导出MRS集群配置参数
同步MRS集群配置
转换MRS按需集群为包周期集群
删除MRS集群
切换MRS集群VPC子网
修改MRS集群NTP服务器
修改OMS服务配置
修改MRS集群Manager路由表
管理MRS集群组件
查看MRS集群组件运行状态
启动停止MRS集群组件
重启MRS集群组件
添加删除MRS集群组件
修改MRS集群组件配置参数
查看MRS集群已修改的组件配置参数
同步MRS集群组件配置参数
添加MRS组件自定义参数
管理MRS角色实例
管理MRS角色实例组
修改MRS角色实例参数
执行MRS角色实例主备倒换
退服和入服MRS角色实例
切换MRS集群组件Ranger鉴权
访问MRS集群上托管的开源组件Web页面
管理MRS集群节点
查看MRS集群节点运行状态
启停MRS集群节点上所有角色
隔离MRS集群节点
修改MRS集群节点机架信息
升级MRS集群Master节点规格
同步MRS集群节点磁盘信息
添加MRS集群节点标签
配置MRS集群节点引导操作
MRS节点引导操作概述
准备MRS节点引导操作脚本
添加MRS节点引导操作安装第三方软件
查看MRS节点引导操作执行记录
管理MRS集群客户端
服务端配置过期后更新MRS集群客户端
查看已安装的MRS集群客户端
批量升级MRS集群客户端
管理MRS集群作业
停止删除MRS集群作业
配置MRS集群作业消息通知
管理MRS集群租户
MRS多租户简介
MRS多租户使用流程
配置MRS租户
添加MRS租户
添加MRS子租户
为MRS集群用户绑定租户
添加MRS租户资源池
配置资源池的队列容量策略
配置MRS租户队列
管理MRS租户资源
管理MRS租户资源目录
管理MRS租户资源池
清除MRS租户队列配置
重装Yarn服务后手动恢复MRS租户数据
删除MRS租户
Superior调度器模式下管理MRS全局用户策略
Capacity调度器模式下清除租户非关联队列
切换MRS租户资源调度器
管理MRS集群用户
集群用户权限概述
MRS集群用户权限模型
MRS集群用户认证策略
MRS集群用户鉴权策略
MRS集群默认权限信息说明
IAM用户同步MRS集群说明
MRS集群用户账号一览表
管理MRS集群角色
管理MRS集群用户组
管理MRS集群用户
创建MRS集群用户
修改MRS集群用户信息
锁定MRS集群用户
删除MRS集群用户
初始化MRS集群用户密码
下载MRS集群用户认证凭据文件
解锁MRS集群用户
解锁MRS集群LDAP用户
解锁MRS集群LDAP管理账户
配置MRS集群用户密码策略
配置MRS集群用户私有属性
管理MRS集群元数据
MRS集群元数据概述
配置Ranger元数据存储至RDS
配置Hive元数据存储至RDS
配置LakeFormation数据连接
LakeFormation概述
配置LakeFormation数据连接前准备
创建集群时配置LakeFormation数据连接
管理MRS集群数据连接
管理MRS集群静态服务资源
静态服务资源概述
配置MRS集群静态资源
查看MRS集群静态资源
MRS集群运维
MRS集群运维说明
登录MRS集群
查看MRS集群主备管理节点
登录MRS集群节点
查看MRS集群监控指标
查看MRS集群资源监控指标
查看MRS集群组件监控指标
查看MRS集群节点资源监控指标
配置MRS集群监控指标数据转储
MRS集群健康检查
执行MRS集群健康检查
执行MRS集群节点健康检查
查看并导出健康检查报告
MRS集群容量调整
扩容MRS集群
扩容MRS集群节点数据盘
缩容MRS集群
缩容ClickHouseServer节点
退订MRS包周期集群指定节点
MRS集群Task节点弹性伸缩
MRS集群Task节点弹性伸缩概述
添加MRS集群Task节点弹性伸缩策略
管理MRS集群弹性伸缩策略
备份恢复MRS集群数据
MRS集群数据备份恢复简介
启用MRS集群间拷贝功能
创建MRS集群数据备份任务
创建MRS集群数据恢复任务
备份MRS集群组件数据
备份Manager数据(MRS 2.x及之前版本)
备份Manager数据(MRS 3.x及之后版本)
备份CDL业务数据
备份ClickHouse元数据
备份ClickHouse业务数据
备份DBService元数据
备份Doris业务数据
备份Flink元数据
备份HBase元数据
备份HBase业务数据
备份HDFS NameNode元数据
备份HDFS业务数据
备份Hive业务数据
备份IoTDB元数据
备份IoTDB业务数据
备份Kafka元数据
恢复MRS集群组件数据
恢复Manager数据(MRS 2.x及之前版本)
恢复Manager数据(MRS 3.x及之后版本)
恢复CDL业务数据
恢复ClickHouse元数据
恢复ClickHouse业务数据
恢复DBService元数据
恢复Doris业务数据
恢复Flink元数据
恢复HBase元数据
恢复HBase业务数据
恢复HDFS NameNode元数据
恢复HDFS业务数据
恢复Hive业务数据
恢复IoTDB元数据
恢复IoTDB业务数据
恢复Kafka元数据
管理MRS集群备份恢复任务
使用HDFS快照快速恢复组件业务数据
安装MRS集群补丁
查看MRS集群补丁信息
安装MRS集群补丁
安装MRS集群滚动补丁
修复隔离MRS集群主机补丁
MRS集群补丁说明
MRS 3.0.5.1补丁说明
MRS 2.1.0.11补丁说明
MRS 2.1.0.10补丁说明
MRS 2.1.0.9补丁说明
MRS 2.1.0.8补丁说明
MRS 2.1.0.7补丁说明
MRS 2.1.0.6补丁说明
MRS 2.1.0.3补丁说明
MRS 2.1.0.2补丁说明
MRS 2.1.0.1补丁说明
MRS 2.0.6.1补丁说明
MRS 2.0.1.3补丁说明
MRS 2.0.1.2补丁说明
MRS 2.0.1.1补丁说明
MRS 1.9.3.3补丁说明
MRS 1.9.3.1补丁说明
MRS 1.9.2.2补丁说明
MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
MRS 1.9.0.7补丁说明
MRS 1.9.0.6补丁说明
MRS 1.9.0.5补丁说明
MRS 1.8.10.1补丁说明
查看MRS集群日志
MRS集群日志概述
查看MRS云服务操作日志
查看历史MRS集群信息
查看MRS集群审计日志
查看MRS组件角色实例日志
在线检索MRS集群日志
下载MRS集群日志
采集MRS集群服务堆栈信息
配置MRS组件默认日志级别与归档文件大小
配置MRS集群审计日志本地备份数
配置MRS集群审计日志转储
MRS集群安全配置
集群互信管理
MRS集群互信概述
修改MRS集群系统域名
配置MRS集群间互信
配置互信MRS集群的用户权限
更换MRS集群证书
更换CA证书
更换HA证书
MRS集群安全加固
MRS集群加固策略说明
配置Hadoop数据传输加密
配置Kafka数据传输加密
配置HDFS数据传输加密
配置Spark数据传输加密
配置ZooKeeper数据传输加密
配置Controller与Agent间数据传输加密
配置受信任IP地址访问LDAP
加密HFile和WAL内容
配置HBase只读模式集群允许修改数据的IP白名单
配置LDAP输出审计日志
更新MRS集群加密密钥
更新MRS集群节点omm用户ssh密钥
修改MRS集群组件鉴权配置开关
配置MRS集群外节点用户访问普通模式集群资源
配置MRS集群安全通信授权
修改MRS集群系统用户密码
修改或重置MRS集群admin用户密码
修改MRS集群节点操作系统用户密码
修改MRS集群Kerberos管理员用户密码
修改MRS集群Manager用户密码
修改MRS集群LDAP普通用户密码
修改MRS集群LDAP管理账户密码
修改MRS集群组件运行用户密码
修改MRS集群数据库用户密码
修改OMS数据库管理员密码
修改OMS数据库访问用户密码
修改MRS集群组件数据库用户密码
重置MRS集群组件数据库用户密码
重置DBService数据库omm用户密码
修改DBService数据库compdbuser用户密码
查看与配置MRS告警事件
查看MRS集群事件
查看MRS集群告警
配置MRS集群告警阈值
配置MRS集群告警屏蔽状态
配置MRS集群对接SNMP网管平台上报告警
配置MRS集群对接Syslog服务器上报告警
配置定时备份告警与审计信息
开启MRS集群维护模式停止上报告警
配置MRS集群告警事件消息通知
MRS集群告警处理参考
ALM-12001 审计日志转储失败
ALM-12004 OLdap资源异常
ALM-12005 OKerberos资源异常
ALM-12006 节点故障
ALM-12007 进程故障
ALM-12010 Manager主备节点间心跳中断
ALM-12011 Manager主备节点同步数据异常
ALM-12012 NTP服务异常
ALM-12014 设备分区丢失
ALM-12015 设备分区文件系统只读
ALM-12016 CPU使用率超过阈值
ALM-12017 磁盘容量不足
ALM-12018 内存使用率超过阈值
ALM-12027 主机PID使用率超过阈值
ALM-12028 主机D状态和Z状态进程数超过阈值
ALM-12033 慢盘故障
ALM-12034 周期备份任务失败
ALM-12035 恢复任务失败后数据状态未知
ALM-12037 NTP服务器异常
ALM-12038 监控指标转储失败
ALM-12039 OMS数据库主备不同步
ALM-12040 系统熵值不足
ALM-12041 关键文件权限异常
ALM-12042 关键文件配置异常
ALM-12045 网络读包丢包率超过阈值
ALM-12046 网络写包丢包率超过阈值
ALM-12047 网络读包错误率超过阈值
ALM-12048 网络写包错误率超过阈值
ALM-12049 网络读吞吐率超过阈值
ALM-12050 网络写吞吐率超过阈值
ALM-12051 磁盘Inode使用率超过阈值
ALM-12052 TCP临时端口使用率超过阈值
ALM-12053 主机文件句柄使用率超过阈值
ALM-12054 证书文件失效
ALM-12055 证书文件即将过期
ALM-12057 元数据未配置周期备份到第三方服务器的任务
ALM-12061 进程使用率超过阈值
ALM-12062 OMS参数配置同集群规模不匹配
ALM-12063 磁盘不可用
ALM-12064 主机随机端口范围配置与集群使用端口冲突
ALM-12066 节点间互信失效
ALM-12067 tomcat资源异常
ALM-12068 acs资源异常
ALM-12069 aos资源异常
ALM-12070 controller资源异常
ALM-12071 httpd资源异常
ALM-12072 floatip资源异常
ALM-12073 cep资源异常
ALM-12074 fms资源异常
ALM-12075 pms资源异常
ALM-12076 gaussDB资源异常
ALM-12077 omm用户过期
ALM-12078 omm密码过期
ALM-12079 omm用户即将过期
ALM-12080 omm密码即将过期
ALM-12081 ommdba用户过期
ALM-12082 ommdba用户即将过期
ALM-12083 ommdba密码即将过期
ALM-12084 ommdba密码过期
ALM-12085 服务审计日志转储失败
ALM-12087 系统处于升级观察期
ALM-12089 节点间网络互通异常
ALM-12091 disaster资源异常
ALM-12099 发生core dump
ALM-12100 AD服务器连接异常
ALM-12101 AZ不健康
ALM-12102 AZ高可用组件未按容灾需求部署
ALM-12103 executor资源异常
ALM-12104 knox资源异常
ALM-12110 获取ECS临时ak/sk失败
ALM-12172 指标上报CES失败
ALM-12180 磁盘卡IO
ALM-12186 用户CGroup任务数使用率超过阈值
ALM-12187 磁盘分区扩容失败
ALM-12188 diskmgt磁盘监控服务不可用
ALM-12190 Knox连接数超过阈值
ALM-12191 磁盘IO利用率超过阈值
ALM-12192 主机负载超过阈值
ALM-12200 密码即将过期
ALM-12201 进程CPU使用率超过阈值
ALM-12202 进程内存使用率超过阈值
ALM-12203 进程Full GC时间超过阈值
ALM-12204 磁盘IO读取等待时长超过阈值
ALM-12205 磁盘IO写入等待时长超过阈值
ALM-12206 密码已经过期
ALM-12207 慢盘处理超时
ALM-13000 ZooKeeper服务不可用
ALM-13001 ZooKeeper可用连接数不足
ALM-13002 ZooKeeper直接内存使用率超过阈值
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
ALM-13004 ZooKeeper堆内存使用率超过阈值
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
ALM-13006 Znode数量或容量超过阈值
ALM-13007 ZooKeeper客户端可用连接数不足
ALM-13008 ZooKeeper Znode数量使用率超出阈值
ALM-13009 ZooKeeper Znode容量使用率超出阈值
ALM-13010 配置quota的目录Znode使用率超出阈值
ALM-14000 HDFS服务不可用
ALM-14001 HDFS磁盘空间使用率超过阈值
ALM-14002 DataNode磁盘空间使用率超过阈值
ALM-14003 丢失的HDFS块数量超过阈值
ALM-14006 HDFS文件数超过阈值
ALM-14007 NameNode堆内存使用率超过阈值
ALM-14008 DataNode堆内存使用率超过阈值
ALM-14009 Dead DataNode数量超过阈值
ALM-14010 NameService服务异常
ALM-14011 DataNode数据目录配置不合理
ALM-14012 Journalnode数据不同步
ALM-14013 NameNode FsImage文件更新失败
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
ALM-14016 DataNode直接内存使用率超过阈值
ALM-14017 NameNode直接内存使用率超过阈值
ALM-14018 NameNode非堆内存使用率超过阈值
ALM-14019 DataNode非堆内存使用率超过阈值
ALM-14020 HDFS目录条目数量超过阈值
ALM-14021 NameNode RPC处理平均时间超过阈值
ALM-14022 NameNode RPC队列平均时间超过阈值
ALM-14023 总副本预留磁盘空间所占比率超过阈值
ALM-14024 租户空间使用率超过阈值
ALM-14025 租户文件对象使用率超过阈值
ALM-14026 DataNode块数超过阈值
ALM-14027 DataNode磁盘故障
ALM-14028 待补齐的块数超过阈值
ALM-14029 单副本的块数超过阈值
ALM-14030 HDFS已开启允许写入单副本数据
ALM-14031 DataNode进程状态异常
ALM-14032 JournalNode进程状态异常
ALM-14033 ZKFC进程状态异常
ALM-14034 Router进程状态异常
ALM-14035 HttpFS进程状态异常
ALM-14036 NameNode进入安全模式
ALM-14037 存在集群外的DataNode
ALM-14038 Router堆内存使用率超过阈值
ALM-14039 集群内存在慢DataNode
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
ALM-16001 Hive数据仓库空间使用率超过阈值
ALM-16002 Hive SQL执行成功率低于阈值
ALM-16003 Background线程使用率超过阈值
ALM-16004 Hive服务不可用
ALM-16005 Hive服务进程堆内存使用超出阈值
ALM-16006 Hive服务进程直接内存使用超出阈值
ALM-16007 Hive GC 时间超出阈值
ALM-16008 Hive服务进程非堆内存使用超出阈值
ALM-16009 Map数超过阈值
ALM-16045 Hive数据仓库被删除
ALM-16046 Hive数据仓库权限被修改
ALM-16047 HiveServer已从Zookeeper注销
ALM-16048 Tez或者Spark库路径不存在
ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
ALM-17003 Oozie服务不可用
ALM-17004 Oozie堆内存使用率超过阈值
ALM-17005 Oozie非堆内存使用率超过阈值
ALM-17006 Oozie直接内存使用率超过阈值
ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
ALM-17008 Oozie连接ZooKeeper状态异常
ALM-17009 Oozie连接DBService状态异常
ALM-17010 Oozie连接HDFS状态异常
ALM-17011 Oozie连接Yarn状态异常
ALM-18000 Yarn服务不可用
ALM-18002 NodeManager心跳丢失
ALM-18003 NodeManager不健康
ALM-18008 ResourceManager堆内存使用率超过阈值
ALM-18009 JobHistoryServer堆内存使用率超过阈值
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
ALM-18013 ResourceManager直接内存使用率超过阈值
ALM-18014 NodeManager直接内存使用率超过阈值
ALM-18015 JobHistoryServer直接内存使用率超过阈值
ALM-18016 ResourceManager非堆内存使用率超过阈值
ALM-18017 NodeManager非堆内存使用率超过阈值
ALM-18018 NodeManager堆内存使用率超过阈值
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
ALM-18020 Yarn任务执行超时
ALM-18021 Mapreduce服务不可用
ALM-18022 Yarn队列资源不足
ALM-18023 Yarn任务挂起数超过阈值
ALM-18024 Yarn任务挂起内存量超阈值
ALM-18025 Yarn被终止的任务数超过阈值
ALM-18026 Yarn上运行失败的任务数超过阈值
ALM-18027 JobHistoryServer进程状态异常
ALM-18028 TimeLineServer进程状态异常
ALM-19000 HBase服务不可用
ALM-19006 HBase容灾同步失败
ALM-19007 HBase GC时间超出阈值
ALM-19008 HBase服务进程堆内存使用率超出阈值
ALM-19009 HBase服务进程直接内存使用率超出阈值
ALM-19011 RegionServer的Region数量超出阈值
ALM-19012 HBase系统表目录或文件丢失
ALM-19013 region处在RIT状态的时长超过阈值
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
ALM-19018 HBase合并队列超出阈值
ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
ALM-19021 RegionSever handler 使用率超过阈值
ALM-19022 HBase热点检测功能不可用
ALM-19023 HBase Region限流
ALM-19024 RegionServer RPC响应时间的P99超过阈值
ALM-19025 HBase存在损坏的StoreFile文件
ALM-19026 HBase存在损坏的WAL文件
ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
ALM-19031 RegionServer的RPC连接数超过阈值
ALM-19032 RegionServer的RPC写队列数超过阈值
ALM-19033 RegionServer的RPC读队列数超过阈值
ALM-19034 RegionServer WAL写入超时个数超过阈值
ALM-19035 RegionServer Call队列大小超过阈值
ALM-19036 HBase关键目录数据存在坏块
ALM-20002 Hue服务不可用
ALM-23001 Loader服务不可用
ALM-23003 Loader任务执行失败
ALM-23004 Loader堆内存使用率超过阈值
ALM-23005 Loader非堆内存使用率超过阈值
ALM-23006 Loader直接内存使用率超过阈值
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
ALM-24000 Flume服务不可用
ALM-24001 Flume Agent异常
ALM-24003 Flume Client连接中断
ALM-24004 Flume读取数据异常
ALM-24005 Flume传输数据异常
ALM-24006 Flume Server堆内存使用率超过阈值
ALM-24007 Flume Server直接内存使用率超过阈值
ALM-24008 Flume Server非堆内存使用率超过阈值
ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
ALM-24010 Flume证书文件非法或已损坏
ALM-24011 Flume证书文件即将过期
ALM-24012 Flume证书文件已过期
ALM-24013 Flume MonitorServer证书文件非法或已损坏
ALM-24014 Flume MonitorServer证书文件即将过期
ALM-24015 Flume MonitorServer证书文件已过期
ALM-25000 LdapServer服务不可用
ALM-25004 LdapServer数据同步异常
ALM-25005 Nscd服务异常
ALM-25006 Sssd服务异常
ALM-25007 SlapdServer连接数超过阈值
ALM-25008 SlapdServer CPU使用率超过阈值
ALM-25500 KrbServer服务不可用
ALM-25501 KerberosServer请求数高
ALM-26051 Storm服务不可用
ALM-26052 Storm服务可用Supervisor数量小于阈值
ALM-26053 Storm Slot使用率超过阈值
ALM-26054 Nimbus堆内存使用率超过阈值
ALM-27001 DBService服务不可用
ALM-27003 DBService主备节点间心跳中断
ALM-27004 DBService主备数据不同步
ALM-27005 数据库连接数使用率超过阈值
ALM-27006 数据目录磁盘空间使用率超过阈值
ALM-27007 数据库进入只读模式
ALM-29000 Impala服务不可用
ALM-29004 Impalad进程内存占用率超过阈值
ALM-29005 Impalad JDBC连接数超过阈值
ALM-29006 Impalad ODBC连接数超过阈值
ALM-29010 Impalad 正在提交的查询总数超过阈值
ALM-29011 Impalad 正在执行的查询总数超过阈值
ALM-29012 Impalad 正在等待的查询总数超过阈值
ALM-29013 Impalad FGCT超过阈值
ALM-29014 Catalog FGCT超过阈值
ALM-29015 Catalog进程内存占用率超过阈值
ALM-29016 Impalad实例亚健康
ALM-29100 Kudu服务不可用
ALM-29104 Tserver进程内存占用率超过阈值
ALM-29106 Tserver进程CPU占用率过高
ALM-29107 Tserver进程内存使用百分比超过阈值
ALM-38000 Kafka服务不可用
ALM-38001 Kafka磁盘容量不足
ALM-38002 Kafka堆内存使用率超过阈值
ALM-38004 Kafka直接内存使用率超过阈值
ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
ALM-38007 Kafka默认用户状态异常
ALM-38008 Kafka数据目录状态异常
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
ALM-38010 存在单副本的Topic
ALM-38011 Broker上用户连接数使用率超过设定阈值
ALM-38012 Broker的分区数量超过阈值
ALM-38013 Produce请求在请求队列的时延超过阈值
ALM-38014 Produce请求总体时延超过阈值
ALM-38015 Fetch请求在请求队列的时延超过阈值
ALM-38016 Fetch请求总体时延超过阈值
ALM-38017 分区均衡时间超过阈值
ALM-38018 Kafka消息积压
ALM-43001 Spark2x服务不可用
ALM-43006 JobHistory2x进程堆内存使用超出阈值
ALM-43007 JobHistory2x进程非堆内存使用超出阈值
ALM-43008 JobHistory2x进程直接内存使用超出阈值
ALM-43009 JobHistory2x进程GC时间超出阈值
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
ALM-43013 JDBCServer2x进程GC时间超出阈值
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
ALM-43018 JobHistory2x进程Full GC次数超出阈值
ALM-43019 IndexServer2x进程堆内存使用超出阈值
ALM-43020 IndexServer2x进程非堆内存使用超出阈值
ALM-43021 IndexServer2x进程直接内存使用超出阈值
ALM-43022 IndexServer2x进程GC时间超出阈值
ALM-43023 IndexServer2x进程Full GC次数超出阈值
ALM-43028 JDBCServer Session过载
ALM-43029 JDBCServer作业提交超时
ALM-44000 Presto服务不可用
ALM-44004 Presto Coordinator资源组排队任务超过阈值
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
ALM-44006 Presto Worker进程垃圾收集时间超出阈值
ALM-45000 HetuEngine服务不可用
ALM-45001 HetuEngine计算实例故障
ALM-45003 HetuEngine QAS磁盘容量不足
ALM-45004 HetuEngine计算实例任务积压
ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
ALM-45007 HetuEngine计算实例Worker个数小于阈值
ALM-45008 HetuEngine计算实例查询时延超过阈值
ALM-45009 HetuEngine计算实例任务失败率超过阈值
ALM-45175 OBS元数据接口调用平均时间超过阈值
ALM-45176 OBS元数据接口调用成功率低于阈值
ALM-45177 OBS数据读操作接口调用成功率低于阈值
ALM-45178 OBS数据写操作接口调用成功率低于阈值
ALM-45179 OBS readFully接口调用失败数高于阈值
ALM-45180 OBS read接口调用失败数高于阈值
ALM-45181 OBS write接口调用失败数高于阈值
ALM-45182 OBS操作被流控次数高于阈值
ALM-45275 Ranger服务不可用
ALM-45276 RangerAdmin状态异常
ALM-45277 RangerAdmin堆内存使用率超过阈值
ALM-45278 RangerAdmin直接内存使用率超过阈值
ALM-45279 RangerAdmin非堆内存使用率超过阈值
ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
ALM-45281 UserSync堆内存使用率超过阈值
ALM-45282 UserSync直接内存使用率超过阈值
ALM-45283 UserSync非堆内存使用率超过阈值
ALM-45284 UserSync垃圾回收(GC)时间超过阈值
ALM-45285 TagSync堆内存使用率超过阈值
ALM-45286 TagSync直接内存使用率超过阈值
ALM-45287 TagSync非堆内存使用率超过阈值
ALM-45288 TagSync垃圾回收(GC)时间超过阈值
ALM-45289 PolicySync堆内存使用率超过阈值
ALM-45290 PolicySync直接内存使用率超过阈值
ALM-45291 PolicySync非堆内存使用率超过阈值
ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
ALM-45293 Ranger用户同步异常
ALM-45294 RangerKMS进程状态异常
ALM-45325 Presto服务不可用
ALM-45326 Presto Coordinator线程数超过阈值
ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
ALM-45328 Presto Worker进程垃圾收集时间超出阈值
ALM-45329 Presto Coordinator资源组排队任务超过阈值
ALM-45330 Presto Worker线程数超过阈值
ALM-45331 Presto Worker1线程数超过阈值
ALM-45332 Presto Worker2线程数超过阈值
ALM-45333 Presto Worker3线程数超过阈值
ALM-45334 Presto Worker4线程数超过阈值
ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
ALM-45425 ClickHouse服务不可用
ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
ALM-45428 ClickHouse磁盘IO异常
ALM-45429 ClickHouse扩容节点上同步表元数据失败
ALM-45430 ClickHouse扩容节点上同步权限元数据失败
ALM-45431 ClickHouse 实例不满足拓扑分配
ALM-45432 ClickHouse用户同步进程故障
ALM-45433 ClickHouse AZ拓扑检查异常
ALM-45434 ClickHouse组件数据表中存在单副本
ALM-45435 ClickHouse表元数据不一致
ALM-45436 ClickHouse表数据倾斜
ALM-45437 ClickHouse表part数量过多
ALM-45438 ClickHouse磁盘使用率超过80%
ALM-45439 ClickHouse节点进入只读模式
ALM-45440 ClickHouse副本间不一致
ALM-45441 ZooKeeper连接断开
ALM-45442 SQL并发数过高
ALM-45443 集群存在慢SQL查询
ALM-45444 ClickHouse进程异常
ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
ALM-45446 ClickHouse的mutation任务长时间未执行完成
ALM-45447 ClickHouse表只读
ALM-45448 ClickHouse使用Znode数量增长速率过快
ALM-45449 ClickHouse使用zxid即将翻转
ALM-45450 ClickHouse获取临时委托凭据失败
ALM-45451 ClickHouse访问OBS失败
ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
ALM-45585 IoTDB服务不可用
ALM-45586 IoTDBServer堆内存使用率超过阈值
ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
ALM-45588 IoTDBServer直接内存使用率超过阈值
ALM-45589 ConfigNode堆内存使用率超过阈值
ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
ALM-45591 ConfigNode直接内存使用率超过阈值
ALM-45592 IoTDBServer RPC执行时长超过阈值
ALM-45593 IoTDBServer Flush执行时长超过阈值
ALM-45594 IoTDBServer空间内合并执行时长超过阈值
ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
ALM-45596 Procedure执行失败
ALM-45615 CDL服务不可用
ALM-45616 CDL任务执行异常
ALM-45617 CDL复制槽Slot积压数据量超过阈值
ALM-45635 FlinkServer作业失败
ALM-45636 Flink作业连续checkpoint失败
ALM-45636 Flink作业连续checkpoint失败次数超阈值
ALM-45637 FlinkServer作业task持续背压
ALM-45638 FlinkServer作业失败重启次数超阈值
ALM-45638 Flink作业失败重启次数超阈值
ALM-45639 Flink作业checkpoint完成时间超过阈值
ALM-45640 FlinkServer主备节点间心跳中断
ALM-45641 FlinkServer主备节点同步数据异常
ALM-45642 RocksDB持续触发写限流
ALM-45643 RocksDB的MemTable大小持续超过阈值
ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
ALM-45645 RocksDB的Pending Flush持续超过阈值
ALM-45646 RocksDB的Pending Compaction持续超过阈值
ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
ALM-45648 RocksDB持续发生Write-Stopped
ALM-45649 RocksDB的Get P95耗时持续超过阈值
ALM-45650 RocksDB的Write P95耗时持续超过阈值
ALM-45652 Flink服务不可用
ALM-45653 Flink HA证书文件失效
ALM-45654 Flink HA证书文件即将过期
ALM-45655 Flink HA证书文件已过期
ALM-45736 Guardian服务不可用
ALM-45737 TokenServer堆内存使用率超过阈值
ALM-45738 TokenServer直接内存使用率超过阈值
ALM-45739 TokenServer非堆内存使用率超过阈值
ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
ALM-45741 请求ECS securitykey接口失败
ALM-45742 请求ECS metadata接口失败
ALM-45743 请求IAM接口失败
ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
ALM-47001 MemArtsCC服务不可用
ALM-47002 MemArtsCC磁盘故障
ALM-47003 MemArtsCC Worker进程内存使用超过阈值
ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
ALM-50201 Doris服务不可用
ALM-50202 FE CPU使用率超过阈值
ALM-50203 FE内存使用率超过阈值
ALM-50205 BE CPU使用率超过阈值
ALM-50206 BE内存使用率超过阈值
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
ALM-50209 生成元数据镜像文件失败的次数超过阈值
ALM-50210 所有BE节点中最大的compaction score值超过阈值
ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
ALM-50212 FE进程的老年代GC耗时累计值超过阈值
ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
ALM-50216 FE节点使用的内存比率超过阈值
ALM-50217 FE节点堆内存的使用率超过阈值
ALM-50219 当前查询执行线程池等待队列的长度超过阈值
ALM-50220 TCP包接收错误的次数的比率超过阈值
ALM-50221 BE数据盘的使用率超过阈值
ALM-50222 BE中指定数据目录的磁盘状态异常
ALM-50223 BE所需最大内存大于机器剩余可用内存
ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
ALM-50225 FE实例故障
ALM-50226 BE实例故障
ALM-50227 Doris租户查询并发数超过阈值
ALM-50228 Doris租户内存使用率超过阈值
ALM-50229 Doris FE连接OBS不可用
ALM-50230 Doris BE连接OBS不可用
ALM-50231 Doris中存在异常Tablet
ALM-50232 Doris中存在较大的Tablet
ALM-50401 JobServer中等待执行的任务数超过阈值
ALM-50402 JobGateway服务不可用
ALM-12001 审计日志转储失败(2.x及以前版本)
ALM-12002 HA资源异常(2.x及以前版本)
ALM-12004 OLdap资源异常(2.x及以前版本)
ALM-12005 OKerberos资源异常(2.x及以前版本)
ALM-12006 节点故障(2.x及以前版本)
ALM-12007 进程故障(2.x及以前版本)
ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
ALM-12012 NTP服务异常(2.x及以前版本)
ALM-12014 设备分区丢失(2.x及以前版本)
ALM-12015 设备分区文件系统只读(2.x及以前版本)
ALM-12016 CPU使用率超过阈值(2.x及以前版本)
ALM-12017 磁盘容量不足(2.x及以前版本)
ALM-12018 内存使用率超过阈值(2.x及以前版本)
ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
ALM-12031 omm用户或密码即将过期(2.x及以前版本)
ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
ALM-12033 慢盘故障(2.x及以前版本)
ALM-12034 周期备份任务失败(2.x及以前版本)
ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
ALM-12037 NTP服务器异常(2.x及以前版本)
ALM-12038 监控指标转储失败(2.x及以前版本)
ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
ALM-12040 系统熵值不足(2.x及以前版本)
ALM-12041关键文件权限异常(2.x及以前版本)
ALM-12042 关键文件配置异常(2.x及以前版本)
ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
ALM-12054 证书文件失效(2.x及以前版本)
ALM-12055 证书文件即将过期(2.x及以前版本)
ALM-12180 磁盘卡IO(2.x及以前版本)
ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
ALM-14000 HDFS服务不可用(2.x及以前版本)
ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
ALM-14010 NameService服务异常(2.x及以前版本)
ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
ALM-16004 Hive服务不可用(2.x及以前版本)
ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
ALM-18000 Yarn服务不可用(2.x及以前版本)
ALM-18002 NodeManager心跳丢失(2.x及以前版本)
ALM-18003 NodeManager不健康(2.x及以前版本)
ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
ALM-18006 执行MapReduce任务超时(2.x及以前版本)
ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
ALM-19000 HBase服务不可用(2.x及以前版本)
ALM-19006 HBase容灾同步失败(2.x及以前版本)
ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
ALM-20002 Hue服务不可用(2.x及以前版本)
ALM-23001 Loader服务不可用(2.x及以前版本)
ALM-24000 Flume服务不可用(2.x及以前版本)
ALM-24001 Flume Agent异常(2.x及以前版本)
ALM-24003 Flume Client连接中断(2.x及以前版本)
ALM-24004 Flume读取数据异常(2.x及以前版本)
ALM-24005 Flume传输数据异常(2.x及以前版本)
ALM-25000 LdapServer服务不可用(2.x及以前版本)
ALM-25004 LdapServer数据同步异常(2.x及以前版本)
ALM-25500 KrbServer服务不可用(2.x及以前版本)
ALM-26051 Storm服务不可用(2.x及以前版本)
ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
ALM-27001 DBService服务不可用(2.x及以前版本)
ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
ALM-27004 DBService主备数据不同步(2.x及以前版本)
ALM-28001 Spark服务不可用(2.x及以前版本)
ALM-38000 Kafka服务不可用(2.x及以前版本)
ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
ALM-43001 Spark服务不可用(2.x及以前版本)
ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
ALM-45325 Presto服务不可用(2.x及以前版本)
配置MRS集群远程运维
MRS集群服务常用端口列表
配置MRS集群存算分离
MRS存算分离配置流程说明
配置MRS集群通过IAM委托对接OBS
配置MRS集群通过IAM委托对接OBS
配置MRS集群组件回收站目录清理策略
集群服务对接OBS示例
配置Flink通过IAM委托访问OBS
配置Flume通过IAM委托访问OBS
配置HDFS通过IAM委托访问OBS
配置Hive通过IAM委托访问OBS
配置Hudi通过IAM委托访问OBS
配置MapReduce通过IAM委托访问OBS
配置Presto通过IAM委托访问OBS
配置Spark通过IAM委托访问OBS
配置Sqoop通过IAM委托访问OBS
配置MRS集群用户的OBS的细粒度访问权限
存算分离常见问题
运行MRS作业时如何读取OBS加密数据
HDFS对接OBS业务应用开发样例说明
MRS集群客户端如何通过AK/SK信息对接OBS
安装在集群外的MRS客户端如何访问OBS
访问MRS集群Manager(2.x及之前版本)
MRS集群Core节点扩容成功后状态异常如何处理
组件操作指南(LTS版)
使用CarbonData
CarbonData数据类型概述
CarbonData表用户权限说明
使用Spark客户端创建CarbonData表
CarbonData数据分析
新建CarbonData表
删除CarbonData表
修改CarbonData表
加载CarbonData表数据
删除CarbonData表Segments
合并CarbonData表Segments
CarbonData性能调优
CarbonData调优思路
CarbonData性能调优常见配置参数
创建高查询性能的CarbonData表
CarbonData常见配置参数
CarbonData语法参考
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
CarbonData表操作并发语法说明
CarbonData Segment API语法说明
CarbonData表空间索引语法说明
CarbonData常见问题
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库发生Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
CarbonData故障排除
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
executor内存不足导致查询性能下降
为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
使用CDL
CDL数据集成概述
CDL用户权限管理
快速使用CDL创建数据同步作业
创建CDL作业前准备
开启Kafka高可靠功能
登录CDLService WebUI界面
上传数据库驱动文件
创建CDL数据库连接
管理CDL ENV变量
配置源数据心跳表实现数据判齐功能
创建CDL作业
创建CDL数据同步任务作业
创建CDL数据比较任务作业
使用CDL从PgSQL同步数据到Kafka
使用CDL从PgSQL同步数据到Hudi
使用CDL从Opengauss同步数据到Hudi
使用CDL从Hudi同步数据到DWS
使用CDL从Hudi同步数据到ClickHouse
使用CDL同步openGauss数据到Hudi(ThirdKafka)
使用CDL同步drs-oracle-json数据到Hudi(ThirdKafka)
使用CDL同步drs-oracle-avro数据到Hudi(ThirdKafka)
CDL作业数据DDL变更说明
CDL日志介绍
CDL常见问题
为什么CDL任务执行后Hudi中没有接收到数据
MySQL链路任务启动时如何从指定位置抓取数据
为什么在Ranger中删除用户权限后,该用户仍能够操作自己创建的任务
CDL故障排除
停止CDL任务时报“403”错误
CDL任务运行一段时间后发生“104”或“143”报错
从ogg同步数据到Hudi时,ogg Source配置的Task值与任务实际运行的Task数量不一致
CDL同步任务名对应的Topic分区过多
执行CDL同步数据到Hudi任务报错当前用户无权限创建表
启动从PgSQL中抓取数据到Hudi任务报错
使用ClickHouse
ClickHouse概述
ClickHouse用户权限管理
ClickHouse用户权限说明
创建ClickHouse角色
配置ClickHouse对接OpenLDAP认证系统
ClickHouse客户端使用实践
ClickHouse数据导入
配置ClickHouse对接RDS MySQL数据库
配置ClickHouse对接OBS源文件
配置ClickHouse对接HDFS源文件
配置ClickHouse对接Kafka
配置ClickHouse通过用户密码对接Kafka
配置ClickHouse通过Kerberos认证对接Kafka
配置ClickHouse对接普通模式Kafka
同步Kafka数据至ClickHouse
导入DWS表数据至ClickHouse
ClickHouse数据批量导入
ClickHouse数据导入导出
ClickHouse企业级能力增强
ClickHouse多租户管理
ClickHouse多租户介绍
开启ClickHouse租户CPU优先级配置
创建ClickHouse租户
修改ClickHouse服务级别内存限制
查看ClickHouse慢查询语句
查看ClickHouse复制表数据同步监控
配置ClickHouse副本间数据强一致
配置ClickHouse支持事务能力
配置通过ELB访问ClickHouse
ClickHouse性能调优
ClickHouse数据表分区过多调优
ClickHouse加速Merge调优
ClickHouse加速TTL操作调优
ClickHouse运维管理
ClickHouse日志介绍
收集ClickHouse系统表转储日志
配置ClickHouse表为只读表模式
集群内ClickHouseServer节点间数据迁移
迁移MRS集群内ClickHouse数据至其他MRS集群
扩容ClickHouse节点磁盘
通过数据文件备份恢复ClickHouse数据
配置ClickHouse默认用户密码(MRS 3.1.2-LTS版本)
配置ClickHouse默认用户密码(MRS 3.3.0-LTS版本)
清除ClickHouse默认用户密码
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
Delete轻量化删除表数据
SELECT查询表数据
ALTER TABLE修改表结构
ALTER TABLE修改表数据
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
Upsert数据写入
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
如何迁移Hive/HDFS的数据到ClickHouse
如何迁移OBS/S3的数据到ClickHouse
使用辅助Zookeeper或者副本数据同步表数据时,日志报错
如何为ClickHouse用户赋予数据库级别的Select权限
使用DBService
配置DBService HA模块的SSL
还原DBService HA模块的SSL配置
配置DBService备份任务超时时间
DBService日志介绍
使用Doris
Doris数据模型概述
Doris用户权限管理
Doris用户权限说明
创建Doris权限角色
使用MySQL客户端连接Doris
快速使用Doris
Doris数据导入
使用Broker Load方式导入数据至Doris
使用Stream Load方式导入数据至Doris
Doris数据分析
导出Doris数据至HDFS
导出Doris查询结果集
Doris企业级能力增强
配置Doris高可用功能
Doris集群高可用方案概述
配置通过ELB访问Doris集群
配置Doris支持多源数据
Doris多源数据能力概述
配置Doris对接Hive数据源
Doris运维管理
Doris日志介绍
访问Doris WebUI页面查看组件状态
手动备份Doris数据
手动恢复Doris数据
Doris常见SQL语法说明
CREATE DATABASE
CREATE TABLE
INSERT INTO
ALTER TABLE
DROP TABLE
Doris常见问题
数据目录SSD和HDD的配置导致建表时偶现报错
使用Stream Load时报RPC超时错误
使用MySQL客户端连接Doris数据库时报错“plugin not enabled”如何处理
FE启动失败
BE匹配错误IP导致启动失败
MySQL客户端连接Doris报错“Read timed out”
BE运行数据导入或查询任务报错
Broker Load导入数据时报超时错误
使用Broker Load导入数据报错
Doirs故障排除
多副本场景下,运行在副本丢失损坏的BE节点的查询任务报错
FE服务故障如何恢复
Broker Load导入任务的数据量超过阈值
使用Flink
Flink作业引擎概述
Flink用户权限管理
Flink安全认证机制说明
Flink用户权限说明
创建FlinkServer权限角色
配置Flink对接Kafka安全认证
配置Flink认证和加密
Flink客户端使用实践
创建FlinkServer作业前准备
访问FlinkServer WebUI界面
创建FlinkServer应用
创建FlinkServer集群连接
创建FlinkServer数据连接
创建FlinkServer流表源
创建FlinkServer作业
创建FlinkServer作业写入数据至ClickHouse表
创建FlinkServer作业对接DWS表
创建FlinkServer作业写入数据至HBase表
创建FlinkServer作业写入数据至HDFS文件系统
创建FlinkServer作业写入数据至Hive表
创建FlinkServer作业写入数据至Hudi表
创建FlinkServer作业写入数据至Kafka消息队列
管理FlinkServer作业
查看FlinkServer作业健康状况
导入导出FlinkServer作业信息
配置FlinkServer作业运行残留信息自动清理
配置FlinkServer作业重启策略
配置FlinkServer作业中添加第三方依赖jar
配置FlinkServer作业中使用UDF
Flink企业级能力增强
Flink SQL语法增强
多流Join场景支持配置表级别的TTL时间
配置Flink SQL Client支持SQL校验功能
Flink作业大小表Join能力增强
Flink运维管理
Flink常用配置参数
Flink日志介绍
Flink性能调优
优化Flink内存GC参数
配置Flink任务并行度
配置Flink任务进程参数
优化Flink Netty网络通信参数
Flink作业RocksDB状态后端调优
配置Flink作业状态后端冷热数据分离存储
Flink客户端常见命令说明
Flink常见SQL语法说明
Flink常见问题
Flink故障排除
使用Flume
Flume日志采集概述
Flume业务模型配置说明
安装Flume客户端
快速使用Flume采集节点日志
配置Flume非加密传输数据采集任务
生成Flume服务端和客户端的配置文件
使用Flume服务端从本地采集静态日志保存到Kafka
使用Flume服务端从本地采集静态日志保存到HDFS
使用Flume服务端从本地采集动态日志保存到HDFS
使用Flume服务端从Kafka采集日志保存到HDFS
使用Flume客户端从Kafka采集日志保存到HDFS
使用多级agent串联从本地采集静态日志保存到HBase
配置Flume加密传输数据采集任务
使用多级agent串联从本地采集静态日志保存到HDFS
Flume企业级能力增强
使用Flume客户端加密工具
配置Flume对接安全模式Kafka
Flume运维管理
Flume常用配置参数
Flume日志介绍
查看Flume客户端日志
查看Flume客户端监控信息
停止或卸载Flume客户端
Flume常见问题
如何查看Flume日志
如何在Flume配置文件中使用环境变量
如何开发Flume第三方插件
如何配置Flume定制脚本
使用HBase
创建HBase权限角色
HBase客户端使用实践
快速使用HBase进行离线数据分析
使用BulkLoad工具向HBase迁移数据
HBase数据操作
创建HBase索引进行数据查询
配置HBase数据压缩格式和编码
HBase企业级能力增强
配置HBase全局二级索引提升查询效率
HBase全局二级索引介绍
创建HBase全局二级索引
查询HBase全局二级索引信息
修改HBase全局二级索引状态
批量构建HBase全局二级索引数据
检查HBase全局二级索引数据一致性
基于全局二级索引查询HBase表数据
配置HBase本地二级索引提升查询效率
HBase本地二级索引介绍
批量加载HBase数据并生成本地二级索引
使用TableIndexer工具生成HBase本地二级索引
增强HBase BulkLoad工具数据迁移能力
使用BulkLoad工具批量导入HBase数据
使用BulkLoad工具批量更新HBase数据
使用BulkLoad工具批量删除HBase数据
使用BulkLoad工具查询HBase表的行统计数
BulkLoad工具配置文件说明
配置BulkloadTool工具支持解析自定义分隔符
配置HBase冷热分离
配置HBase冷热数据分离存储
HBase冷热分离相关命令介绍
配置RSGroup管理RegionServer资源
查看HBase慢请求和超大请求信息
HBase性能调优
提升HBase BulkLoad工具批量加载效率
提升HBase连续Put数据场景性能
提升HBase Put和Scan数据性能
提升HBase实时写数据效率
提升HBase实时读数据效率
提升HBase非业务高峰期的Compaction执行速度
HBase JVM参数优化说明
HBase运维管理
HBase日志介绍
配置Region Transition恢复线程
启用集群间拷贝功能备份集群数据
配置HBase主备集群数据自动备份
HBase集群容灾高可用
配置HBase主备集群容灾
HBase容灾集群主备倒换
HBase容灾集群业务切换指导
HBase常见问题
结束BulkLoad客户端程序,导致作业执行失败
如何修复长时间处于RIT状态的Region
HMaster等待NameSpace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”
停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
访问HBase Phoenix提示权限不足如何处理
使用HBase BulkLoad功能提示权限不足如何处理
如何修复Overlap状态的HBase Region
Phoenix BulkLoad Tool使用限制说明
CTBase对接Ranger权限插件,提示权限不足
HBase全局二级索引API介绍说明
HBase故障排除
HBase客户端连接服务端时长时间无法连接成功
在HBase连续对同一个表名做删除创建操作时出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
有210000个map和10000个reduce的HBase BulkLoad任务运行失败
使用scan命令仍然可以查询到已修改和已删除的数据
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名
为什么给HBase使用的HDFS目录设置quota会造成HBase故障
使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
HMaster日志中频繁打印出FileNotFoundException信息
ImportTsv工具执行失败报“Permission denied”异常
使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果
HBase恢复数据任务报错回滚失败
HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
使用Phoenix Sqlline脚本报import argparse错误
如何查看ENABLED表的CLOSED状态的Region
集群异常掉电导致HBase文件损坏,如何快速自恢复?
使用HDFS
HDFS文件系统目录简介
HDFS用户权限管理
创建HDFS权限角色
配置HDFS用户访问HDFS文件权限
HDFS客户端使用实践
快速使用Hadoop
配置HDFS文件回收站机制
配置HDFS DataNode数据均衡
配置HDFS DiskBalancer磁盘均衡
配置HDFS Mover命令迁移数据
配置HDFS文件目录标签策略(NodeLabel)
配置NameNode内存参数
设置HBase和HDFS的句柄数限制
配置HDFS单目录文件数量
HDFS企业级能力增强
配置HDFS快速关闭文件功能
配置DataNode节点容量不一致时的副本放置策略
配置DataNode预留磁盘百分比
配置从NameNode支持读操作
配置NameNode黑名单功能
配置Hadoop数据传输加密
HDFS性能调优
提升HDFS写数据性能
配置HDFS客户端元数据缓存提高读取性能
使用活动缓存提升HDFS客户端连接性能
HDFS网络不稳定场景调优
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
执行HDFS文件并发操作命令
使用LZC压缩算法存储HDFS文件
HDFS运维管理
HDFS常用配置参数
HDFS日志介绍
规划HDFS容量
更改DataNode的存储目录
调整DataNode磁盘坏卷信息
配置HDFS token的最大存活时间
使用distcp命令跨集群复制HDFS数据
配置NFS服务器存储NameNode元数据
HDFS客户端常见命令说明
HDFS常见问题
执行distcp命令报错如何处理
HDFS执行Balance时被异常停止如何处理
访问HDFS WebUI时,界面提示无法显示此页
HDFS WebUI无法正常刷新损坏数据的信息
NameNode节点长时间满负载导致客户端无响应
为什么主NameNode重启后系统出现双备现象
为什么DataNode无法正常上报数据块
是否可以手动调整DataNode数据存储目录
DataNode的容量计算出错如何处理
为什么存储小文件过程中,缓存中的数据会丢失
当分级存储策略为LAZY_PERSIST时为什么文件的副本的存储类型为DISK
为什么NameNode UI上显示有一些块缺失
HDFS故障排除
往HDFS写数据时报错“java.net.SocketException”
删除大量文件后重启NameNode耗时长
EditLog不连续导致NameNode启动失败
当备NameNode存储元数据时,断电后备NameNode启动失败
dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
HDFS调用FileInputFormat的getsplit的时候出现数组越界
使用HetuEngine
HetuEngine交互查询引擎概述
HetuEngine用户权限管理
HetuEngine用户权限说明
创建HetuEngine权限角色
配置HetuEngine使用代理用户鉴权
快速使用HetuEngine访问Hive数据源
创建HetuEngine计算实例
添加HetuEngine数据源
使用HetuEngine跨源跨域访问数据源
添加Hive数据源
添加Hudi数据源
添加ClickHouse数据源
添加GAUSSDB数据源
添加HBase数据源
添加跨集群HetuEngine数据源
添加IoTDB数据源
添加MySQL数据源
配置HetuEngine物化视图
HetuEngine物化视图概述
HetuEngine物化视图SQL示例
配置HetuEngine物化视图改写能力
配置HetuEngine物化视图推荐能力
配置HetuEngine物化视图缓存能力
配置HetuEngine物化视图的有效期与数据刷新能力
配置HetuEngine智能物化视图能力
查看HetuEngine物化视图自动化任务
配置HetuEngine SQL诊断功能
开发和部署HetuEngine UDF
开发和部署HetuEngine Function Plugin
开发和部署对接HetuEngine的Hive UDF
开发和部署HetuEngine UDF
管理HetuEngine数据源
管理HetuEngine计算实例
配置HetuEngine资源组
配置HetuEngine Worker节点数量
配置HetuEngine维护实例
配置HetuEngine Coordinator运行的节点范围
导入导出HetuEngine计算实例配置
查看HetuEngine实例监控页面
查看HetuEngine Coordinator和Worker日志
配置HetuEngine查询容错执行能力
HetuEngine性能调优
调整Yarn资源分配
调整HetuEngine集群节点资源配置
调整HetuEngine INSERT写入优化
调整HetuEngine元数据缓存
调整HetuEngine动态过滤
开启HetuEngine自适应查询执行
调整Hive元数据超时
调整Hudi数据源性能
HetuEngine日志介绍
HetuEngine常见SQL语法说明
HetuEngine数据类型说明
HetuEngine DDL SQL语法说明
CREATE SCHEMA
CREATE VIRTUAL SCHEMA
CREATE TABLE
CREATE TABLE AS
CREATE TABLE LIKE
CREATE VIEW
CREATE FUNCTION
CREATE MATERIALIZED VIEW
ALTER MATERIALIZED VIEW STATUS
ALTER MATERIALIZED VIEW
ALTER TABLE
ALTER VIEW
ALTER SCHEMA
DROP SCHEMA
DROP TABLE
DROP VIEW
DROP FUNCTION
DROP MATERIALIZED VIEW
REFRESH MATERIALIZED VIEW
TRUNCATE TABLE
COMMENT
VALUES
SHOW语法使用概要
SHOW CATALOGS
SHOW SCHEMAS(DATABASES)
SHOW TABLES
SHOW TBLPROPERTIES TABLE|VIEW
SHOW TABLE/PARTITION EXTENDED
SHOW STATS
SHOW FUNCTIONS
SHOW SESSION
SHOW PARTITIONS
SHOW COLUMNS
SHOW CREATE TABLE
SHOW VIEWS
SHOW CREATE VIEW
SHOW MATERIALIZED VIEWS
SHOW CREATE MATERIALIZED VIEW
HetuEngine DML SQL语法说明
INSERT
DELETE
UPDATE
LOAD
HetuEngine TCL SQL语法说明
START TRANSACTION
COMMIT
ROLLBACK
HetuEngine DQL SQL语法说明
SELECT
WITH
GROUP BY
HAVING
UNION | INTERSECT | EXCEPT
ORDER BY
OFFSET
LIMIT | FETCH FIRST
TABLESAMPLE
UNNEST
JOINS
Subqueries
SELECT VIEW CONTENT
REWRITE HINT
HetuEngine SQL函数和操作符说明
逻辑运算符
比较函数和运算符
条件表达式
Lambda 表达式
转换函数
数学函数和运算符
Bitwise函数
十进制函数和操作符
字符串函数和运算符
正则表达式函数
二进制函数和运算符
Json函数和运算符
日期、时间函数及运算符
聚合函数
窗口函数
数组函数和运算符
Map函数和运算符
URL函数
Geospatial函数
HyperLogLog函数
Color 函数
Session信息
Teradata函数
Data masking函数
IP Address函数
Quantile digest函数
T-Digest函数
Set Digest函数
HetuEngine辅助命令语法
USE
SET SESSION
RESET SESSION
DESCRIBE
DESCRIBE FORMATTED COLUMNS
DESCRIBE DATABASE| SCHEMA
DESCRIBE INPUT
DESCRIBE OUTPUT
EXPLAIN
EXPLAIN ANALYZE
REFRESH CATALOG
REFRESH SCHEMA
REFRESH TABLE
ANALYZE
CALL
PREPARE
DEALLOCATE PREPARE
EXECUTE
VERIFY
HetuEngine预留关键字
HetuEngine数据类型隐式转换
开启HetuEngine数据类型隐式转换
关闭HetuEngine数据类型隐式转换
HetuEngine隐式转换对照表
HetuEngine样例表数据准备
HetuEngine常用数据源语法兼容性说明
HetuEngine常见问题
HetuEngine域名修改后需要做什么
通过客户端启动HetuEngine集群超时如何处理
如何处理HetuEngine数据源丢失问题
HetuEngine故障排除
HetuEngine计算实例启动失败报错Python不存在
HetuEngine计算实例启动后状态为故障
使用Hive
Hive用户权限管理
Hive用户权限说明
创建Hive角色
配置Hive表、列或数据库的用户权限
配置Hive业务使用其他组件的用户权限
Hive客户端使用实践
快速使用Hive进行数据分析
Hive数据存储及加密配置
使用HDFS Colocation存储Hive表
配置Hive分区元数据冷热存储
Hive支持ZSTD压缩格式
使用ZSTD_JNI压缩算法压缩Hive ORC表
配置Hive列加密功能
Hive on HBase
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置Hive读取关系型数据库
配置Hive读取Hudi表
Hive企业级能力增强
配置Hive表不同分区分别存储至OBS和HDFS
配置Hive目录旧数据自动移除至回收站
配置Hive插入数据到不存在的目录中
配置创建Hive内部表时不能指定Location
配置用户在具有读和执行权限的目录中创建外表
配置基于HTTPS/HTTP协议的REST接口
配置Hive Transform功能开关
切换Hive执行引擎为Tez
Hive负载均衡
配置Hive任务的最大map数
配置用户租约隔离访问指定节点的HiveServer
配置组件隔离访问Hive MetaStore
配置HiveMetaStore客户端连接负载均衡
配置Hive单表动态视图的访问控制权限
配置创建临时函数的用户不需要具有ADMIN权限
配置具备表select权限的用户可查看表结构
配置仅Hive管理员用户能创建库和在default库建表
配置Hive支持创建超过32个角色
创建Hive用户自定义函数
配置Hive Beeline高可靠性
Hive性能调优
建立Hive表分区提升查询效率
Hive Join数据优化
Hive Group By语句优化
Hive ORC数据存储优化
Hive SQL逻辑优化
使用Hive CBO功能优化多表查询效率
Hive运维管理
Hive常用配置参数
Hive日志介绍
导入导出Hive数据库
导入导出Hive表/分区数据
使用Hive异常文件定位定界工具
Hive常见SQL语法说明
Hive SQL扩展语法说明
自定义Hive表行分隔符
Hive支持的传统关系型数据库语法说明
Hive常见问题
如何删除所有HiveServer中的永久函数
为什么已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
Hive不支持复杂类型字段名称中包含哪些特殊字符
如何对Hive表大小数据进行监控
如何防止insert overwrite语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿如何处理
Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的JDK访问beeline客户端出现连接HiveServer失败
Hive表的Location支持跨OBS和HDFS路径吗
MapReduce引擎无法查询Tez引擎执行union语句写入的数据
Hive是否支持对同一张表或分区进行并发写数据
Hive是否支持向量化查询
Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错
如何关闭Hive客户端日志
为什么在Hive自定义配置中添加OBS快删目录后不生效
Hive配置类问题
Hive故障排除
如何对insert overwrite自读自写场景进行优化
使用Hudi
Hudi表概述
使用Spark Shell创建Hudi表
使用Hudi-Cli.sh操作Hudi表
Hudi写操作
批量写入Hudi表
流式写入Hudi表
将Hudi表数据同步到Hive
Hudi读操作
读取Hudi数据概述
读取Hudi cow表视图
读取Hudi mor表视图
数据管理维护
Hudi Clustering操作说明
Hudi Cleaning操作说明
Hudi Compaction操作说明
Hudi Savepoint操作说明
配置Hudi历史数据清理
Hudi Payload操作说明
Hudi SQL语法参考
Hudi SQL使用约束
Hudi DDL语法说明
CREATE TABLE
CREATE TABLE AS SELECT
DROP TABLE
SHOW TABLE
ALTER RENAME TABLE
ALTER ADD COLUMNS
ALTER COLUMN
TRUNCATE TABLE
Hudi DML语法说明
INSERT INTO
MERGE INTO
UPDATE
DELETE
COMPACTION
SET/RESET
ARCHIVELOG
CLEAN
CLEANARCHIVE
Hudi CALL COMMAND语法说明
CHANGE_TABLE
CLEAN_FILE
SHOW_TIME_LINE
SHOW_HOODIE_PROPERTIES
SAVE_POINT
ROLL_BACK
CLUSTERING
Cleaning
Compaction
SHOW_COMMIT_FILES
SHOW_FS_PATH_DETAIL
SHOW_LOG_FILE
SHOW_INVALID_PARQUET
Hudi Schema演进
Schema演进介绍
配置SparkSQL支持Hudi Schema演进
Hudi Schema演进及语法说明
ADD COLUMNS
ALTER COLUMN
DROP COLUMN
RENAME
SET
RENAME COLUMN
Hudi Schema演进并发说明
配置Hudi数据列默认值
Hudi常见配置参数
Hudi性能调优
Hudi故障处理
写入更新数据时报错Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue
访问Hue WebUI界面
创建Hue操作任务
通过Hue执行HiveQL
通过Hue执行SparkSQL
通过Hue查看Hive元数据
通过Hue管理HDFS文件
通过Hue管理Oozie作业
通过Hue管理HBase表
通过Hue执行HetuEngine SQL
配置HDFS冷热数据迁移
Hue常用配置参数
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
Hue WebUI中Oozie编辑器的时区设置问题
Hue故障排除
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
访问Hue原生页面时间长,文件浏览器报错Read timed out
使用IoTDB
IoTDB支持的数据类型和编码
IoTDB用户权限管理
IoTDB用户权限说明
创建IoTDB权限角色
IoTDB客户端使用实践
快速使用IoTDB
创建IoTDB用户自定义函数(UDF)
IoTDB UDF概述
运行IoTDB UDF样例程序
IoTDB性能调优
IoTDB运维管理
IoTDB常用配置参数
IoTDB日志介绍
规划IoTDB容量
手动导入IoTDB数据
手导出IoTDB数据
使用JobGateway
JobGateway常见参数
JobGateway日志介绍
使用Kafka
Kafka用户权限管理
Kafka用户权限说明
创建Kafka权限角色
配置Kafka用户Token认证信息
Kafka客户端使用实践
使用Kafka生产消费数据
创建Kafka Topic
在Kafka Topic中接入消息
管理Kafka Topic
查看Kafka Topic信息
修改Kafka Topic配置
增加Kafka Topic分区
管理Kafka Topic中的消息
查看Kafka数据生产消费详情
Kafka企业级能力增强
配置Kafka高可用和高可靠
配置Kafka数据安全传输协议
配置Kafka数据均衡工具
配置外网客户端访问Kafka Broker
Kafka性能调优
Kafka运维管理
Kafka常用配置参数
Kafka日志介绍
更改Kafka Broker的存储目录
迁移Kafka节点内数据
Kafka常见问题
Kafka业务规格说明
Kafka相关特性说明
基于binlog的MySQL数据同步到MRS集群中
如何解决Kafka Topic无法删除的问题
使用Loader
Loader数据导入导出概述
Loader用户权限管理
创建Loader角色
上传MySQL数据库连接驱动
创建Loader数据导入作业
使用Loader导入数据至MRS集群
使用Loader从SFTP服务器导入数据到HDFS/OBS
使用Loader从SFTP服务器导入数据到HBase
使用Loader从SFTP服务器导入数据到Hive
使用Loader从FTP服务器导入数据到HBase
使用Loader从关系型数据库导入数据到HDFS/OBS
使用Loader从关系型数据库导入数据到HBase
使用Loader从关系型数据库导入数据到Hive
使用Loader从HDFS/OBS导入数据到HBase
使用Loader从关系型数据库导入数据到ClickHouse
使用Loader从HDFS导入数据到ClickHouse
创建Loader数据导出作业
使用Loader导出MRS集群内数据
使用Loader从HDFS/OBS导出数据到SFTP服务器
使用Loader从HBase导出数据到SFTP服务器
使用Loader从Hive导出数据到SFTP服务器
使用Loader从HDFS/OBS导出数据到关系型数据库
使用Loader从HDFS导出数据到MOTService
使用Loader从HBase导出数据到关系型数据库
使用Loader从Hive导出数据到关系型数据库
使用Loader从HBase导出数据到HDFS/OBS
使用Loader从HDFS导出数据到ClickHouse
管理Loader作业
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看Loader作业历史信息
清理Loader作业残留历史数据
管理Loader数据连接
Loader运维管理
Loader常用参数
Loader日志介绍
Loader算子帮助
Loader算子说明
Loader输入类算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
Loader转换类算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
Loader输出类算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
管理Loader算子的字段配置信息
Loader算子配置项中使用宏定义
Loader算子数据处理规则
客户端工具说明
使用客户端运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
使用sqoop-shell工具导入数据到HDFS
使用sqoop-shell工具导入数据到HBase
Loader常见问题
使用IE浏览器配置Loader作业时无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
SQLServer全数据类型导入HDFS数据跳过
Loader作业导入大量数据至HDFS时报错
sftp-connector连接器相关作业运行失败
使用Mapreduce
配置使用分布式缓存执行MapReduce任务
配置MapReduce shuffle address
配置MapReduce集群管理员列表
通过Windows系统提交MapReduce任务
配置MapReduce任务日志归档和清理机制
MapReduce性能调优
多CPU内核下MapReduce调优配置
配置MapReduce Job基线
MapReduce Shuffle调优
MapReduce大任务的AM调优
配置MapReduce任务推测执行
通过Slow Start调优MapReduce任务
MapReduce任务commit阶段优化
降低MapReduce客户端运行任务失败率
MapReduce日志介绍
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
为什么运行任务时客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN如何处理
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下运行MapReduce任务失败
基于分区的任务黑名单异常如何处理
使用Oozie
使用Oozie客户端提交作业
Oozie客户端配置说明
使用Oozie客户端提交Hive任务
使用Oozie客户端提交Spark2x任务
使用Oozie客户端提交Loader任务
使用Oozie客户端提交DistCp任务
使用Oozie客户端提交其他任务
使用Hue提交Oozie作业
使用Hue创建工作流
使用Hue提交Oozie Hive2作业
使用Hue提交Oozie HQL脚本
使用Hue提交Oozie Spark2x作业
使用Hue提交Oozie Java作业
使用Hue提交Oozie Loader作业
使用Hue提交Oozie Mapreduce作业
使用Hue提交Oozie Sub workflow作业
使用Hue提交Oozie Shell作业
使用Hue提交Oozie HDFS作业
使用Hue提交Oozie Streaming作业
使用Hue提交Oozie Distcp作业
使用Hue提交Oozie SSH作业
使用Hue提交Coordinator定时调度作业
使用Hue提交Bundle批处理作业
在Hue界面中查询Oozie作业结果
配置Oozie节点间用户互信
Oozie企业级能力增强
开启Oozie HA机制
使用Share Lib工具检查Oozie依赖Jar包正确性
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行如何处理
HDFS上更新了Oozie的share lib目录但没有生效
Oozie作业执行失败常用排查手段
使用Ranger
MRS集群服务启用Ranger鉴权
登录Ranger WebUI界面
添加Ranger权限策略
Ranger权限策略配置示例
添加CDL的Ranger访问权限策略
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加HetuEngine的Ranger访问权限策略
添加OBS的Ranger访问权限策略
Hive表支持级联授权功能
查看Ranger审计信息
配置Ranger安全区信息
查看Ranger用户权限同步信息
Ranger性能调优
Ranger日志介绍
Ranger常见问题
如何判断某个服务是否使用了Ranger鉴权
为什么新创建用户修改完密码后无法登录Ranger
Ranger故障排除
安装集群过程中Ranger启动失败
配置HBase权限策略时无法使用通配符搜索已存在的HBase表
使用Spark/Spark2x
Spark使用说明
Spark用户权限管理
SparkSQL用户权限介绍
创建SparkSQL角色
配置Spark表、列和数据库的用户权限
配置SparkSQL业务用户权限
配置Spark Web UI ACL
Spark客户端和服务端权限参数配置说明
Spark客户端使用实践
访问Spark WebUI界面
使用代理用户提交Spark作业
配置Spark读取HBase表数据
配置Spark任务不获取HBase Token信息
Spark Core企业级能力增强
配置Spark HA增强高可用
配置多主实例模式
配置Spark多租户模式
配置多主实例与多租户模式切换
配置Spark Native引擎
配置Spark事件队列大小
配置parquet表的压缩格式
使用Ranger时适配第三方JDK
使用Spark小文件合并工具说明
使用Spark小文件合并工具说明
配置流式读取Spark Driver执行结果
配置Spark Executor退出时执行自定义代码
Spark SQL企业级能力增强
配置矢量化读取ORC数据
配置过滤掉分区表中路径不存在的分区
配置Drop Partition命令支持批量删除
配置Hive表分区动态覆盖
配置Spark SQL开启Adaptive Execution特性
Spark Streaming企业级能力增强
配置Spark Streaming对接Kafka时数据后进先出功能
配置Spark Streaming对接Kafka可靠性
配置Structured Streaming使用RocksDB做状态存储
Spark Core性能调优
Spark Core数据序列化
Spark Core内存调优
设置Spark Core并行度
配置Spark Core广播变量
配置Spark Executor堆内存参数
使用External Shuffle Service提升Spark Core性能
配置Yarn模式下Spark动态资源调度
调整Spark Core进程参数
Spark DAG设计规范说明
经验总结
Spark SQL性能调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
Spark INSERT SELECT语句调优
配置多并发客户端连接JDBCServer
配置SparkSQL的分块个数
Spark动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming性能调优
Spark on OBS性能调优
Spark运维管理
快速配置Spark参数
Spark常用配置参数
Spark日志介绍
获取运行中Spark应用的Container日志
调整Spark日志级别
配置WebUI上查看Container日志
配置WebUI上显示的Lost Executor信息的个数
配置JobHistory本地磁盘缓存
配置Spark Eventlog日志回滚
增强有限内存下的稳定性
配置YARN-Client和YARN-Cluster不同模式下的环境变量
Hive分区修剪的谓词下推增强
配置列统计值直方图Histogram用以增强CBO准确度
CarbonData首查优化工具
Spark常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
Spark客户端设置回收站version不生效
Spark yarn-client模式下如何修改日志级别为INFO
Spark故障排除
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
Spark多服务场景下,普通用户无法登录Spark客户端
安装使用集群外客户端时,连接集群端口失败
Datasource Avro格式查询异常
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
SQL语法兼容TIMESTAMP/DATE特殊字符
使用Tez
访问Tez WebUI查看任务执行结果
Tez常用配置参数
Tez日志介绍
Tez常见问题
Tez WebUI界面无法展示Tez任务详情
访问Tez WebUI界面异常
Tez WebUI界面无法查看Yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn用户权限管理
创建Yarn角色
使用Yarn客户端提交任务
配置Container日志聚合功能
启用Yarn CGroups功能限制Container CPU使用率
配置TimelineServer支持HA
Yarn企业级能力增强
配置Yarn权限控制开关
手动指定运行Yarn任务的用户
配置AM失败重试次数
配置AM自动调整分配内存
配置AM作业自动保留
配置Yarn数据访问通道协议
配置自定义调度器的WebUI
配置NodeManager角色实例使用的资源
配置ResourceManager重启后自动加载Container信息
Yarn性能调优
调整Yarn任务抢占机制
手动配置Yarn任务优先级
Yarn节点配置调优
Yarn运维管理
Yarn常用配置参数
Yarn日志介绍
配置Yarn本地化日志级别
检测Yarn内存使用情况
更改NodeManager的存储目录
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
执行任务时AppAttempts重试次数超过2次还没有运行失败
ResourceManager重启后,应用程序会移回原来的队列
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
使用ZooKeeper客户端
配置ZooKeeper ZNode ACL
ZooKeeper常用配置参数
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后ZooKeeper Server启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么ZooKeeper节点上netcat命令无法正常运行
如何查看哪个ZooKeeper实例是Leader
如何使用IBM JDK连接ZooKeeper
ZooKeeper客户端刷新TGT失败如何处理
使用deleteall命令删除大量znode时报错“Node does not exist”
附录
修改集群服务配置参数
访问集群Manager
使用MRS客户端
安装MRS客户端
更新MRS客户端
组件操作指南(普通版)
使用Alluxio
配置底层存储系统
通过数据应用访问Alluxio
Alluxio常用操作
使用CarbonData(MRS 3.x之前版本)
从零开始使用CarbonData
CarbonData表简介
创建CarbonData表
删除CarbonData表
使用CarbonData(MRS 3.x及之后版本)
CarbonData数据类型概述
CarbonData表用户权限说明
使用Spark客户端创建CarbonData表
CarbonData数据分析
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
加载CarbonData表数据
删除CarbonData表Segments
合并CarbonData表Segments
CarbonData性能调优
CarbonData调优思路
CarbonData性能调优常见配置参数
创建CarbonData Table的建议
CarbonData常见配置参数
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
CarbonData表操作并发语法说明
CarbonData Segment API语法说明
CarbonData表空间索引语法说明
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
executor内存不足导致查询性能下降
CarbonData常见问题
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库发生Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
使用ClickHouse
ClickHouse概述
ClickHouse用户权限管理
ClickHouse用户及权限管理
ClickHouse使用OpenLDAP认证
使用ClickHouse客户端
ClickHouse表创建
ClickHouse数据导入
配置ClickHouse对接RDS MySQL数据库
配置ClickHouse对接OBS源文件
同步Kafka数据至ClickHouse
导入DWS表数据至ClickHouse
ClickHouse数据导入导出
ClickHouse企业级能力增强
通过ELB访问ClickHouse
ClickHouse开启mysql_port配置
ClickHouse性能调优
数据表报错Too many parts解决方法
加速Merge操作
加速TTL操作
ClickHouse运维管理
ClickHouse日志介绍
ClickHouse集群管理
ClickHouse集群配置说明
ClickHouse增加磁盘容量
通过数据文件备份恢复ClickHouse数据
配置ClickHouse系统表的生命周期
集群内ClickHouseServer节点间数据迁移
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
ALTER TABLE修改表数据
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
如何迁移Hive/HDFS的数据到ClickHouse
使用辅助Zookeeper或者副本数据同步表数据时,日志报错
如何为ClickHouse用户赋予数据库级别的Select权限
使用DBService
DBService日志介绍
使用Flink
Flink作业引擎概述
Flink用户权限管理
Flink安全认证机制说明
Flink用户权限说明
创建FlinkServer权限角色
配置Flink对接Kafka安全认证
配置Flink认证和加密
Flink客户端使用实践
创建FlinkServer作业前准备
访问FlinkServer WebUI界面
创建FlinkServer应用
创建FlinkServer集群连接
创建FlinkServer数据连接
创建FlinkServer流表源
创建FlinkServer作业
管理FlinkServer作业
配置FlinkServer重启策略
配置FlinkServer作业中使用UDF
Flink运维管理
Flink常用配置参数
Flink日志介绍
Flink性能调优
优化Flink内存GC参数
配置Flink任务并行度
配置Flink任务进程参数
优化Flink Netty网络通信参数
Flink客户端常见命令说明
Flink常见问题
签发Flink证书样例
使用Flume
Flume日志采集概述
Flume业务模型配置说明
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
快速使用Flume采集节点日志
配置Flume非加密传输数据采集任务
生成Flume服务端和客户端的配置文件
使用Flume服务端从本地采集静态日志保存到Kafka
使用Flume服务端从本地采集静态日志保存到HDFS
使用Flume服务端从本地采集动态日志保存到HDFS
使用Flume服务端从Kafka采集日志保存到HDFS
使用Flume客户端从Kafka采集日志保存到HDFS
使用多级agent串联从本地采集静态日志保存到HBase
配置Flume加密传输数据采集任务
配置Flume加密传输
使用多级agent串联从本地采集静态日志保存到HDFS
Flume企业级能力增强
使用Flume客户端加密工具
配置Flume对接安全模式Kafka
Flume运维管理
Flume常用配置参数
Flume业务配置指南
Flume日志介绍
查看Flume客户端日志
查看Flume客户端监控信息
停止或卸载Flume客户端
Flume常见问题
如何查看Flume日志
如何在Flume配置文件中使用环境变量
如何开发Flume第三方插件
如何配置Flume定制脚本
使用HBase
创建HBase权限角色
HBase客户端使用实践
快速使用HBase进行离线数据分析
使用BulkLoad工具向HBase迁移数据
HBase数据操作
创建HBase索引进行数据查询
配置HBase数据压缩格式和编码
HBase企业级能力增强
配置HBase本地二级索引提升查询效率
HBase本地二级索引介绍
批量加载HBase数据并生成本地二级索引
使用TableIndexer工具生成HBase本地二级索引
迁移HBase索引数据
增强HBase BulkLoad工具数据迁移能力
使用BulkLoad工具批量导入HBase数据
使用BulkLoad工具批量更新HBase数据
使用BulkLoad工具批量删除HBase数据
使用BulkLoad工具查询HBase表的行统计数
BulkLoad工具配置文件说明
配置RSGroup管理RegionServer资源
HBase性能调优
提升HBase BulkLoad工具批量加载效率
提升HBase连续Put数据场景性能
提升HBase Put和Scan性能综合调优
提升HBase实时写数据效率
提升HBase实时读数据效率
HBase JVM参数优化说明
HBase运维管理
HBase日志介绍
HBase常用参数配置
配置Region Transition恢复线程
启用集群间拷贝功能备份集群数据
配置HBase主备集群数据自动备份
HBase集群容灾高可用
配置HBase主备集群容灾
HBase容灾集群主备倒换
HBase容灾集群业务切换指导
HBase常见问题
结束BulkLoad客户端程序,导致作业执行失败
如何修复长时间处于RIT状态的Region
HMaster等待NameSpace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied”
停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
访问HBase Phoenix提示权限不足如何处理
租户使用HBase BulkLoad功能提示权限不足如何处理
如何修复Overlap状态的HBase Region
Phoenix BulkLoad Tool使用限制说明
CTBase对接Ranger权限插件,提示权限不足
HBase故障排除
HBase客户端连接服务端时,长时间无法连接成功
在HBase连续对同一个表名做删除创建操作时出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
有210000个map和10000个reduce的HBase BulkLoad任务运行失败
使用scan命令仍然可以查询到已修改和已删除的数据
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名
为什么给HBase使用的HDFS目录设置quota会造成HBase故障
使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
HMaster日志中频繁打印出FileNotFoundException信息
ImportTsv工具执行失败报“Permission denied”异常
使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果
HBase数据恢复任务报错回滚失败
HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
使用Phoenix Sqlline脚本报import argparse错误
使用HDFS
HDFS文件系统目录简介
HDFS用户权限管理
创建HDFS权限角色
配置HDFS用户访问HDFS文件权限
HDFS客户端使用实践
快速使用Hadoop
配置HDFS文件回收站机制
配置HDFS DataNode数据均衡
配置HDFS DiskBalancer磁盘均衡
配置HDFS Mover命令迁移数据
配置HDFS文件目录标签策略(NodeLabel)
配置NameNode内存参数
设置HBase和HDFS的句柄数限制
配置HDFS单目录文件数量
HDFS企业级能力增强
配置DataNode节点容量不一致时的副本放置策略
配置DataNode预留磁盘百分比
配置从NameNode支持读操作
配置NameNode黑名单功能
配置Hadoop数据传输加密
HDFS性能调优
提升HDFS写数据性能
配置HDFS客户端元数据缓存提高读取性能
使用活动缓存提升HDFS客户端连接性能
HDFS网络不稳定场景调优
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
执行HDFS文件并发操作命令
使用LZC压缩算法存储HDFS文件
HDFS运维管理
HDFS常用配置参数
HDFS日志介绍
查看HDFS容量状态
更改DataNode的存储目录
调整DataNode磁盘坏卷信息
配置HDFS token的最大存活时间
使用distcp命令跨集群复制HDFS数据
配置NFS服务器存储NameNode元数据
HDFS常见问题
执行distcp命令报错如何处理
HDFS执行Balance时被异常停止如何处理
访问HDFS WebUI时,界面提示无法显示此页
HDFS WebUI无法正常刷新损坏数据的信息
NameNode节点长时间满负载导致客户端无响应
为什么主NameNode重启后系统出现双备现象
为什么DataNode无法正常上报数据块
是否可以手动调整DataNode数据存储目录
DataNode的容量计算出错如何处理
为什么存储小文件过程中,缓存中的数据会丢失
当分级存储策略为LAZY_PERSIST时为什么文件的副本的存储类型为DISK
为什么NameNode UI上显示有一些块缺失
HDFS故障排除
往HDFS写数据时报错“java.net.SocketException”
删除大量文件后重启NameNode耗时长
EditLog不连续导致NameNode启动失败
当备NameNode存储元数据时,断电后备NameNode启动失败
dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
HDFS调用FileInputFormat的getsplit的时候出现数组越界
使用Hive
Hive用户权限管理
Hive用户权限说明
创建Hive角色
配置Hive表、列或数据库的用户权限
配置Hive业务使用其他组件的用户权限
Hive客户端使用实践
快速使用Hive进行数据分析
Hive数据存储及加密配置
使用HDFS Colocation存储Hive表
配置Hive分区元数据冷热存储
Hive支持ZSTD压缩格式
配置Hive列加密功能
Hive on HBase
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置Hive读取关系型数据库数据
Hive企业级能力增强
配置Hive目录旧数据自动移除至回收站
配置Hive插入数据到不存在的目录中
配置创建Hive内部表时不能指定Location
配置用户在具有读和执行权限的目录中创建外表
配置基于HTTPS/HTTP协议的REST接口
配置Hive Transform功能开关
切换Hive执行引擎为Tez
Hive负载均衡
配置Hive任务的最大map数
配置用户租约隔离访问指定节点的HiveServer
配置Hive单表动态视图的访问控制权限
配置创建临时函数的用户不需要具有ADMIN权限
配置具备表select权限的用户可查看表结构
配置仅Hive管理员用户能创建库和在default库建表
配置Hive支持创建超过32个角色
创建Hive用户自定义函数
配置Hive Beeline高可靠性
Hive性能调优
建立Hive表分区提升查询效率
Hive Join数据优化
Hive Group By语句优化
Hive ORC数据存储优化
Hive SQL逻辑优化
使用Hive CBO功能优化查询效率
Hive运维管理
Hive常用常用配置参数
Hive日志介绍
Hive常见SQL语法说明
Hive SQL扩展语法说明
自定义Hive表行分隔符
Hive支持的传统关系型数据库语法说明
Hive常见问题
如何删除所有HiveServer中的永久函数
为什么已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
Hive不支持复杂类型字段名称中包含哪些特殊字符
如何对Hive表大小数据进行监控
如何防止insert overwrite语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿如何处理
Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的JDK访问Beeline客户端出现连接HiveServer失败
Hive表的Location支持跨OBS和HDFS路径吗
MapReduce引擎无法查询Tez引擎执行union语句写入的数据
Hive是否支持对同一张表或分区进行并发写数据
Hive是否支持向量化查询
Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错
如何关闭Hive客户端日志
为什么在Hive自定义配置中添加OBS快删目录后不生效
Hive配置类问题
Hive故障排除
如何对insert overwrite自读自写场景进行优化
Hive SQL运行变慢阶段如何排查
使用Hudi
Hudi表概述
使用Spark Shell创建Hudi表
使用Hudi-Cli.sh操作Hudi表
Hudi写操作
批量写入Hudi表
流式写入Hudi表
将Hudi表数据同步到Hive
Hudi读操作
读取Hudi数据概述
读取Hudi cow表视图
读取Hudi mor表视图
数据管理维护
Hudi Clustering操作说明
Hudi Cleaning操作说明
Hudi Compaction操作说明
Hudi Savepoint操作说明
Hudi常见配置参数
写入操作配置
同步Hive表配置
index相关配置
存储配置
compaction&cleaning配置
单表并发控制配置
Hudi性能调优
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue(MRS 3.x之前版本)
访问Hue WebUI界面
使用Hue WebUI操作Hive表
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
Hue常用配置参数
使用Hue(MRS 3.x及之后版本)
访问Hue WebUI界面
使用Hue WebUI操作Hive表
创建Hue操作任务
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
使用Hue WebUI典型场景
HDFS on Hue
配置HDFS冷热数据迁移
Hive on Hue
Oozie on Hue
Hue常用配置参数
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
Hue WebUI中Oozie编辑器的时区设置问题
访问Hue原生页面时间长,文件浏览器报错Read timed out
使用Impala
Impala客户端使用实践
访问Impala WebUI界面
使用Impala操作Kudu表
Impala对接外部LDAP
Impala启用并配置动态资源池
使用Impala查询管理界面
Impala常见配置参数
Impala常见问题
Impala服务是否支持磁盘热插拔
使用Kafka
Kafka数据消费概述
Kafka用户权限管理
Kafka用户权限说明
创建Kafka权限角色
配置Kafka用户Token认证信息
Kafka客户端使用实践
快速使用Kafka生产消费数据
创建Kafka Topic
在Kafka Topic中接入消息
管理Kafka Topic
查看Kafka Topic信息
修改Kafka Topic配置
增加Kafka Topic分区
管理Kafka Topic中的消息
查看Kafka数据生产消费详情
Kafka企业级能力增强
配置Kafka高可用和高可靠
配置Kafka数据安全传输协议
配置Kafka数据均衡工具
Kafka性能调优
Kafka运维管理
Kafka常用配置参数
Kafka日志介绍
更改Broker的存储目录
迁移Kafka节点内数据
均衡Kafka扩容节点后数据
Kafka常见问题
Kafka业务规格说明
Kafka相关特性说明
基于binlog的MySQL数据同步到MRS集群中
如何解决Kafka topic无法删除的问题
使用KafkaManager
KafkaManager介绍
访问KafkaManager的WebUI
管理Kafka集群
Kafka集群监控管理
使用Loader
从零开始使用Loader
Loader使用简介
Loader常用参数
创建Loader角色
Loader连接配置说明
管理Loader连接(MRS 3.x之前版本)
管理Loader连接(MRS 3.x及之后版本)
Loader作业源连接配置说明
Loader作业目的连接配置说明
管理Loader作业
准备MySQL数据库连接的驱动
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
样例:通过Loader将数据从OBS导入HDFS
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Kudu
从零开始使用Kudu
访问Kudu的WebUI
使用MapReduce
配置使用分布式缓存执行MapReduce任务
配置MapReduce shuffle address
配置MapReduce集群管理员列表
通过Windows系统提交MapReduce任务
配置MapReduce任务日志归档和清理机制
MapReduce性能调优
多CPU内核下的MapReduce调优配置
配置MapReduce Job基线
MapReduce Shuffle调优
MapReduce大任务的AM调优
配置MapReduce任务推测执行
通过Slow Start调优MapReduce任务
MapReduce任务commit阶段优化
降低MapReduce客户端运行任务失败率
MapReduce日志介绍
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
为什么运行任务时客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN如何处理
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下运行MapReduce任务失败
基于分区的任务黑名单异常如何处理
使用OpenTSDB
使用MRS客户端操作OpenTSDB指标数据
使用curl命令操作OpenTSDB
使用Oozie
使用Oozie客户端提交作业
Oozie客户端配置说明
使用Oozie客户端提交Hive任务
使用Oozie客户端提交Spark2x任务
使用Oozie客户端提交Loader任务
使用Oozie客户端提交DistCp任务
使用Oozie客户端提交其它任务
使用Hue提交Oozie作业
使用Hue创建工作流
使用Hue提交Oozie Hive2作业
使用Hue提交Oozie HQL脚本
使用Hue提交Oozie Spark2x作业
使用Hue提交Oozie Java作业
使用Hue提交Oozie Loader作业
使用Hue提交Oozie Mapreduce作业
使用Hue提交Oozie Sub workflow作业
使用Hue提交Oozie Shell作业
使用Hue提交Oozie HDFS作业
使用Hue提交Oozie Streaming作业
使用Hue提交Oozie Distcp作业
使用Hue提交Oozie SSH作业
使用Hue提交Coordinator定时调度作业
使用Hue提交提交Bundle批处理作业
在Hue界面中查询Oozie作业结果
配置Oozie节点间用户互信
开启Oozie HA机制
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行如何处理
HDFS上更新了oozie的share lib目录但没有生效
Oozie作业执行失败常用排查手段
使用Presto
访问Presto的WebUI
使用Presto客户端执行查询语句
Presto常见问题
Presto配置多Hive连接
使用Ranger(MRS 1.9.2)
创建Ranger集群
访问Ranger WebUI及同步Unix用户到Ranger WebUI
在Ranger中配置Hive/Impala的访问权限
在Ranger中配置HBase的访问权限
使用Ranger(MRS 3.x)
登录Ranger WebUI界面
MRS集群服务启用Ranger鉴权
添加Ranger权限策略
Ranger权限策略配置示例
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Impala的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加Storm的Ranger访问权限策略
查看Ranger审计信息
配置Ranger安全区信息
普通集群修改Ranger数据源为Ldap
查看Ranger用户权限同步信息
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
在Ranger管理界面查看不到创建的MRS用户
MRS用户无法同步至Ranger管理界面
使用Spark(MRS 3.x之前版本)
从零开始使用Spark
从零开始使用Spark SQL
使用Spark客户端
访问Spark Web UI界面
Spark对接OpenTSDB
创建表关联OpenTSDB
插入数据至OpenTSDB表
查询OpenTSDB表
默认配置修改
使用Spark2x(MRS 3.x及之后版本)
Spark用户权限管理
SparkSQL权限介绍
创建SparkSQL角色
配置Spark表、列和数据库的用户权限
配置SparkSQL业务用户权限
配置Spark2x Web UI ACL
Spark客户端和服务端权限参数配置说明
Spark客户端使用实践
配置Spark读取HBase表数据
配置Spark任务不获取HBase Token信息
Spark Core企业级能力增强
配置Spark HA增强高可用
配置多主实例模式
配置Spark多租户模式
配置多主实例与多租户模式切换
配置Spark事件队列大小
配置parquet表的压缩格式
使用Ranger时适配第三方JDK
使用Spark小文件合并工具说明
配置流式读取Spark Driver执行结果
Spark SQL企业级能力增强
配置矢量化读取ORC数据
配置过滤掉分区表中路径不存在的分区
配置Hive表分区动态覆盖
配置Spark SQL开启Adaptive Execution特性
配置SparkSQL的分块个数
Spark Streaming企业级能力增强
配置Kafka后进先出
配置对接Kafka可靠性
Spark Core性能调优
Spark Core数据序列化
Spark Core内存调优
Spark Core内存调优
配置Spark Core广播变量
配置Spark Executor堆内存参数
使用External Shuffle Service提升Spark Core性能
配置Yarn模式下Spark动态资源调度
调整Spark Core进程参数
Spark DAG设计规范说明
经验总结
Spark SQL性能调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
Spark INSERT SELECT语句调优
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming性能调优
Spark运维管理
快速配置参数
常用参数
Spark2x日志介绍
调整Spark日志级别
配置WebUI上查看Container日志
获取运行中Spark应用的Container日志
配置Spark Eventlog日志回滚
配置WebUI上显示的Lost Executor信息的个数
配置JobHistory本地磁盘缓存
增强有限内存下的稳定性
配置YARN-Client和YARN-Cluster不同模式下的环境变量
Hive分区修剪的谓词下推增强
配置列统计值直方图Histogram用以增强CBO准确度
CarbonData首查优化工具
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
使用Sqoop
Sqoop客户端使用实践
Sqoop1.4.7适配MRS 3.x集群
Sqoop常用命令及参数介绍
Sqoop常见问题
报错找不到QueryProvider类
使用hcatalog方式同步数据,报错getHiveClient方法不存在
连接postgresql或者gaussdb时报错
使用hive-table方式同步数据到obs上的hive表报错
使用hive-table方式同步数据到orc表或者parquet表失败
使用hive-table方式同步数据报错
使用hcatalog方式同步hive parquet表报错
使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错
使用Storm
从零开始使用Storm
使用Storm客户端
使用客户端提交Storm拓扑
访问Storm的WebUI
管理Storm拓扑
查看Storm拓扑日志
Storm常用参数
配置Storm业务用户密码策略
迁移Storm业务至Flink
概述
完整迁移Storm业务
嵌入式迁移Storm业务
迁移Storm对接的外部安全组件业务
Storm日志介绍
性能调优
Storm性能调优
使用Tez
访问Tez WebUI查看任务执行结果
Tez常用配置参数
Tez日志介绍
Tez常见问题
TezUI无法展示Tez任务执行细节
进入Tez WebUI界面显示异常
TezUI界面无法查看Yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn用户权限管理
创建Yarn角色
使用Yarn客户端提交任务
配置Container日志聚合功能
启用Yarn CGroups功能限制Container CPU使用率
Yarn企业级能力增强
配置Yarn权限控制开关
手动指定运行Yarn任务的用户
配置AM失败重试次数
配置AM自动调整分配内存
配置AM作业自动保留
配置Yarn数据访问通道协议
配置自定义调度器的WebUI
配置NodeManager角色实例使用的资源
配置ResourceManager重启后自动加载Container信息
Yarn性能调优
调整Yarn任务抢占机制
手动配置Yarn任务优先级
Yarn节点配置调优
Yarn运维管理
Yarn常用配置参数
Yarn日志介绍
配置Yarn本地化日志级别
检测Yarn内存使用情况
更改NodeManager的存储目录
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
执行任务时AppAttempts重试次数超过2次还没有运行失败
在ResourceManager重启后,应用程序会移回原来的队列
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
使用ZooKeeper客户端
配置ZooKeeper ZNode ACL
ZooKeeper常用配置参数
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量ZNode后ZooKeeper Server启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么ZooKeeper节点上netcat命令无法正常运行
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令删除大量znode时偶现报错“Node does not exist”
常见操作
修改集群服务配置参数
访问集群Manager
访问MRS Manager(MRS 3.x之前版本)
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
最佳实践
数据分析
使用Spark2x实现车联网车主驾驶行为分析
使用Hive加载HDFS数据并分析图书评分情况
使用Hive加载OBS数据并分析企业雇员信息
通过Flink作业处理OBS数据
通过Spark Streaming作业消费Kafka数据
通过Flume采集指定目录日志系统文件至HDFS
基于Kafka的Word Count数据流统计案例
数据迁移
数据迁移方案介绍
准备工作
元数据导出
数据复制
数据恢复
数据迁移到MRS前信息收集
数据迁移到MRS前网络准备
使用CDM服务迁移Hadoop数据至MRS集群
使用CDM服务迁移HBase数据至MRS集群
使用CDM服务迁移Hive数据至MRS集群
使用BulkLoad工具向HBase中批量导入数据
使用CDM服务迁移MySQL数据至MRS Hive
使用CDM服务迁移MRS HDFS数据至OBS
周边云服务对接
使用MRS Spark SQL访问DWS表
Hive对接CSS服务
使用MRS Hive表对接OBS文件系统
生态组件对接
使用DBeaver访问Phoenix
使用DBeaver访问HetuEngine
使用FineBI访问HetuEngine
使用Tableau访问HetuEngine
使用永洪BI访问HetuEngine
Hive对接外置自建关系型数据库
Hive对接外部LDAP
使用Kafka Eagle对接MRS Kafka
使用Jupyter Notebook对接MRS Spark
MRS集群管理
配置MRS集群阈值类告警
提交Spark任务到新增Task节点
配置MRS集群弹性伸缩
开发指南
开发指南(LTS版)
MRS组件应用开发简介
获取MRS应用开发样例工程
MRS组件应用安全认证说明
准备MRS应用开发用户
快速开发MRS组件应用
快速开发HBase应用
快速开发HDFS应用
快速开发Hive JDBC应用
快速开发Hive HCatalog应用
快速开发Kafka应用
快速开发Flink应用
快速开发ClickHouse应用
快速开发Spark应用
ClickHouse开发指南(安全模式)
ClickHouse应用开发简介
ClickHouse应用开发流程介绍
准备ClickHouse应用开发环境
准备ClickHouse应用开发和运行环境
导入并配置ClickHouse样例工程
开发ClickHouse应用
ClickHouse应用程序开发思路
配置ClickHouse连接属性
建立ClickHouse连接
创建ClickHouse数据库
创建ClickHouse表
插入ClickHouse数据
查询ClickHouse数据
删除ClickHouse表
调测ClickHouse应用
在本地Windows环境中调测ClickHouse应用
在Linux环境中调测ClickHouse应用
ClickHouse开发指南(普通模式)
ClickHouse应用开发简介
ClickHouse应用开发流程介绍
准备ClickHouse应用开发环境
准备ClickHouse应用开发和运行环境
导入并配置ClickHouse样例工程
开发ClickHouse应用
ClickHouse应用程序开发思路
配置ClickHouse连接属性
建立ClickHouse连接
创建ClickHouse数据库
创建ClickHouse表
插入ClickHouse数据
查询ClickHouse数据
删除ClickHouse表
调测ClickHouse应用
在本地Windows环境中调测ClickHouse应用
在Linux环境中调测ClickHouse应用
Flink开发指南(安全模式)
Flink应用开发简介
Flink应用开发流程介绍
准备Flink应用开发环境
准备本地应用开发环境
配置Flink应用安全认证
导入并配置Flink样例工程
导入并配置Flink SpringBoot样例工程
开发Flink应用
Flink DataStream样例程序
Flink DataStream样例程序开发思路
Flink DataStream样例程序(Java)
Flink DataStream样例程序(Scala)
Flink Kafka样例程序
Flink Kafka样例程序开发思路
Flink Kafka样例程序(Java)
Flink Kafka样例程序(Scala)
Flink开启Checkpoint样例程序
Flink开启Checkpoint样例程序开发思路
Flink开启Checkpoint样例程序(Java)
Flink开启Checkpoint样例程序(Scala)
Flink Job Pipeline样例程序
Flink Job Pipeline样例程序开发思路
Flink Job Pipeline样例程序(Java)
Flink Job Pipeline样例程序(Scala)
Flink Join样例程序
Flink Join样例程序开发思路
Flink Join样例程序(Java)
Flink Join样例程序(Scala)
Flink Jar作业提交SQL样例程序
Flink Jar作业提交SQL样例程序开发思路
Flink Jar作业提交SQL样例程序(Java)
FlinkServer REST API样例程序
FlinkServer REST API样例程序开发思路
FlinkServer REST API样例程序(Java)
使用代理用户访问FlinkServer REST API样例程序(Java)
Flink读取HBase表样例程序
Flink HBase样例程序开发思路
Flink HBase样例程序(Java)
Flink读取Hudi表样例程序
Flink Hudi样例程序开发思路
Flink Hudi样例程序(Java)
PyFlink样例程序
PyFlink样例程序开发思路
PyFlink样例程序代码说明
使用Python提交Flink普通作业
使用Python提交Flink SQL作业
调测Flink应用
编译并调测Flink应用
查看Flink应用调测结果
调测Flink SpringBoot样例程序
Flink应用开发常见问题
Flink常用API介绍
Flink Java API接口介绍
Flink Scala API接口介绍
Flink REST API接口介绍
Flink Savepoints CLI介绍
Flink Client CLI介绍
如何处理用户在使用chrome浏览器时无法显示任务状态的title
如何处理IE10/11页面算子的文字部分显示异常
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
如何处理blob.storage.directory配置/home目录时启动yarn-session失败
如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
如何处理无法直接通过URL访问Flink Web
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
Flink开发指南(普通模式)
Flink应用开发简介
Flink应用开发流程介绍
准备Flink应用开发环境
准备本地应用开发环境
导入并配置Flink样例工程
导入并配置Flink SpringBoot样例工程
开发Flink应用
Flink DataStream样例程序
Flink DataStream样例程序开发思路
Flink DataStream样例程序(Java)
Flink DataStream样例程序(Scala)
Flink Kafka样例程序
Flink Kafka样例程序开发思路
Flink Kafka样例程序(Java)
Flink Kafka样例程序(Scala)
Flink开启Checkpoint样例程序
Flink开启Checkpoint样例程序开发思路
Flink开启Checkpoint样例程序(Java)
Flink开启Checkpoint样例程序(Scala)
Flink Job Pipeline样例程序
Flink Job Pipeline样例程序开发思路
Flink Job Pipeline样例程序(Java)
Flink Job Pipeline样例程序(Scala)
Flink Join样例程序
Flink Join样例程序开发思路
Flink Join样例程序(Java)
Flink Join样例程序(Scala)
Flink Jar作业提交SQL样例程序
Flink Jar作业提交SQL样例程序开发思路
Flink Jar作业提交SQL样例程序(Java)
FlinkServer REST API样例程序
使用代理用户访问FlinkServer REST API样例程序(Java)
Flink读取HBase表样例程序
Flink HBase样例程序开发思路
Flink HBase样例程序(Java)
Flink读取Hudi表样例程序
Flink Hudi样例程序开发思路
Flink Hudi样例程序(Java)
PyFlink样例程序
PyFlink样例程序开发思路
PyFlink样例程序代码说明
使用Python提交Flink普通作业
使用Python提交Flink SQL作业
调测Flink应用
编译并调测Flink应用
查看Flink应用调测结果
调测Flink SpringBoot样例程序
Flink应用开发常见问题
Flink常用API介绍
Flink Java API接口介绍
Flink Scala API接口介绍
Flink REST API接口介绍
Flink Savepoints CLI介绍
Flink Client CLI介绍
如何处理用户在使用chrome浏览器时无法显示任务状态的title
如何处理IE10/11页面算子的文字部分显示异常
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
如何处理blob.storage.directory配置/home目录时启动yarn-session失败
如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
如何处理无法直接通过URL访问Flink Web
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
HBase开发指南(安全模式)
HBase应用开发简介
HBase应用开发流程介绍
准备HBase应用开发环境
准备HBase应用开发和运行环境
导入并配置HBase样例工程
配置HBase应用安全认证
HBase数据读写示例安全认证(单集群场景)
HBase服务数据读写示例安全认证(多集群互信场景)
调用REST接口访问HBase应用安全认证
访问HBase ThriftServer认证
HBase访问多ZooKeeper场景安全认证
开发HBase应用
HBase数据读写样例程序
HBase数据读写样例程序开发思路
初始化HBase配置
创建HBase客户端连接
创建HBase表
创建HBase表Region
向HBase表中插入数据
创建HBase表二级索引
基于二级索引查询HBase表数据
修改HBase表
使用Get API读取HBase表数据
使用Scan API读取HBase表数据
使用Filter过滤器读取HBase表数据
删除HBase表数据
删除HBase二级索引
删除HBase表
创建Phoenix表
向Phoenix表中插入数据
读取Phoenix表数据
配置HBase应用输出日志
HBase Rest接口调用样例程序
使用REST接口查询HBase集群信息
使用REST接口获取所有HBase表
使用REST接口操作Namespace
使用REST接口操作HBase表
HBase ThriftServer连接样例程序
通过ThriftServer实例操作HBase表
通过ThriftServer实例向HBase表中写入数据
通过ThriftServer实例读HBase表数据
HBase访问多个ZooKeeper样例程序
调测HBase应用
在本地Windows环境中调测HBase应用
在Linux环境中调测HBase应用
HBase应用开发常见问题
Phoenix SQL查询样例介绍
HBase对外接口介绍
HBase Shell接口介绍
HBase Java API接口介绍
Sqlline接口介绍
HBase JDBC API接口介绍
HBase Web UI接口介绍
如何配置HBase双读功能
Phoenix命令行操作介绍
运行HBase应用开发程序产生ServerRpcControllerFactory异常如何处理
BulkLoad和Put应用场景有哪些
install编译构建HBase Jar包失败报错Could not transfer artifact如何处理
HBase开发指南(普通模式)
HBase应用开发简介
HBase应用开发流程
准备HBase应用开发环境
准备HBase应用开发和运行环境
导入并配置HBase样例工程
开发HBase应用
HBase数据读写样例程序
HBase数据读写样例程序开发思路
初始化HBase配置
创建HBase客户端连接
创建HBase表
创建HBase表Region
向HBase表中插入数据
创建HBase表二级索引
基于二级索引查询HBase表数据
修改HBase表
使用Get API读取HBase表数据
使用Scan API读取HBase表数据
使用Filter过滤器读取HBase表数据
删除HBase表数据
删除HBase二级索引
删除HBase表
创建Phoenix表
向Phoenix表中插入数据
读取Phoenix表数据
配置HBase应用输出日志
HBase Rest接口调用样例程序
使用REST接口查询HBase集群信息
使用REST接口获取所有HBase表
使用REST接口操作Namespace
使用REST接口操作HBase表
HBase ThriftServer连接样例程序
通过ThriftServer实例操作HBase表
通过ThriftServer实例向HBase表中写入数据
通过ThriftServer实例读HBase表数据
HBase访问多个ZooKeeper样例程序
调测HBase应用
在本地Windows环境中调测HBase应用
在Linux环境中调测HBase应用
HBase应用开发常见问题
Phoenix SQL查询样例介绍
HBase对外接口介绍
HBase Shell接口介绍
HBase Java API接口介绍
Sqlline接口介绍
HBase JDBC API接口介绍
HBase Web UI接口介绍
如何配置HBase双读功能
Phoenix命令行操作介绍
运行HBase应用开发程序产生ServerRpcControllerFactory异常如何处理
Bulkload和Put应用场景有哪些
install构建HBase Jar包失败报错Could not transfer artifact如何处理
HDFS开发指南(安全模式)
HDFS应用开发简介
HDFS应用开发流程介绍
HDFS样例工程介绍
准备HDFS应用开发环境
准备HDFS应用开发和运行环境
导入并配置HDFS样例工程
配置HDFS应用安全认证
开发HDFS应用
HDFS样例程序开发思路
初始化HDFS
创建HDFS目录
创建HDFS文件并写入内容
追加信息到HDFS指定文件
读取HDFS指定文件内容
删除HDFS指定文件
删除HDFS指定目录
创建HDFS多线程任务
配置HDFS存储策略
配置HDFS同分布策略(Colocation)
调测HDFS应用
在本地Windows环境中调测HDFS程序
在Linux环境中调测HDFS应用
HDFS应用开发常见问题
HDFS常用API介绍
HDFS Java API接口介绍
HDFS C API接口介绍
HDFS HTTP REST API接口介绍
HDFS Shell命令介绍
配置Windows通过EIP访问安全模式集群HDFS
HDFS开发指南(普通模式)
HDFS应用开发简介
HDFS应用开发流程介绍
准备HDFS应用开发环境
准备HDFS应用开发和运行环境
导入并配置HDFS样例工程
开发HDFS应用
HDFS样例程序开发思路
初始化HDFS
创建HDFS目录
创建HDFS文件并写入内容
追加信息到HDFS指定文件
读取HDFS指定文件内容
删除HDFS指定文件
删除HDFS指定目录
创建HDFS多线程任务
配置HDFS存储策略
配置HDFS同分布策略(Colocation)
调测HDFS应用
在本地Windows中调测HDFS程序
在Linux环境中调测HDFS应用
HDFS应用开发常见问题
HDFS常用API介绍
HDFS Java API接口介绍
HDFS C API接口介绍
HDFS HTTP REST API接口介绍
HDFS Shell命令介绍
配置Windows通过EIP访问普通模式集群HDFS
HetuEngine开发指南(安全模式)
HetuEngine应用开发简介
HetuEngine应用开发流程介绍
准备HetuEngine应用开发环境
准备本地应用开发环境
导入并配置HetuEngine样例工程
导入并配置HetuEngine Python3样例工程
配置HetuEngine应用安全认证
开发HetuEngine应用
HetuEngine样例程序开发思路
HetuEngine样例程序(Java)
通过HSFabric的KeyTab认证实现查询HetuEngine SQL任务
通过HSFabric的用户名密码认证实现查询HetuEngine SQL任务
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务
通过JDBC方式实现查询HetuEngine SQL任务
HetuEngine样例程序(Python3)
通过HSFabric的KeyTab认证实现查询HetuEngine SQL任务
通过HSFabric的用户名密码认证实现查询HetuEngine SQL任务
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务
调测HetuEngine应用
在本地Windows环境中调测HetuEngine应用
在Linux环境中调测HetuEngine应用
调测HetuEngine Python3应用
HetuEngine开发指南(普通模式)
HetuEngine应用开发简介
HetuEngine应用开发流程介绍
准备HetuEngine应用开发环境
准备本地应用开发环境
导入并配置HetuEngine样例工程
导入并配置HetuEngine Python3样例工程
开发HetuEngine应用
HetuEngine样例程序开发思路
HetuEngine样例程序(Java)
通过HSFabric的用户名密码认证实现查询HetuEngine SQL任务
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务
通过JDBC方式实现查询HetuEngine SQL任务
HetuEngine样例程序(Python3)
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务
通过HSFabric的用户名密码认证实现查询HetuEngine SQL任务
调测HetuEngine应用
在本地Windows环境中调测HetuEngine应用
在Linux环境中调测HetuEngine应用
调测HetuEnginePython3应用
Hive开发指南(安全模式)
Hive应用开发简介
Hive应用开发流程介绍
准备Hive应用开发环境
准备Hive应用开发和运行环境
导入并配置Hive样例工程
导入并配置HiveJDBC样例工程
导入并配置HiveHCatalog样例工程
配置HivePython样例工程
配置HivePython3样例工程
开发Hive应用
Hive JDBC访问样例程序
Hive JDBC样例程序开发思路
创建Hive表
加载数据到Hive表中
查询Hive表数据
实现Hive进程访问多ZooKeeper
使用JDBC接口提交数据分析任务
HCatalog访问Hive样例程序
基于Python的Hive样例程序
基于Python3的Hive样例程序
调测Hive应用
在本地Windows环境中调测Hive JDBC样例程序
在Linux环境中调测Hive JDBC样例程序
调测Hive HCatalog样例程序
调测Hive Python样例程序
调测Hive Python3样例程序
Hive应用开发常见问题
Hive对外接口介绍
Hive JDBC接口介绍
Hive WebHCat接口介绍
配置Windows通过EIP访问安全模式集群Hive
使用二次开发程序产生Unable to read HiveServer2异常如何处理
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理
Hive SQL与SQL2003标准有哪些兼容性问题
Hive开发指南(普通模式)
Hive应用开发简介
Hive应用开发流程介绍
准备Hive应用开发环境
准备Hive应用开发和运行环境
导入并配置Hive样例工程
导入并配置HiveJDBC样例工程
导入并配置HiveHCatalog样例工程
配置HivePython样例工程
配置HivePython3样例工程
开发Hive应用
Hive JDBC访问样例程序
Hive JDBC样例程序开发思路
创建Hive表
加载数据到Hive表中
查询Hive表数据
实现Hive进程访问多ZooKeeper
使用JDBC提交数据分析任务
HCatalog访问Hive样例程序
Python访问Hive样例程序
Python3访问Hive样例程序
调测Hive应用
在Windows中调测JDBC样例程序
在Linux中调测JDBC样例程序
调测HCatalog样例程序
调测Hive Python样例程序
调测Hive Python3样例程序
Hive应用开发常见问题
Hive对外接口介绍
Hive JDBC接口介绍
Hive WebHCat接口介绍
配置Windows通过EIP访问普通模式集群Hive
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理
IoTDB开发指南(安全模式)
IoTDB应用开发简介
IoTDB应用开发流程介绍
准备IoTDB应用开发环境
准备本地应用开发环境
准备连接IoTDB集群配置文件
导入并配置IoTDB样例工程
配置IoTDB应用安全认证
使用Keytab文件进行JDBC安全认证
使用Keytab文件进行Session安全认证
开发IoTDB应用
IoTDB JDBC样例程序
IoTDB Session样例程序
IoTDB Flink样例程序
FlinkIoTDBSink样例程序
FlinkIoTDBSource样例程序
IoTDB Kafka样例程序
IoTDB自定义函数(UDF)样例程序
调测IoTDB应用
在本地Windows环境中调测IoTDB应用
在Linux环境中调测JDBC或Session应用
在Flink WebUI和Linux环境中调测Flink应用
在Linux环境中调测Kafka应用
在IoTDBServer节点调测UDF应用
注册UDF
使用UDF进行查询
卸载UDF
IoTDB Java API接口介绍
IoTDB开发指南(普通模式)
IoTDB应用开发简介
IoTDB应用开发流程介绍
准备IoTDB应用开发环境
准备本地应用开发环境
准备连接IoTDB集群配置文件
导入并配置IoTDB样例工程
开发IoTDB应用
IoTDB JDBC样例程序
IoTDB Session样例程序
IoTDB Flink样例程序
FlinkIoTDBSink样例程序
FlinkIoTDBSource样例程序
IoTDB Kafka样例程序
IoTDB自定义函数(UDF)样例程序
调测IoTDB应用
在本地Windows环境中调测IoTDB应用
在Linux中调测JDBC或Session应用
在Flink WebUI和Linux中调测Flink应用
在Linux环境中调测Kafka应用
在IoTDBServer节点调测UDF应用
注册UDF
使用UDF进行查询
卸载UDF
IoTDB Java API接口介绍
Kafka开发指南(安全模式)
Kafka应用开发简介
Kafka应用开发流程介绍
Kafka样例工程介绍
准备Kafka应用开发环境
准备本地应用开发环境
准备连接Kafka集群配置文件
导入并配置Kafka样例工程
配置Kafka应用安全认证
使用Sasl Kerberos认证
使用Sasl Plaintext认证
使用Kafka Token认证
开发Kafka应用
Kafka样例程序开发思路
使用Producer API向安全Topic生产消息
使用Consumer API订阅安全Topic并消费
使用多线程Producer发送消息
使用多线程Consumer消费消息
使用KafkaStreams统计数据
调测Kafka应用
调测Kafka Producer样例程序
调测Kafka Consumer样例程序
调测Kafka High level Streams样例程序
调测Kafka Low level Streams样例程序
调测Kafka Token认证机制样例程序
Kafka应用开发常见问题
Kafka常用API介绍
Kafka Shell命令介绍
Kafka Java API接口介绍
使用Kafka客户端SSL加密
配置Windows通过EIP访问集群Kafka
运行样例时提示Topic鉴权失败“TOPIC_AUTHORIZATION_FAILED”
运行Producer.java样例报错获取元数据失败“ERROR fetching topic metadata...”
Kafka开发指南(普通模式)
Kafka应用开发简介
Kafka应用开发流程介绍
Kafka样例工程简介
准备Kafka应用开发环境
准备本地应用开发环境
准备连接Kafka集群配置文件
导入并配置Kafka样例工程
开发Kafka应用
Kafka样例程序开发思路
使用Producer API向安全Topic生产消息
使用Consumer API订阅安全Topic并消费
使用多线程Producer发送消息
使用多线程Consumer消费消息
使用KafkaStreams统计数据
调测Kafka应用
调测Kafka Producer样例程序
调测Kafka Consumer样例程序
调测Kafka High Level KafkaStreams API样例程序
调测Kafka Low Level KafkaStreams API样例程序
Kafka应用开发常见问题
Kafka常用API介绍
Kafka Shell命令介绍
Kafka Java API介绍
配置Windows通过EIP访问集群Kafka
运行Producer.java样例报错获取元数据失败“ERROR fetching topic metadata...”
MapReduce开发指南(安全模式)
MapReduce应用开发简介
MapReduce应用开发流程介绍
准备MapReduce应用开发环境
准备MapReduce开发和运行环境
导入并配置MapReduce样例工程
(可选)创建MapReduce样例工程
配置MapReduce应用安全认证
开发MapReduce应用
MapReduce统计样例程序
MapReduce统计样例程序开发思路
MapReduce统计样例代码
MapReduce访问多组件样例程序
MapReduce访问多组件样例程序开发思路
MapReduce访问多组件样例代码
调测MapReduce应用
在本地Windows环境中调测MapReduce应用
在Linux环境中调测MapReduce应用
MapReduce应用开发常见问题
MapReduce接口介绍
MapReduce Java API接口介绍
MapReduce REST API接口介绍
提交MapReduce任务时客户端长时间无响应
网络问题导致运行应用程序时出现异常
MapReduce二次开发远程调试
MapReduce开发指南(普通模式)
MapReduce应用开发简介
MapReduce应用开发流程介绍
准备MapReduce应用开发环境
准备MapReduce开发和运行环境
导入并配置MapReduce样例工程
(可选)创建MapReduce样例工程
开发MapReduce应用
MapReduce统计样例程序
MapReduce统计样例程序开发思路
MapReduce统计样例代码
MapReduce访问多组件样例程序
MapReduce访问多组件样例程序开发思路
MapReduce访问多组件样例代码
调测MapReduce应用
在本地Windows环境中调测MapReduce应用
在Linux环境中调测MapReduce应用
MapReduce应用开发常见问题
MapReduce接口介绍
MapReduce Java API接口介绍
MapReduce REST API接口介绍
提交MapReduce任务时客户端长时间无响应
MapReduce二次开发远程调试
Oozie开发指南(安全模式)
Oozie应用开发简介
Oozie应用开发流程
准备Oozie应用开发环境
准备本地应用开发环境
导入并配置Oozie样例工程
配置Oozie应用安全认证
开发Oozie应用
开发Oozie配置文件
Oozie样例程序开发思路
Oozie应用开发步骤
Oozie样例代码说明
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
通过Java API提交Oozie作业
通过Java API提交Oozie作业开发思路
通过Java API提交Oozie作业
使用Oozie调度Spark访问HBase以及Hive
调测Oozie应用
在本地Windows环境中调测Oozie应用
查看Oozie应用调测结果
Oozie应用开发常见问题
常用Oozie API接口介绍
Oozie Shell接口介绍
Oozie Java接口介绍
Oozie REST接口介绍
Oozie开发指南(普通模式)
Oozie应用开发简介
Oozie应用开发流程
准备Oozie应用开发环境
准备本地应用开发环境
导入并配置Oozie样例工程
开发Oozie应用
开发Oozie配置文件
Oozie样例程序开发思路
Oozie应用开发步骤
Oozie样例代码说明
job.properties
workflow.xml
Start Action
End Action
Kill Action
FS Action
MapReduce Action
coordinator.xml
通过Java API提交Oozie作业
通过Java API提交Oozie作业开发思路
通过Java API提交Oozie作业
使用Oozie调度Spark访问HBase以及Hive
调测Oozie应用
在本地Windows环境中调测Oozie应用
查看Oozie应用调测结果
Oozie应用开发常见问题
常用OozieAPI接口介绍
OozieShell接口介绍
OozieJava接口介绍
OozieREST接口介绍
Spark2x开发指南(安全模式)
Spark应用开发简介
Spark应用开发流程介绍
准备Spark应用开发环境
准备Spark本地应用开发环境
配置Spark应用安全认证
导入并配置Spark样例工程
新建Spark样例工程(可选)
配置Spark Python3样例工程
开发Spark应用
Spark Core样例程序
Spark Core样例程序开发思路
Spark Core样例程序(Java)
Spark Core样例程序(Scala)
Spark Core样例程序(Python)
Spark SQL样例程序
Spark SQL样例程序开发思路
Spark SQL样例程序(Java)
Spark SQL样例程序(Scala)
Spark SQL样例程序(Python)
通过JDBC访问Spark SQL样例程序
通过JDBC访问Spark SQL样例程序开发思路
通过JDBC访问Spark SQL样例程序(Java)
通过JDBC访问Spark SQL样例程序(Scala)
Spark读取HBase表样例程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartitions接口使用
SparkStreaming批量写入HBase表
Spark从HBase读取数据再写入HBase样例程序
Spark从HBase读取数据再写入HBase样例程序开发思路
Spark从HBase读取数据再写入HBase样例程序(Java)
Spark从HBase读取数据再写入HBase样例程序(Scala)
Spark从HBase读取数据再写入HBase样例程序(Python)
Spark从Hive读取数据再写入HBase样例程序
Spark从Hive读取数据再写入HBase样例程序开发思路
Spark从Hive读取数据再写入HBase样例程序(Java)
Spark从Hive读取数据再写入HBase样例程序(Scala)
Spark从Hive读取数据再写入HBase样例程序(Python)
Spark Streaming对接Kafka0-10样例程序
Spark Streaming对接Kafka0-10样例程序开发思路
Spark Streaming对接Kafka0-10样例程序(Java)
Spark Streaming对接Kafka0-10样例程序(Scala)
Spark Structured Streaming样例程序
Spark Structured Streaming样例程序开发思路
Spark Structured Streaming样例程序(Java)
Spark Structured Streaming样例程序(Scala)
Spark Structured Streaming样例程序(Python)
Spark Structured Streaming对接Kafka样例程序
Spark Structured Streaming对接Kafka样例程序开发思路
Spark Structured Streaming对接Kafka样例程序(Scala)
Spark Structured Streaming状态操作样例程序
Spark Structured Streaming状态操作样例程序开发思路
Spark Structured Streaming状态操作样例程序(Scala)
Spark同时访问两个HBase样例程序
Spark同时访问两个HBase样例程序开发思路
Spark同时访问两个HBase样例程序(Scala)
Spark同步HBase数据到CarbonData样例程序
Spark同步HBase数据到CarbonData开发思路
Spark同步HBase数据到CarbonData(Java)
使用Spark执行Hudi样例程序
使用Spark执行Hudi样例程序开发思路
使用Spark执行Hudi样例程序(Java)
使用Spark执行Hudi样例程序(Scala)
使用Spark执行Hudi样例程序(Python)
Hudi自定义配置项样例程序
HoodieDeltaStreamer
自定义排序器
调测Spark应用
配置Windows通过EIP访问集群Spark
在本地Windows环境中调测Spark应用
在Linux环境中调测Spark应用
Spark应用开发常见问题
Spark常用API介绍
Spark Java API接口介绍
Spark Scala API接口介绍
Spark Python API接口介绍
Spark REST API接口介绍
Spark client CLI介绍
Spark JDBCServer接口介绍
structured streaming功能与可靠性介绍
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
SparkSQL UDF功能的权限控制机制
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Spark2x开发指南(普通模式)
Spark应用开发简介
Spark应用开发流程介绍
准备Spark应用开发环境
准备本地应用开发环境
导入并配置Spark样例工程
新建Spark样例工程(可选)
配置Spark Python3样例工程
开发Spark应用
Spark Core样例程序
Spark Core样例程序开发思路
Spark Core样例程序(Java)
Spark Core样例程序(Scala)
Spark Core样例程序(Python)
Spark SQL样例程序
Spark SQL样例程序开发思路
Spark SQL样例程序(Java)
Spark SQL样例程序(Scala)
Spark SQL样例程序(Python)
通过JDBC访问Spark SQL样例程序
通过JDBC访问Spark SQL样例程序开发思路
通过JDBC访问Spark SQL样例程序(Java)
通过JDBC访问Spark SQL样例程序(Scala)
Spark读取HBase表样例程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartition接口使用
SparkStreaming批量写入HBase表
Spark从HBase读取数据再写入HBase样例程序
Spark从HBase读取数据再写入HBase样例程序开发思路
Spark从HBase读取数据再写入HBase样例程序(Java)
Spark从HBase读取数据再写入HBase样例程序(Scala)
Spark从HBase读取数据再写入HBase样例程序(Python)
Spark从Hive读取数据再写入HBase样例程序
Spark从Hive读取数据再写入HBase样例程序开发思路
Spark从Hive读取数据再写入HBase样例程序(Java)
Spark从Hive读取数据再写入HBase样例程序(Scala)
Spark从Hive读取数据再写入HBase样例程序(Python)
Spark Streaming对接Kafka0-10样例程序
Spark Streaming对接Kafka0-10样例程序开发思路
Spark Streaming对接Kafka0-10样例程序(Java)
Spark Streaming对接Kafka0-10样例程序(Scala)
Spark Structured Streaming样例程序
Spark Structured Streaming样例程序开发思路
Spark Structured Streaming样例程序(Java)
Spark Structured Streaming样例程序(Scala)
Spark Structured Streaming样例程序(Python)
Spark Structured Streaming对接Kafka样例程序
Spark Structured Streaming对接Kafka样例程序开发思路
Spark Structured Streaming对接Kafka样例程序(Scala)
Spark Structured Streaming状态操作样例程序
Spark Structured Streaming状态操作样例程序开发思路
Spark Structured Streaming状态操作样例程序(Scala)
Spark同步HBase数据到CarbonData样例程序
Spark同步HBase数据到CarbonData样例程序开发思路
Spark同步HBase数据到CarbonData(Java)
使用Spark执行Hudi样例程序
使用Spark执行Hudi样例程序开发思路
使用Spark执行Hudi样例程序(Scala)
使用Spark执行Hudi样例程序(Python)
使用Spark执行Hudi样例程序(Java)
Hudi自定义配置项样例程序
HoodieDeltaStreamer
自定义排序器
调测Spark应用
配置Windows通过EIP访问集群Spark
在本地Windows环境中调测Spark应用
在Linux环境中调测Spark应用
Spark应用开发常见问题
Spark常用API介绍
Spark Java API接口介绍
Spark scala API接口介绍
Spark Python API接口介绍
Spark REST API接口介绍
Spark client CLI介绍
Spark JDBCServer接口介绍
structured streaming功能与可靠性介绍
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码规避方案
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
YARN开发指南(安全模式)
YARN应用开发简介
YARN接口介绍
YARN Command介绍
YARN Java API接口介绍
YARN REST API接口介绍
Superior Scheduler REST API接口介绍
YARN开发指南(普通模式)
YARN应用开发简介
YARN接口介绍
YARN Command介绍
YARN Java API接口介绍
YARN REST API接口介绍
Superior Scheduler REST API接口介绍
Manager管理开发指南
Manager应用开发简介
Manager应用开发流程
准备Manager应用开发环境
准备Manager应用开发和运行环境
配置并导入Manager样例工程
开发Manager应用
Manager样例程序开发思路
Manager登录认证
添加Manager用户
查找Manager用户
修改Manager用户
删除Manager用户
导出Manager用户列表
调测Manager应用
在本地开发环境中调测Manager应用
查看Manager应用调测结果
Manager应用开发常见问题
Manager Java API接口介绍
运行Manager应用报错“authorize failed”
运行Manager应用报错“WARN No appenders could be found for logger”
运行Manager应用报错“illegal character in path at index”
如何通过curl命令访问Manager REST API
MRS应用开发开源jar包冲突列表说明
HBase
HDFS
Kafka
Spark
MRS组件jar包版本与集群对应关系说明
开发指南(普通版_3.x)
MRS应用开发简介
获取MRS应用开发样例工程
MRS各组件样例工程汇总
MRS应用开发开源jar包冲突列表说明
HBase
HDFS
Kafka
Spark2x
MRS组件jar包版本与集群对应关系说明
MRS应用开发安全认证说明
MRS安全认证原理和认证机制
准备MRS应用开发用户
MRS应用开发认证失败常见问题
ClickHouse开发指南(安全模式)
ClickHouse应用开发简介
ClickHouse简介
ClickHouse应用开发常用概念
ClickHouse应用开发流程介绍
ClickHouse样例工程介绍
准备ClickHouse应用开发环境
准备ClickHouse应用开发环境
准备ClickHouse应用运行环境
导入并配置ClickHouse样例工程
开发ClickHouse应用
ClickHouse应用程序开发思路
配置ClickHouse连接属性
建立ClickHouse连接
创建ClickHouse数据库
创建ClickHouse表
插入ClickHouse数据
查询ClickHouse数据
删除ClickHouse表
调测ClickHouse应用
在本地Windows环境中调测ClickHouse应用
在Linux环境中调测ClickHouse应用
ClickHouse开发指南(普通模式)
ClickHouse应用开发简介
ClickHouse简介
ClickHouse应用开发常用概念
ClickHouse应用开发流程介绍
ClickHouse样例工程介绍
准备ClickHouse应用开发环境
准备ClickHouse应用开发环境
准备ClickHouse应用运行环境
导入并配置ClickHouse样例工程
开发ClickHouse应用
ClickHouse应用程序开发思路
配置ClickHouse连接属性
建立ClickHouse连接
创建ClickHouse库
创建ClickHouse表
插入ClickHouse数据
查询ClickHouse数据
删除ClickHouse表
调测ClickHouse应用
在本地Windows环境中调测ClickHouse应用
在Linux环境中调测ClickHouse应用
Flink开发指南(安全模式)
Flink应用开发简介
Flink应用开发流程介绍
准备Flink应用开发环境
准备本地应用开发环境
准备连接集群配置文件
导入并配置Flink样例工程
准备Flink安全认证
开发Flink应用
FlinkDataStream样例程序
Flink DataStream样例程序开发思路
Flink DataStream样例程序(Java)
Flink DataStream样例程序(Scala)
Flink Kafka样例程序
Flink Kafka样例程序开发思路
Flink Kafka样例程序(Java)
Flink Kafka样例程序(Scala)
Flink开启Checkpoint样例程序
Flink开启Checkpoint样例程序开发思路
Flink开启Checkpoint样例程序(Java)
Flink开启Checkpoint样例程序(Scala)
Flink Job Pipeline样例程序
Flink Job Pipeline样例程序开发思路
Flink Job Pipeline样例程序(Java)
Flink Job Pipeline样例程序(Scala)
Flink Join样例程序
Flink Join样例程序开发思路
Flink Join样例程序(Java)
调测Flink应用
编译并调测Flink应用
查看Flink应用调测结果
Flink应用开发常见问题
Flink常用API介绍
Flink Java API接口介绍
Flink Scala API接口介绍
Flink REST API接口介绍
FlinkSavepoints CLI介绍
Flink Client CLI介绍
如何处理用户在使用chrome浏览器时无法显示任务状态的title
如何处理IE10/11页面算子的文字部分显示异常
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
如何处理blob.storage.directory配置/home目录时启动yarn-session失败
如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
如何处理无法直接通过URL访问Flink Web
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
Flink开发指南(普通模式)
Flink应用开发简介
Flink应用开发流程介绍
准备Flink应用开发环境
准备本地应用开发环境
导入并配置Flink样例工程
开发Flink应用
Flink DataStream样例程序
Flink DataStream样例程序开发思路
Flink DataStream样例程序(Java)
Flink DataStream样例程序(Scala)
Flink Kafka样例程序
Flink Kafka样例程序开发思路
Flink Kafka样例程序(Java)
Flink Kafka样例程序(Scala)
Flink开启Checkpoint样例程序
Flink开启Checkpoint样例程序开发思路
Flink开启Checkpoint样例程序(Java)
Flink开启Checkpoint样例程序(Scala)
Flink Job Pipeline样例程序
Flink Job Pipeline样例程序开发思路
Flink Job Pipeline样例程序(Java)
Flink Job Pipeline样例程序(Scala)
Flink Join样例程序
Flink Join样例程序开发思路
Flink Join样例程序(Java)
Flink对接云搜索服务(CSS)样例程序
Flink对接云搜索服务(CSS)样例程序开发思路
Flink对接云搜索服务(CSS)样例程序(Java)
调测Flink应用
编译并调测Flink应用
查看Flink应用调测结果
Flink应用开发常见问题
Flink常用API介绍
Flink Java API接口介绍
Flink Scala API接口介绍
Flink REST API接口介绍
Flink Savepoints CLI介绍
Flink Client CLI介绍
如何处理用户在使用chrome浏览器时无法显示任务状态的title
如何处理IE10/11页面算子的文字部分显示异常
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
如何处理blob.storage.directory配置/home目录时启动yarn-session失败
如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
如何处理无法直接通过URL访问Flink Web
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
HBase开发指南(安全模式)
HBase应用开发概述
HBase应用开发简介
HBase应用开发常用概念
HBase应用开发流程介绍
HBase应用开发样例工程介绍
准备HBase应用开发环境
准备本地应用开发环境
准备连接HBase集群配置文件
导入并配置HBase样例工程
配置HBase应用安全认证
HBase数据读写示例安全认证(单集群场景)
HBase服务数据读写示例安全认证(多集群互信场景)
调用REST接口访问HBase应用安全认证
访问HBase ThriftServer安全认证
HBase访问多ZooKeeper场景安全认证
开发HBase应用
HBase数据读写样例程序
HBase样例程序开发思路
初始化HBase配置
创建HBase客户端连接
创建HBase表
创建HBase表Region
向HBase表中插入数据
创建HBase表二级索引
基于二级索引查询HBase表数据
修改HBase表
使用Get API读取HBase表数据
使用Scan API读取HBase表数据
使用Filter过滤器读取HBase表数据
删除HBase表数据
删除HBase二级索引
删除HBase表
创建Phoenix表
向Phoenix表中插入数据
读取Phoenix表数据
配置HBase应用输出运行日志
HBase Rest接口调用样例程序
使用REST接口查询HBase集群信息
使用REST接口获取所有HBase表
使用REST接口操作Namespace
使用REST接口操作HBase表
访问HBase ThriftServer连接样例程序
通过ThriftServer实例操作HBase表
通过ThriftServer实例向HBase表中写入数据
通过ThriftServer实例读HBase表数据
HBase访问多个ZooKeeper样例程序
调测HBase应用
在本地Windows环境中调测HBase应用
在Linux环境中调测HBase应用
HBase应用开发常见问题
Phoenix SQL查询样例介绍
HBase对外接口介绍
HBase Shell接口介绍
HBase Java API接口介绍
Sqlline接口介绍
HBaseJDBC API接口介绍
HBase Web UI接口介绍
Phoenix命令行操作介绍
如何配置HBase双读功能
配置Windows通过EIP访问安全模式集群HBase
运行HBase应用开发程序产生ServerRpcControllerFactory异常
BulkLoad和Put应用场景有哪些
install编译构建HBase Jar包失败报错Could not transfer artifact如何处理
HBase开发指南(普通模式)
HBase应用开发概述
HBase应用开发简介
HBase应用开发常用概念
HBase应用开发流程
HBase应用开发样例工程介绍
准备HBase应用开发环境
准备本地应用开发环境
准备连接HBase集群配置文件
导入并配置HBase样例工程
开发HBase应用
HBase数据读写示例程序
HBase样例程序开发思路
初始化HBase配置
创建HBase客户端连接
创建HBase表
创建HBase表Region
向HBase表中插入数据
创建HBase表二级索引
基于二级索引查询HBase表数据
修改HBase表
使用Get API读取HBase表数据
使用Scan API读取HBase表数据
使用Filter过滤器读取HBase表数据
删除HBase表数据
删除HBase二级索引
删除HBase表
创建Phoenix表
向Phoenix表中写入数据
读取Phoenix表数据
配置HBase应用输出运行日志
HBase Rest接口调用样例程序
使用REST接口查询HBase集群信息
使用REST接口获取所有HBase表
使用REST接口操作Namespace
使用REST接口操作HBase表
HBase ThriftServer连接样例程序
通过ThriftServer实例操作HBase表
通过ThriftServer实例向HBase表中写入数据
通过ThriftServer实例读HBase表数据
HBase访问多个ZooKeeper样例程序
调测HBase应用
在本地Windows环境中调测HBase应用
在Linux环境中调测HBase应用
HBase应用开发常见问题
Phoenix SQL查询样例介绍
HBase对外接口介绍
HBase Shell接口介绍
HBase Java API接口介绍
Sqlline接口介绍
HBase JDBC API接口介绍
HBase Web UI接口介绍
如何配置HBase双读能力
配置Windows通过EIP访问普通模式集群HBase
Phoenix命令行操作介绍
运行HBase应用开发程序产生ServerRpcControllerFactory异常如何处理
BulkLoad和Put应用场景有哪些
install编译构建HBaseJar包报错Could not transfer artifact如何处理
HDFS开发指南(安全模式)
HDFS应用开发简介
HDFS应用开发流程介绍
HDFS样例工程介绍
准备HDFS应用开发环境
准备HDFS应用开发和运行环境
导入并配置HDFS样例工程
配置HDFS应用安全认证
开发HDFS应用
HDFS样例程序开发思路
初始化HDFS
创建HDFS目录
创建HDFS文件并写入内容
追加信息到HDFS指定文件
读取HDFS指定文件内容
删除HDFS指定文件
删除HDFS指定目录
创建HDFS多线程任务
配置HDFS存储策略
配置HDFS同分布策略(Colocation)
调测HDFS应用
在本地Windows环境中调测HDFS程序
在Linux环境中调测HDFS应用
HDFS应用开发常见问题
常用API介绍
HDFS Java API接口介绍
HDFS C API接口介绍
HDFS HTTP REST API接口介绍
HDFS Shell命令介绍
配置Windows通过EIP访问安全模式集群HDFS
HDFS开发指南(普通模式)
HDFS应用开发简介
HDFS应用开发流程介绍
HDFS样例工程介绍
准备HDFS应用开发环境
准备HDFS应用开发和运行环境
导入并配置HDFS样例工程
开发HDFS应用
HDFS样例程序开发思路
初始化HDFS
创建HDFS目录
创建HDFS文件并写入内容
追加信息到HDFS指定文件
读取HDFS指定文件内容
删除HDFS指定文件
删除HDFS指定目录
创建HDFS多线程任务
配置HDFS存储策略
配置HDFS同分布策略(Colocation)
调测HDFS应用
在本地Windows中调测HDFS程序
在Linux环境中调测HDFS应用
HDFS应用开发常见问题
HDFS常用API介绍
HDFS Java API接口介绍
HDFS C API接口介绍
HDFS HTTP REST API接口介绍
HDFS Shell命令介绍
配置Windows通过EIP访问普通模式集群HDFS
Hive开发指南(安全模式)
Hive应用开发概述
Hive应用开发简介
Hive应用开发常用概念
Hive应用开发开发流程
Hive应用开发样例工程介绍
准备Hive应用开发环境
准备本地应用开发环境
准备连接Hive集群配置文件
导入并配置Hive样例工程
导入并配置Hive JDBC/HCatalog样例工程
配置Hive Python样例工程
配置Hive Python3样例工程
配置Hive JDBC接口访问Hive安全认证
开发Hive应用
Hive JDBC访问样例程序
Hive JDBC样例程序开发思路
创建Hive表
加载数据到Hive表中
查询Hive表数据
实现Hive进程访问多ZooKeeper
使用JDBC接口提交数据分析任务
HCatalog访问Hive样例程序
基于Python的Hive样例程序
基于Python3的Hive样例程序
调测Hive应用
在本地Windows环境中调测Hive JDBC样例程序
在Linux环境中调测Hive JDBC样例程序
调测Hive HCatalog样例程序
调测Hive Python样例程序
调测Hive Python3样例程序
Hive应用开发常见问题
Hive对外接口介绍
Hive JDBC接口介绍
Hive WebHCat接口介绍
配置Windows通过EIP访问安全模式集群Hive
使用二次开发程序产生Unable to read HiveServer2异常如何处理
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理
Hive SQL与SQL2003标准有哪些兼容性问题
Hive开发指南(普通模式)
Hive应用开发概述
Hive应用开发简介
Hive应用开发常用概念
Hive应用开发流程
Hive应用开发样例工程介绍
准备Hive应用开发环境
准备本地应用开发环境
准备连接Hive集群配置文件
导入并配置Hive样例工程
导入并配置Hive JDBC/HCatalog样例工程
配置Hive Python样例工程
配置Hive Python3样例工程
开发Hive应用
Hive JDBC访问样例程序
Hive JDBC样例程序开发思路
创建Hive表
加载数据到Hive表中
查询Hive表数据
实现Hive进程访问多ZooKeeper
使用JDBC接口提交数据分析任务
HCatalog访问Hive样例程序
基于Python的Hive样例程序
基于Python3的Hive样例程序
调测Hive应用
在Windows环境中调测Hive JDBC样例程序
在Linux环境中调测Hive JDBC样例程序
调测Hive HCatalog样例程序
调测Hive Python样例程序
调测Hive Python3样例程序
Hive应用开发常见问题
Hive对外接口介绍
Hive JDBC接口介绍
Hive WebHCat接口介绍
配置Windows通过EIP访问普通模式集群Hive
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理
Impala开发指南(安全模式)
Impala应用开发概述
Impala应用开发简介
Impala应用开发常用概念
Impala应用开发流程
准备Impala应用开发环境
准备Impala开发和运行环境
开发Impala应用
Impala样例程序开发思路
创建Impala表
加载Impala数据
查询Impala数据
开发Impala用户自定义函数
Impala样例程序指导
调测Impala应用
在Windows中调测Impala JDBC应用
在Linux中调测Impala JDBC应用
Impala应用开发常见问题
Impala JDBC接口介绍
Impala SQL接口介绍
Impala开发规范
Impala开发规则
Impala开发建议
Impala开发示例
Impala开发指南(普通模式)
Impala应用开发概述
Impala应用开发简介
Impala应用开发常用概念
Impala应用开发流程
准备Impala应用开发环境
准备Impala开发和运行环境
导入并配置Impala样例工程
开发Impala应用
Impala样例程序开发思路
创建Impala表
加载Impala数据
查询Impala数据
开发Impala用户自定义函数
Impala样例程序指导
调测Impala应用
在Windows中调测Impala JDBC应用
在Linux中调测Impala JDBC应用
Impala应用开发常见问题
Impala JDBC接口介绍
Impala SQL接口介绍
Impala开发规范
Impala开发规则
Impala开发建议
Impala开发示例
Kafka开发指南(安全模式)
Kafka应用开发简介
Kafka应用开发流程介绍
Kafka样例工程介绍
准备Kafka应用开发环境
准备本地应用开发环境
准备连接Kafka集群配置文件
导入并配置Kafka样例工程
配置Kafka应用安全认证
使用Sasl Kerberos认证
使用Kafka Token认证
开发Kafka应用
Kafka样例程序开发思路
使用Producer API向安全Topic生产消息
使用Consumer API订阅安全Topic并消费
使用多线程Producer发送消息
使用多线程Consumer消费消息
使用KafkaStreams统计数据
调测Kafka应用
调测Kafka Producer样例程序
调测Kafka Consumer样例程序
调测Kafka High level Streams样例程序
调测Kafka Low level Streams样例程序
调测Kafka Token认证机制样例程序
Kafka应用开发常见问题
Kafka常用API介绍
Kafka Shell命令介绍
Kafka Java API接口介绍
使用Kafka客户端SSL加密
配置Windows通过EIP访问安全模式集群Kafka
运行样例时提示Topic鉴权失败“TOPIC_AUTHORIZATION_FAILED”
运行Producer.java样例报错“ERROR fetching topic metadata...”
Kafka开发指南(普通模式)
Kafka应用开发简介
Kafka应用开发流程介绍
Kafka样例工程简介
准备Kafka应用开发环境
准备本地应用开发环境
准备连接Kafka集群配置文件
导入并配置Kafka样例工程
开发Kafka应用
Kafka样例程序开发思路
使用Producer API向安全Topic生产消息
使用Consumer API订阅安全Topic并消费
使用多线程Producer发送消息
使用多线程Consumer消费消息
使用KafkaStreams统计数据
调测Kafka应用
调测Kafka Producer样例程序
调测Kafka Consumer样例程序
调测Kafka High Level KafkaStreams API样例程序
调测Kafka Low Level KafkaStreams API样例程序
Kafka应用开发常见问题
Kafka常用API介绍
Kafka Shell命令介绍
Kafka Java API介绍
配置Windows通过EIP访问普通模式集群Kafka
运行Producer.java样例报错获取元数据失败“ERROR fetching topic metadata...”
Kudu开发指南(安全模式)
Kudu应用开发概述
Kudu应用开发简介
Kudu应用开发常用概念
Kudu应用开发流程
准备Kudu应用开发环境
准备本地应用开发环境
准备Kudu应用安全认证
开发Kudu应用
Kudu应用程序开发思路
开发Kudu应用
建立Kudu连接
创建Kudu表
打开Kudu表
修改Kudu表
写Kudu数据
读Kudu数据
删除Kudu表
调测Kudu应用
Kudu应用开发常见问题
Kudu开发指南(普通模式)
Kudu应用开发概述
Kudu应用开发简介
Kudu应用开发常用概念
Kudu应用开发流程
准备Kudu应用开发环境
准备本地应用开发环境
开发Kudu应用
Kudu应用程序开发思路
开发Kudu应用
建立Kudu连接
创建Kudu表
打开Kudu表
修改Kudu表
写Kudu数据
读Kudu数据
删除Kudu表
调测Kudu应用
Kudu应用开发常见问题
MapReduce开发指南(安全模式)
MapReduce应用开发简介
MapReduce应用开发流程介绍
MapReduce样例工程介绍
准备MapReduce应用开发环境
准备MapReduce开发环境
准备连接MapReduce集群配置文件
导入并配置MapReduce样例工程
(可选)创建MapReduce样例工程
配置MapReduce应用安全认证
开发MapReduce应用
MapReduce统计样例程序
MapReduce统计样例程序开发思路
MapReduce统计样例代码
MapReduce访问多组件样例程序
MapReduce访问多组件样例程序开发思路
MapReduce访问多组件样例代码
调测MapReduce应用
准备MapReduce样例初始数据
在本地Windows环境中调测MapReduce应用
在Linux环境中调测MapReduce应用
MapReduce应用开发常见问题
MapReduce接口介绍
MapReduce Java API接口介绍
MapReduce REST API接口介绍
提交MapReduce任务时客户端长时间无响应
网络问题导致运行应用程序时出现异常
MapReduce二次开发远程调试
MapReduce开发指南(普通模式)
MapReduce应用开发简介
MapReduce应用开发流程介绍
MapReduce样例工程介绍
准备MapReduce应用开发环境
准备MapReduce开发和运行环境
导入并配置MapReduce样例工程
(可选)创建MapReduce样例工程
开发MapReduce应用
MapReduce统计样例程序
MapReduce统计样例程序开发思路
MapReduce统计样例代码
MapReduce访问多组件样例程序
MapReduce访问多组件样例程序开发思路
MapReduce访问多组件样例代码
调测MapReduce应用
在本地Windows环境中调测MapReduce应用
在Linux环境中调测MapReduce应用
MapReduce应用开发常见问题
MapReduce接口介绍
MapReduce Java API接口介绍
MapReduce REST API接口介绍
提交MapReduce任务时客户端长时间无响应
MapReduce二次开发远程调试
Oozie开发指南(安全模式)
Oozie应用开发概述
Oozie应用开发应用开发简介
Oozie应用开发常用概念
Oozie应用开发流程
Oozie应用开发样例工程介绍
准备Oozie应用开发环境
准备本地应用开发环境
导入并配置Oozie样例工程
配置Oozie应用安全认证
开发Oozie应用
开发Oozie配置文件
Oozie样例程序开发思路
Oozie应用开发步骤
Oozie代码样例说明
配置Oozie作业运行参数
配置Oozie业务运行流程
配置Oozie作业执行入口
配置Oozie MapReduce作业
配置Oozie作业操作HDFS文件
配置Oozie作业执行终点
配置Oozie作业异常结束打印信息
配置Coordinator定时调度作业
通过Java API提交Oozie作业
通过Java API提交Oozie作业开发思路
通过Java API提交Oozie作业
使用Oozie调度Spark2x访问HBase以及Hive
调测Oozie应用
在本地Windows环境中调测Oozie应用
查看Oozie应用调测结果
Oozie应用开发常见问题
常用Oozie API接口介绍
Oozie Shell接口介绍
Oozie Java接口介绍
Oozie REST接口介绍
Oozie开发指南(普通模式)
Oozie应用开发概述
Oozie应用开发简介
Oozie应用开发常用概念
Oozie应用开发流程
Oozie应用开发样例工程介绍
准备Oozie应用开发环境
准备本地应用开发环境
导入并配置Oozie样例工程
开发Oozie应用
开发Oozie配置文件
Oozie样例程序开发思路
Oozie应用开发步骤
Oozie样例代码说明
配置Oozie作业运行参数
配置Oozie业务运行流程
配置Oozie作业执行入口
配置Oozie MapReduce作业
配置Oozie作业操作HDFS文件
配置Oozie作业执行终点
配置Oozie作业异常结束打印信息
配置Coordinator定时调度作业
通过Java API提交Oozie作业
通过Java API提交Oozie作业开发思路
通过Java API提交Oozie作业
使用Oozie调度Spark2x访问HBase以及Hive
调测Oozie应用
在本地Windows环境中调测Oozie应用
查看Oozie应用调测结果
Oozie应用开发常见问题
常用OozieAPI接口介绍
Oozie Shell接口介绍
Oozie Java接口介绍
OozieRest接口介绍
Spark2x开发指南(安全模式)
Spark应用开发简介
Spark应用开发流程介绍
Spark2x样例工程介绍
准备Spark应用开发环境
准备Spark本地应用开发环境
准备Spark连接集群配置文件
导入并配置Spark样例工程
新建Spark样例工程(可选)
配置Spark应用安全认证
配置Spark Python3样例工程
开发Spark应用
Spark Core样例程序
Spark Core样例程序开发思路
Spark Core样例程序(Java)
Spark Core样例程序(Scala)
Spark Core样例程序(Python)
Spark SQL样例程序
Spark SQL样例程序开发思路
Spark SQL样例程序(Java)
Spark SQL样例程序(Scala)
Spark SQL样例程序(Python)
通过JDBC访问Spark SQL样例程序
通过JDBC访问Spark SQL样例程序开发思路
通过JDBC访问Spark SQL样例程序(Java)
通过JDBC访问Spark SQL样例程序(Scala)
Spark读取HBase表样例程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartitions接口使用
SparkStreaming批量写入HBase表
Spark从HBase读取数据再写入HBase样例程序
Spark从HBase读取数据再写入HBase样例程序开发思路
Spark从HBase读取数据再写入HBase样例程序(Java)
Spark从HBase读取数据再写入HBase样例程序(Scala)
Spark从HBase读取数据再写入HBase样例程序(Python)
Spark从Hive读取数据再写入HBase样例程序
Spark从Hive读取数据再写入HBase样例程序开发思路
Spark从Hive读取数据再写入HBase样例程序(Java)
Spark从Hive读取数据再写入HBase样例程序(Scala)
Spark从Hive读取数据再写入HBase样例程序(Python)
Spark Streaming对接Kafka0-10样例程序
Spark Streaming对接Kafka0-10样例程序开发思路
Spark Streaming对接Kafka0-10样例程序(Java)
Spark Streaming对接Kafka0-10样例程序(Scala)
Spark Structured Streaming样例程序
Spark Structured Streaming样例程序开发思路
Spark Structured Streaming样例程序(Java)
Spark Structured Streaming样例程序(Scala)
Spark Structured Streaming样例程序(Python)
Spark Structured Streaming对接Kafka样例程序
Spark Structured Streaming对接Kafka样例程序开发思路
Spark Structured Streaming对接Kafka样例程序(Scala)
Spark Structured Streaming状态操作样例程序
Spark Structured Streaming状态操作样例程序开发思路
Spark Structured Streaming状态操作样例程序(Scala)
Spark同时访问两个HBase样例程序
Spark同时访问两个HBase样例程序开发思路
Spark同时访问两个HBase样例程序(Scala)
Spark同步HBase数据到CarbonData样例程序
Spark同步HBase数据到CarbonData开发思路
Spark同步HBase数据到CarbonData(Java)
使用Spark执行Hudi样例程序
使用Spark执行Hudi样例程序开发思路
使用Spark执行Hudi样例程序(Java)
使用Spark执行Hudi样例程序(Scala)
使用Spark执行Hudi样例程序(Python)
Hudi的自定义配置项样例程序
HoodieDeltaStreamer
自定义排序器
调测Spark应用
在本地Windows环境中调测Spark应用
配置Windows通过EIP访问集群Spark
在本地Windows环境中编包并运行Spark程序
在本地Windows环境中查看Spark程序调试结果
在Linux环境中调测Spark应用
在Linux环境中编包并运行Spark程序
在Linux环境中查看Spark程序调测结果
Spark应用开发常见问题
Spark常用API介绍
Spark Java API接口介绍
Spark Scala API接口介绍
Spark Python API接口介绍
Spark REST API接口介绍
Spark client CLI介绍
Spark JDBCServer接口介绍
structured streaming功能与可靠性介绍
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
SparkSQL UDF功能的权限控制机制
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Spark2x开发指南(普通模式)
Spark应用开发简介
Spark应用开发流程介绍
Spark2x样例工程介绍
准备Spark应用开发环境
准备Spark本地应用开发环境
准备Spark连接集群配置文件
导入并配置Spark样例工程
新建Spark样例工程(可选)
配置Spark Python3样例工程
开发Spark应用
Spark Core样例程序
Spark Core样例程序开发思路
Spark Core样例程序(Java)
Spark Core样例程序(Scala)
Spark Core样例程序(Python)
Spark SQL样例程序
Spark SQL样例程序开发思路
Spark SQL样例程序(Java)
Spark SQL样例程序(Scala)
Spark SQL样例程序(Python)
通过JDBC访问Spark SQL样例程序
通过JDBC访问Spark SQL样例程序开发思路
通过JDBC访问Spark SQL样例程序(Java)
过JDBC访问Spark SQL样例程序(Scala)
Spark读取HBase表样例程序
操作Avro格式数据
操作HBase数据源
BulkPut接口使用
BulkGet接口使用
BulkDelete接口使用
BulkLoad接口使用
foreachPartition接口使用
分布式Scan HBase表
mapPartition接口使用
SparkStreaming批量写入HBase表
Spark从HBase读取数据再写入HBase样例程序
Spark从HBase读取数据再写入HBase样例程序(Java)
Spark从HBase读取数据再写入HBase样例程序(Java)
Spark从HBase读取数据再写入HBase样例程序(Scala)
Spark从HBase读取数据再写入HBase样例程序(Python)
Spark从Hive读取数据再写入HBase样例程序
Spark从Hive读取数据再写入HBase样例程序开发思路
Spark从Hive读取数据再写入HBase样例程序(Java)
Spark从Hive读取数据再写入HBase样例程序(Scala)
Spark从Hive读取数据再写入HBase样例程序(Python)
Spark Streaming对接Kafka0-10样例程序
Spark Streaming对接Kafka0-10样例程序开发思路
Spark Streaming对接Kafka0-10样例程序(Java)
Spark Streaming对接Kafka0-10样例程序(Scala)
Spark Structured Streaming样例程序
Spark Structured Streaming样例程序开发思路
Spark Structured Streaming样例程序(Java)
Spark Structured Streaming样例程序(Scala)
Spark Structured Streaming样例程序(Python)
Spark Structured Streaming对接Kafka样例程序
Spark Structured Streaming对接Kafka样例程序开发思路
Spark Structured Streaming对接Kafka样例程序(Scala)
Spark Structured Streaming状态操作样例程序
Spark Structured Streaming状态操作样例程序开发思路
Spark Structured Streaming状态操作样例程序(Scala)
Spark同步HBase数据到CarbonData样例程序
Spark同步HBase数据到CarbonData开发思路
Spark同步HBase数据到CarbonData(Java)
使用Spark执行Hudi样例程序
使用Spark执行Hudi样例程序开发思路
使用Spark执行Hudi样例程序(Java)
使用Spark执行Hudi样例程序(Scala)
使用Spark执行Hudi样例程序(Python)
Hudi的自定义配置项样例程序
HoodieDeltaStreamer
自定义排序器
调测Spark应用
在本地Windows环境中调测Spark应用
配置Windows通过EIP访问集群Spark
在本地Windows环境中编包并运行Spark程序
在本地Windows环境中查看Spark程序调试结果
在Linux环境中调测Spark应用
在Linux环境中编包并运行Spark程序
在Linux环境中查看Spark程序调测结果
Spark应用开发常见问题
Spark常用API介绍
Spark Java API接口介绍
Spark Scala API接口介绍
Spark Python API接口介绍
Spark client CLI介绍
Spark JDBCServer接口介绍
structured streaming功能与可靠性介绍
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
由于Kafka配置的限制,导致Spark Streaming应用运行失败
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何使用IDEA远程调试
如何采用Java命令提交Spark应用
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
从checkpoint恢复spark应用的限制
第三方jar包跨平台(x86、TaiShan)支持
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
ARM环境python pipeline运行报139错误码规避方案
Structured Streaming 任务提交方式变更
常见jar包冲突处理方式
Storm开发指南(安全模式)
Storm应用开发概述
Storm应用开发简介
Storm应用开发常用概念
Storm应用开发流程
准备Storm应用开发环境
准备Storm应用开发和运行环境
导入并配置Storm样例工程
开发Storm应用
Storm样例程序开发思路
创建Storm Spout
创建Storm Bolt
创建Storm Topology
调测Storm应用
打包Storm样例工程应用
打包Storm业务
Linux下打包Storm业务
Windows下打包Storm业务
提交Storm拓扑
Linux中安装客户端时提交Storm拓扑
Linux中未安装客户端时提交Storm拓扑
在IDEA中提交Storm拓扑
查看Storm应用调测结果
Storm应用开发常见问题
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-HBase开发指引
Storm Flux开发指引
Storm对外接口介绍
如何使用IDEA远程调试业务
IntelliJ IDEA中远程提交拓扑执行Main时报错:Command line is too long
Storm开发指南(普通模式)
Storm应用开发概述
Storm应用开发简介
Storm应用开发常用概念
Storm应用开发流程
准备Storm应用开发环境
准备Storm应用开发和运行环境
导入并配置Storm样例工程
开发Storm应用
Storm样例程序开发思路
创建Strom Spout
创建Strom Bolt
创建Strom Topology
调测Strom应用
打包Strom样例工程应用
打包Strom应用业务
Linux下打包Storm业务
Windows下打包Storm业务
提交Storm拓扑
Linux中安装客户端时提交Storm拓扑
Linux中未安装客户端时提交Storm拓扑
在IDEA中提交Storm拓扑
查看Storm应用调测结果
Storm应用开发常见问题
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-HBase开发指引
Storm Flux开发指引
Storm对外接口介绍
如何使用IDEA远程调试业务
使用旧插件storm-kafka时如何正确设置offset
IntelliJ IDEA中远程提交拓扑执行Main时报错:Command line is too long
YARN开发指南(安全模式)
YARN应用开发简介
YARN接口介绍
YARN Command介绍
YARN Java API接口介绍
YARN REST API接口介绍
Superior Scheduler REST API接口介绍
YARN开发指南(普通模式)
YARN应用开发简介
YARN接口介绍
YARN Command介绍
YARN Java API接口介绍
YARN REST API接口介绍
Superior Scheduler REST API接口介绍
开发指南(普通版_2.x及之前)
MRS组件应用开发简介
获取MRS应用开发样例工程
MRS各组件样例工程汇总
Alluxio开发指南
Alluxio应用开发概述
Alluxio应用开发简介
Alluxio常用概念
Alluxio应用开发流程介绍
准备Alluxio应用开发环境
Alluxio开发环境简介
准备Alluxio应用开发环境
导入并配置Alluxio样例工程
开发Alluxio应用
Alluxio样例程序开发思路
Alluxio初始化
写Alluxio文件
读Alluxio文件
调测Alluxio应用
Alluxio API接口介绍
Flink开发指南
Flink应用开发概述
Flink应用开发简介
Flink应用开发常用概念
Flink应用开发流程介绍
准备Flink应用开发环境
准备本地应用开发环境
准备Flink应用开发用户
安装Flink客户端
配置并导入Flink样例工程
新建Flink样例工程(可选)
准备Flink应用安全认证
开发Flink应用
DataStream程序
Flink DataStream应用开发思路
Flink DataStream Java样例代码
Flink DataStream Scala样例代码
向Kafka生产并消费数据程序
Flink向Kafka生产并消费数据应用开发思路
Flink向Kafka生产并消费数据Java样例代码
Flink向Kafka生产并消费数据Scala样例代码
异步Checkpoint机制程序
Flink异步Checkpoint应用开发思路
Flink异步Checkpoint Java样例代码
Flink异步Checkpoint Scala样例代码
Stream SQL Join程序
Flink Stream SQL Join应用开发思路
Flink Stream SQL Join Java样例代码
调测Flink应用
编译并运行Flink应用
查看Flink应用运行结果
Flink应用开发常见问题
Flink Savepoints CLI介绍
Flink Client CLI介绍
Flink应用性能调优建议
Savepoints相关问题解决方案
如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
为什么Flink Web页面无法直接连接?
HBase开发指南
HBase应用开发概述
HBase应用开发简介
HBase应用开发常用概念
HBase应用开发流程介绍
准备HBase应用开发环境
准备本地应用开发环境
准备HBase应用开发用户
导入并配置HBase样例工程
开发HBase应用
HBase样例程序开发思路
创建Configuration
创建Connection
创建HBase表
删除HBase表
修改HBase表
插入HBase数据
删除HBase数据
使用Get读取HBase数据
使用Scan读取HBase数据
使用HBase过滤器Filter
添加HBase二级索引
启用/禁用HBase二级索引
查询HBase二级索引列表
使用HBase二级索引读取数据
删除HBase二级索引
HBase Region的多点分割
HBase ACL安全配置
调测HBase应用
在Windows中调测程序HBase应用
编译并运行HBase应用
查看HBase应用调测结果
在Linux中调测HBase应用
安装客户端时编译并运行HBase应用
未安装客户端时编译并运行HBase应用
查看HBase应用调测结果
调测HBase Phoenix样例程序
调测HBase Python样例程序
HBase应用开发常见问题
HBase接口介绍
HBase Shell接口介绍
HBase Java API接口介绍
HBase HFS Java API接口介绍
HBase Phoenix API接口介绍
HBase REST API接口介绍
HBase SQL查询样例代码说明
如何配置HBase文件存储
运行HBase应用开发程序产生异常如何处理
HBase BulkLoad和Put应用场景说明
HDFS开发指南
HDFS应用开发概述
HDFS应用开发简介
HDFS应用开发常用概念
HDFS应用开发流程介绍
准备HDFS应用开发环境
准备本地应用开发环境
准备HDFS应用开发用户
准备Eclipse与JDK
准备HDFS应用运行环境
导入并配置HDFS样例工程
开发HDFS应用
HDFS样例程序开发思路
初始化HDFS
写HDFS文件
追加HDFS文件内容
读HDFS文件
删除HDFS文件
HDFS Colocation
设置HDFS存储策略
HDFS访问OBS
调测HDFS应用
在Linux环境中调测HDFS应用
查看HDFS应用调测结果
HDFS应用开发常见问题
HDFS Java API接口介绍
HDFS C API接口介绍
HDFS HTTP REST API接口介绍
HDFS Shell命令介绍
登录MRS Manager
下载MRS客户端
Hive开发指南
Hive应用开发概述
Hive应用开发简介
Hive应用开发常用概念
Hive应用开发流程介绍
准备Hive应用开发环境
Hive应用开发环境简介
准备本地应用开发环境
准备Hive应用开发用户
准备Hive JDBC开发环境
准备Hive HCatalog开发环境
开发Hive应用
Hive样例程序开发思路
创建Hive表
加载Hive数据
查询Hive数据
分析Hive数据
开发Hive用户自定义函数
调测Hive应用
在Windows中调测Hive JDBC应用
在Linux中调测Hive JDBC应用
在Linux中调测Hive HCatalog应用
Hive应用开发常见问题
Hive JDBC接口介绍
HiveQL接口介绍
Hive WebHCat接口介绍
Impala开发指南
Impala应用开发概述
Impala应用开发简介
Impala应用开发常用概念
Impala应用开发流程介绍
准备Impala应用开发环境
Impala应用开发环境简介
准备本地应用开发环境
准备Impala应用开发用户
准备Impala JDBC客户端
开发Impala应用
Impala样例程序开发思路
创建Impala表
加载Impala数据
查询Impala数据
分析Impala数据
开发Impala用户自定义函数
调测Impala应用
在Windows中调测Impala JDBC应用
在Linux中调测Impala JDBC应用
Impala应用开发常见问题
Impala JDBC接口介绍
Impala SQL接口介绍
Kafka开发指南
Kafka应用开发概述
Kafka应用开发简介
Kafka应用开发常用概念
Kafka应用开发流程介绍
准备Kafka应用开发环境
Kafka应用开发环境简介
准备Maven和JDK
导入并配置Kafka样例工程
准备Kafka应用安全认证
开发Kafka应用
Kafka样例程序开发思路
Kafka Old Producer API使用样例
Kafka Old Consumer API使用样例
Kafka Producer API使用样例
Kafka Consumer API使用样例
Kafka 多线程Producer API使用样例
Kafka 多线程Consumer API 使用样例
Kafka SimpleConsumer API使用样例
Kafka 样例工程配置文件说明
调测Kafka应用
Kafka应用开发常见问题
Kafka接口介绍
Kafka Shell命令介绍
Kafka Java API接口介绍
Kafka安全接口介绍
运行Producer.java样例运行获取元数据失败如何处理
MapReduce开发指南
MapReduce应用开发概述
MapReduce应用开发简介
MapReduce应用开发常用概念
MapReduce应用开发流程介绍
准备MapReduce应用开发环境
MapReduce应用开发环境简介
准备MapReduce应用开发用户
准备Eclipse与JDK
准备MapReduce应用运行环境
导入并配置MapReduce样例工程
配置MapReduce应用安全认证
开发MapReduce应用
MapReduce统计样例程序开发思路
MapReduce访问多组件样例程序开发思路
调测MapReduce应用
编译并运行MapReduce应用
查看MapReduce应用调测结果
MapReduce应用开发常见问题
MapReduce接口介绍
MapReduce Java API接口介绍
提交MapReduce任务时客户端长时间无响应
OpenTSDB开发指南
OpenTSDB应用开发概述
OpenTSDB应用开发简介
OpenTSDB应用开发常用概念
OpenTSDB应用开发流程介绍
准备OpenTSDB应用开发环境
OpenTSDB应用开发环境简介
准备OpenTSDB应用开发环境
准备OpenTSDB应用开发用户
导入并配置OpenTSDB样例工程
开发OpenTSDB应用
OpenTSDB样例程序开发思路
配置OpenTSDB参数
写入OpenTSDB数据
查询OpenTSDB数据
删除OpenTSDB数据
调测OpenTSDB应用
在Windows中调测程序
调测OpenTSDB应用
查看OpenTSDB应用调测结果
在Linux中调测程序
调测OpenTSDB应用
查看OpenTSDB应用调测结果
OpenTSDB应用开发常见问题
OpenTSDB CLI Tools介绍
OpenTSDB HTTP API接口介绍
Presto开发指南
Presto应用开发概述
Presto应用开发简介
Presto应用开发常用概念
Presto应用开发流程介绍
准备Presto应用开发环境
Presto应用开发环境简介
准备Presto应用开发环境
准备Presto应用开发用户
准备Presto JDBC应用开发环境
准备Presto HCatalog应用开发环境
开发Presto应用
Presto样例程序开发思路
Presto JDBC使用样例
调测Presto应用
在Windows中调测Presto应用开发
在Linux中调测Presto应用开发
Presto应用开发常见问题
Presto接口介绍
在集群外节点运行PrestoJDBCExample缺少证书
在集群外节点连接开启Kerberos认证的集群,HTTP在Kerberos数据库中无法找到相应的记录
Spark开发指南
Spark应用开发概述
Spark应用开发简介
Spark应用开发常用概念
Spark应用开发流程介绍
准备Spark应用开发环境
Spark应用开发环境简介
准备Spark应用开发用户
准备Spark应用Java开发环境
准备Spark应用Scala开发环境
准备Spark应用Python开发环境
准备Spark应用运行环境
导入并配置Spark样例工程
新建Spark应用开发工程(可选)
配置Spark应用安全认证
开发Spark应用
Spark Core程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark SQL程序
场景说明
Java样例代码
Scala样例代码
Spark Streaming程序
场景说明
Java样例代码
Scala样例代码
通过JDBC访问Spark SQL的程序
场景说明
Java样例代码
Scala样例代码
Python样例代码
Spark on HBase程序
场景说明
Java样例代码
Scala样例代码
从HBase读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
从Hive读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Streaming从Kafka读取数据再写入HBase
场景说明
Java样例代码
Scala样例代码
Spark Streaming对接kafka0-10程序
场景说明
Java样例代码
Scala样例代码
Structured Streaming程序
场景说明
Java样例代码
Scala样例代码
调测Spark应用
编包并运行Spark应用
查看Spark应用调测结果
Spark应用开发常见问题
Spark接口介绍
Spark Java API接口介绍
Spark Scala API接口介绍
Spark Python接口介绍
Spark REST API接口介绍
Spark ThriftServer接口介绍
Spark常用命令介绍
Spark应用调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
INSERT...SELECT操作调优
Spark Streaming调优
Spark CBO调优
如何添加自定义代码的依赖包
如何处理自动加载的依赖包
运行SparkStreamingKafka样例工程时报“类不存在”问题
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
Spark应用名在使用yarn-cluster模式提交时不生效
如何采用Java命令提交Spark应用
SparkSQL UDF功能的权限控制机制
由于kafka配置的限制,导致Spark Streaming应用运行失败
如何使用IDEA远程调试
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
Spark任务读取HBase报错“had a not serializable result”
本地运行Spark程序连接MRS集群的Hive、HDFS
Storm开发指南
Storm应用开发概述
Storm应用开发简介
Storm应用开发常用概念
Storm应用开发流程介绍
准备Storm应用开发环境
Storm应用开发环境简介
准备Eclipse与JDK
准备Linux客户端环境
导入并配置Storm样例工程
开发Storm应用
Storm样例程序开发思路
创建Storm Spout
创建Storm Bolt
创建Storm Topology
调测Storm应用
生成Storm应用Jar包
在Linux环境中调测Storm应用
查看Storm应用调测结果
Storm应用开发常见问题
Storm接口介绍
Storm-Kafka开发指引
Storm-JDBC开发指引
Storm-HDFS开发指引
Storm-OBS开发指引
Storm-HBase开发指引
Flux开发指引
组件开发规范
ClickHouse应用开发规范
ClickHouse应用开发规则
ClickHouse应用开发建议
Doris应用开发规范
Doris建表规范
Doris数据变更规范
Doris命名规范
Doris数据查询规范
Doris数据导入规范
Doris UDF开发规范
Doris连接运行规范
Flink应用开发规范
Flink开发规范概述
FlinkSQL Connector开发规范
ClickHouse表开发规范
ClickHouse表开发规则
ClickHouse表开发建议
Doris数据表开发规范
Doris数据表开发规则
Kafka表开发规范
Kafka表开发规则
Kafka表开发建议
HBase数据表开发规范
HBase数据表开发规则
HBase数据表开发建议
Flink on Hudi开发规范
Flink流式读Hudi表规范
Flink流式读Hudi表规则
Flink流式读Hudi表建议
Flink流式写Hudi表规范
Flink流式写Hudi表规则
Flink流式写Hudi表建议
Flink作业参数规范
Flink作业参数规则
Flink作业参数建议
Flink任务开发规范
Flink任务开发规则
Flink任务开发建议
Flink SQL逻辑开发规范
Flink SQL逻辑开发规则
Flink SQL逻辑开发建议
Flink性能调优开发规范
Flink性能调优规则
Flink性能调优建议
Flink常见参数说明
Flink开发样例
HBase应用开发规范
HBase应用开发规则
HBase应用开发建议
HDFS应用开发规范
HDFS应用开发规则
HDFS应用开发建议
Hive应用开发规范
Hive应用开发规则
Hive应用开发建议
Hudi应用开发规范
Hudi开发规范概述
Hudi数据表设计规范
Hudi表模型设计规范
Hudi表索引设计规范
Hudi表分区设计规范
Hudi数据表管理操作规范
Hudi数据表Compaction规范
Hudi数据表Clean规范
Hudi数据表Archive规范
Spark on Hudi开发规范
Spark读写Hudi开发规范
SparkSQL建表参数规范
Spark增量读取Hudi参数规范
Spark异步任务执行表compaction参数设置规范
Spark表数据维护规范
Spark并发写Hudi建议
Spark读写Hudi资源配置建议
Spark On Hudi性能调优
Bucket调优示例
创建Bucket索引表调优
Hudi表初始化
实时任务接入
离线Compaction配置
Impala应用开发规范
Impala用开发规则
Impala用开发建议
IoTDB应用开发规范
IoTDB应用开发规则
IoTDB应用开发建议
Kafka应用开发规范
Kafka应用开发规则
Kafka应用开发建议
Mapreduce应用开发规范
Mapreduce应用开发规则
Mapreduce应用开发建议
Spark应用开发规范
Spark应用开发规则
Spark应用开发建议
API参考
使用前必读
API概览
API版本选择建议
如何调用API
构造请求
认证鉴权
返回结果
应用示例
创建MRS集群
扩容集群
缩容集群
新增作业
终止作业
删除集群
API V2
集群管理接口
创建集群
修改集群名称
创建集群并提交作业
扩容集群
缩容集群
集群添加组件
查询集群节点列表
作业管理接口
新增并执行作业
查询单个作业信息
查询作业列表信息
终止作业
获取SQL结果
批量删除作业
弹性伸缩接口
查看弹性伸缩策略
更新弹性伸缩策略
删除弹性伸缩策略
创建弹性伸缩策略
集群HDFS文件接口
获取指定目录文件列表
SQL接口
提交SQL语句
查询SQL结果
取消SQL执行任务
委托管理
查询用户(组)与IAM委托的映射关系
更新用户(组)与IAM委托的映射
数据连接管理
创建数据连接
查询数据连接列表
更新数据连接
删除数据连接
版本元数据查询
展示MRS版本列表
查询MRS集群版本可用的规格
IAM同步管理接口
获取已经同步的IAM用户和用户组
同步IAM用户和用户组
指定用户、用户组取消同步
标签管理接口
启用或关闭集群默认标签
查询默认标签状态
查询标签配额
API V1.1
集群管理接口
创建集群并执行作业
调整集群节点
查询集群列表
查询集群详情
查询主机列表
删除集群
弹性伸缩接口
配置弹性伸缩规则
标签管理接口
给指定集群添加标签
查询指定集群的标签
删除指定集群的标签
批量添加集群标签
批量删除集群标签
查询所有标签
查询特定标签的集群列表
可用区
查询可用区信息
版本元数据查询
查询对应版本元数据
历史API
作业接口管理(废弃)
新增作业并执行(废弃)
查询作业exe对象列表(废弃)
查询作业exe对象详情(废弃)
删除作业执行对象(废弃)
权限策略和授权项
策略及授权项说明
附录
MRS所使用的弹性云服务器规格
MRS所使用的裸金属服务器规格
状态码
错误码
获取项目ID
获取账号ID
获取MRS集群信息
MRS支持的角色与组件对应表
SDK参考
SDK概述
常见问题
产品咨询类
MRS可以做什么?
MRS支持什么类型的分布式存储?
什么是区域和可用区?
MRS是否支持更换网段?
MRS集群内节点是否支持降配操作?
不同版本的Hive之间是否可以兼容?
数据存储在OBS和HDFS有什么区别?
10亿级数据量场景的解决方案有哪些?
zstd的压缩比有什么优势?
计费类
创建MRS集群时计价器为什么未显示价格?
MRS集群中的弹性伸缩功能如何收费?
Mapreduce服务集群的Task节点如何收费?
退订MRS服务后,在ECS中退订弹性云服务器时报异常如何处理?
集群创建类
如何使用自定义安全组创建MRS集群?
购买MRS集群时,找不到HDFS、Yarn、MapReduce组件如何处理?
购买MRS集群时,找不到ZooKeeper组件如何处理?
购买MRS集群,提交订单时,报无效认证如何处理?
Web页面访问类
如何修改开源组件Web页面会话超时时间?
MRS租户管理中的动态资源计划页面无法刷新怎么办?
Kafka Topic监控页签在Manager页面不显示如何处理?
访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI界面报错或部分页面不可用如何处理?
如何切换访问MRS Manager方式?
为什么在Manager中找不到用户管理页面?
Hue下载的Excel无法打开如何处理?
用户认证及权限类
登录集群Manager的用户是什么?
集群内用户密码的过期时间如何查询和修改?
如果不开启Kerberos认证,MRS集群能否支持访问权限细分?
如何给集群内用户添加租户管理权限?
Hue有配置账号权限的功能吗?
为什么IAM子账号添加了MRS权限却无法在控制台提交作业?
用户A如何查看用户B创建的Hive表?
如何避免Kerberos认证过期?
已创建的MRS集群如何修改Kerberos状态?
Kerberos认证服务的端口有哪些?
客户端使用类
如何关闭ZooKeeper的SASL认证?
在MRS集群外客户端中执行kinit报错“Permission denied”如何处理?
ClickHouse客户端执行SQL查询时报内存不足如何处理?
MRS如何连接spark-shell?
MRS如何连接spark-beeline?
连接ClickHouse服务端异常报错“code: 516”如何处理?
组件配置类
MRS是否支持Hive on Kudu?
MRS集群是否支持Hive on Spark?
如何修改DBService的IP地址?
Kafka支持的访问协议类型有哪些?
MRS集群中Spark任务支持哪些Python版本?
MRS 2.1.0版本集群对Storm日志的大小有什么限制?
如何修改现有集群的HDFS fs.defaultFS?
MRS是否支持同时运行多个Flume任务?
如何修改FlumeClient的日志为标准输出日志?
Hadoop组件jar包位置和环境变量的位置在哪里?
如何查看HBase日志?
HBase表如何设置和修改数据保留期?
如何修改HDFS的副本数?
如何修改HDFS主备倒换类?
DynamoDB的number在Hive表中用什么类型比较好?
Hive查询数据是否支持导出?
Hive使用beeline -e执行多条语句报错如何处理?
Hue连接HiveServer报错“over max user connections”如何处理?
如何查看MRS Hive元数据?
如何重置Kafka数据?
Kafka目前支持的访问协议类型有哪些?
消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
Kudu支持的压缩算法有哪些?
如何查看Kudu日志?
新建集群Kudu服务异常如何处理?
Presto如何配置其他数据源?
MRS 1.9.3 Ranger证书如何更新?
MRS的Storm集群提交任务时如何指定日志路径?
如何检查Yarn的ResourceManager配置是否正常?
如何修改Clickhouse服务的allow_drop_detached配置项?
ClickHouse系统表日志过大,如何添加定期删除策略?
如何修改ClickHouse服务时区?
集群管理类
如何查看所有集群?
如何查看MRS服务的操作日志信息?
如何查看MRS集群配置信息?
如何在MRS集群中手动添加组件?
如何取消集群风险告警的消息通知?
为什么MRS集群显示的资源池内存小于实际集群内存?
MRS集群安装的Python版本是多少?
如何上传本地文件到集群内节点?
MRS集群节点时间信息不正确如何处理?
MRS管理控制台和集群Manager页面功能区别有哪些?
MRS集群如何解绑已绑定至Manager的EIP?
如何关闭防火墙服务?
MRS集群内节点的登录方式如何切换?
如何通过集群外的节点访问MRS集群?
在MRS流式集群中,Kafka Topic监控是否支持发送告警?
产生“ALM-18022 Yarn队列资源不足”告警时,正在运行的资源队列可以在哪查看?
HBase操作请求次数指标中的多级图表统计如何理解?
节点管理类
MRS集群内节点的操作系统是什么?
升级Master节点规格需要关机吗?
MRS是否支持变更MRS集群节点?
如何查询MRS节点的启动时间?
MRS集群内节点互信异常如何处理?
MRS集群是否支持调整Master节点规格?
MRS集群内节点的sudo log能否清理?
MRS集群磁盘如何分区的?
MRS集群是否支持重装系统?
MRS集群是否支持切换操作系统?
组件管理类
MRS集群中安装的组件能否删除?
如何查看各组件配置文件路径?
Hive服务运行状态为亚健康是否会影响上层业务?
如何获取ZooKeeper的IP地址和端口?
作业管理类
MRS集群支持提交哪些形式的Spark作业?
MRS节点访问OBS报错408如何处理?
如何让不同的业务程序分别用不同的Yarn队列?
提交作业失败,报错与OBS相关如何处理?
MRS集群的租户资源最小值改为0后,只能同时运行一个Spark任务吗?
作业提交参数间用空格隔开导致参数信息不被识别如何处理?
Spark作业的Client模式和Cluster模式有什么区别?
如何查看MRS作业的日志?
提交作业时系统提示当前用户在Manager不存在如何处理?
LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
SparkStreaming作业运行几十个小时后失败,报OBS访问403如何处理?
Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
Spark作业访问OBS报错“requestId=XXX”如何处理?
Spark作业报错“UnknownScannerExeception”如何处理?
DataArts Studio调度Spark作业偶现失败如何处理?
Flink任务运行失败,报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
提交的Yarn作业在界面上查看不到如何处理?
提交Flink任务时launcher-job被Yarn终止如何处理?
提交Flink作业时报错slot request timeout如何处理?
DistCP作业导入导出数据常见问题
如何通过Yarn WebUI查看Hive作业对应的SQL语句?
如何查看指定Yarn任务的日志?
添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
Spark Job对应的运行日志保存在哪里?
执行Spark任务报内存不足告警如何处理?
修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
MRS集群用户绑定多个队列时系统如何选择队列?
性能优化类
Hadoop压力测试工具如何获取?
如何提高集群Core节点的资源使用率?
如何配置knox内存?
如何调整manager-executor进程内存?
如何设置Spark作业执行时自动获取更多资源?
spark.yarn.executor.memoryOverhead设置不生效如何处理?
应用开发类
如何准备MRS的数据源?
MRS是否支持通过Hive的HBase外表将数据写入到HBase?
Hive样例工程中的com.huawei.gaussc10依赖包在哪里下载?
MRS是否支持Python代码?
OpenTSDB是否支持Python的接口?
如何获取Spark Jar包?
使用调整集群节点接口时参数node_id如何配置?
MRS集群组件如何管理和使用第三方jar包
周边生态对接类
MRS是否支持对DLI服务的业务表进行读写操作?
OBS是否支持ListObjectsV2协议?
MRS集群内的节点中可以部署爬虫服务吗?
MRS服务是否支持安全删除的能力?
如何使用PySpark连接MRS Spark?
HBase同步数据到CSS为什么没有映射字段?
MRS集群是否支持对接外部KDC?
开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
MRS导出数据到OBS加密桶失败如何处理?
MRS服务如何对接云日志服务?
MRS集群的节点如何安装主机安全服务?
如何通过happybase连接到MRS服务的HBase?
Hive Driver是否支持对接dbcp2?
升级补丁类
MRS集群版本如何进行升级?
MRS是否支持升级集群内组件的内核版本?
故障排除
账号密码类
如何重置或修改Manager(admin)密码?
用户名过长导致下载认证凭据失败
账号权限类
获取MRS集群主机列表接口时提示用户无权限
查看MRS集群详情失败
Web页面访问类
无法访问MRS集群Manager页面如何处理?
登录集群Manager常见异常问题
访问MRS Manager页面报错“502 Bad Gateway”
访问Manager页面报错“请求VPC错误”
通过专线访问Manager页面方式出现503报错
登录Manager集群页面时报错“You have no right to access the page”
登录Manager时界面报错“认证信息无效”
Manager界面超时退出后无法正常登录
升级Python后无法登录Manager页面
修改集群域名后无法登录Manager页面
登录Manager界面后页面空白无内容
集群节点内安装了原生Kerberos导致登录集群失败
macOS使用浏览器访问MRS Manager
Manager界面登录用户被锁如何解锁
Manager页面加载卡顿
访问MRS组件Web UI界面常见异常问题
使用admin用户访问组件的WebUI界面报错或部分功能不可用
访问组件WebUI页面报500异常
【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
【Hue WebUI】登录Hue WebUI报错无权限
【Hue WebUI】Hue WebUI页面无法访问
【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
【Hue WedUI】Hue(主)无法打开web网页
【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
【Tez WebUI】访问Tez WebUI界面报错404
【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
【Yarn WebUI】无法访问Yarn WebUI
API使用类
调用API接口创建集群失败
集群管理类
缩容Task节点失败
如何处理集群内部OBS证书过期
MRS集群更换磁盘(适用于2.x及之前)
MRS集群更换磁盘(适用于3.x)
MRS备份任务执行失败
Core节点出现df显示的容量和du显示的容量不一致
如何解除网络ACL的关联子网
修改节点主机名后导致MRS集群状态异常
进程被终止如何定位原因
MRS配置跨集群互信失败
MRS集群节点使用pip3安装Python时提示网络不可达
开源confluent-kafka-go连接MRS安全集群
MRS集群周期备份任务执行失败
MRS集群客户端无法下载
开启Kerberos认证的MRS集群提交Flink作业报错
通过Hive beeline命令行执行插入命令的时候报错
MRS集群节点如何进行操作系统漏洞升级
使用CDM服务迁移数据至MRS HDFS时任务运行失败
MRS集群频繁产生节点间心跳中断告警
PMS进程占用内存高
Knox进程占用内存高
安全集群外的客户端访问HBase很慢
作业无法提交如何定位?
HBase日志文件过大导致OS盘空间不足
HDFS日志文件过大导致OS盘空间不足
MRS集群节点规格升级异常
Manager页面新建的租户删除失败
MRS集群切换VPC后集群状态异常不可用
MRS管理控制台上提交作业异常处理
生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
MRS集群Core节点扩容成功后部分实例启动失败
使用Alluixo
Alluixo在HA模式下出现Does not contain a valid host:port authority报错
使用ClickHouse
ZooKeeper上数据错乱导致ClickHouse启动失败问题
ClickHouse消费Kafka数据异常
使用DBservice
DBServer实例状态异常
DBServer实例一直处于Restoring状态
DBService默认端口20050或20051被占用
/tmp目录权限不对导致DBserver实例状态一直处于Restoring
DBService备份任务执行失败
DBService状态正常,组件无法连接DBService
DBServer启动失败
浮动IP不通导致DBService备份失败
DBService配置文件丢失导致启动失败
使用Flink
Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
Flink客户端执行命令报错“Could not connect to the leading JobManager”
使用不同用户执行yarn-session创建Flink集群失败
Flink业务程序无法读取NFS盘上的文件
自定义Flink log4j日志输出级别不生效
使用Flume
Flume向Spark Streaming提交作业后报类找不到错误
Flume客户端安装失败
Flume客户端无法连接服务端
Flume数据写入组件失败
Flume服务端进程故障
Flume数据采集慢
Flume启动失败
使用HBase
连接到HBase响应慢
HBase用户认证失败
端口被占用导致RegionServer启动失败
节点剩余内存不足导致HBase启动失败
HDFS性能差导致HBase服务不可用告警
参数不合理导致HBase启动失败
残留进程导致Regionsever启动失败
HDFS上设置配额导致HBase启动失败
HBase version文件损坏导致启动失败
无业务情况下,RegionServer占用CPU高
HBase启动失败,RegionServer日志中提示“FileNotFoundException”
HBase启动后原生页面显示RegionServer个数多于实际个数
RegionServer实例异常,处于Restoring状态
新安装的集群HBase启动失败
acl表目录丢失导致HBase启动失败
集群上下电之后HBase启动失败
文件块过大导致HBase数据导入失败
使用Phoenix创建HBase表后,向索引表中加载数据报错
在MRS集群客户端无法执行hbase shell命令
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
RegionServer剩余内存不足导致HBase服务启动失败
集群扩容之后新节点HRegionServer启动失败
HBase文件丢失导致Region状态长时间为RIT
使用HDFS
修改RPC端口后HDFS NameNode实例都变为备状态
通过公网IP连接使用HDFS客户端报错
使用Python远程连接HDFS的端口失败
HDFS容量达到100%导致上层服务HBase、Spark等不可用
启动HDFS和Yarn服务报错“Permission denied”
HDFS用户可在其他用户目录下创建或删除文件
HDFS的DataNode一直显示退服中
内存不足导致HDFS NameNode启动失败
ntpdate修改时间导致HDFS出现大量丢块
DataNode概率性出现CPU占用接近100%导致节点丢失
单NameNode长期故障时如何使用客户端手动checkpoint
HDFS文件读写时报错“Failed to place enough replicas”
文件最大打开句柄数设置太小导致读写文件异常
HDFS客户端写文件close失败
文件错误导致上传文件到HDFS失败
界面配置dfs.blocksize后上传数据,block大小未改变
读取HDFS文件失败,报错“FileNotFoundException”
HDFS写文件失败,报错“item limit of xxx is exceeded”
调整HDFS SHDFShell客户端日志级别
HDFS读文件失败报错“No common protection layer”
HDFS目录配额不足导致写文件失败
执行balance失败报错“Source and target differ in block-size”
查询或者删除HDFS文件失败
非HDFS数据残留导致数据分布不均衡
HDFS客户端安装在数据节点导致数据分布不均衡
节点内DataNode磁盘使用率不均衡
执行balance常见问题定位方法
HDFS显示磁盘空间不足,其实还有10%磁盘空间
使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
集群外节点安装客户端上传HDFS文件失败
HDFS写并发较大时报副本不足
HDFS客户端无法删除超长目录
集群外节点访问MRS HDFS报错
NameNode节点存在ALM-12027主机PID使用率超过阈值告警
集群出现ALM-14012 Journalnode数据不同步告警
由于HDFS块丢失导致DataNode退服失败
使用distcp命令拷贝空文件夹报错
使用Hive
Hive常见日志说明
Hive服务启动失败
安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
提交Hive任务时如何指定队列?
怎么通过客户端设置Map/Reduce内存?
如何在导入Hive表时指定输出的文件压缩格式?
Hive表desc描述过长导致无法完整显示
Hive表中增加分区列后再插入数据显示为NULL
集群中创建的新用户执行查询Hive操作时无权限
执行SQL提交任务到指定队列时报错
执行load data inpath命令报错
执行load data local inpath命令报错
执行create external table命令报错
在beeline客户端执行dfs -put命令报错
执行set role admin命令报无权限
在beeline客户端创建UDF时报错
Hive服务状态为故障
Hive服务状态为亚健康
Hive服务健康状态和Hive实例健康状态的区别
Shell客户端连接提示“authentication failed”
客户端提示访问ZooKeeper失败
使用UDF函数时提示“Invalid function”
Hive服务状态为Unknown
HiveServer或者MetaStore实例的健康状态为unknown
HiveServer或者MetaStore实例的健康状态为Concerning
TEXTFILE类型文件使用ARC4压缩时查询结果乱码
Hive任务运行过程中失败,重试成功
执行select语句时报错“Execution Error return code 2”
有大量分区时执行drop partition操作失败
执行join操作时localtask启动失败
修改hostname后导致WebHCat启动失败
集群修改域名后Hive样例程序运行报错
DBService超过最大连接数后导致Hive MetaStore异常
beeline客户端报错“Failed to execute session hooks: over max connections”
beeline客户端报错“OutOfMemoryError”
输入文件数超出设置限制导致任务执行失败
Hive任务执行中报栈内存溢出导致任务执行失败
对同一张表或分区并发写数据导致任务失败
Hive任务失败,报没有HDFS目录的权限
Load数据到Hive表失败
参考Hive JDBC代码用例开发的业务应用运行失败
HiveServer和HiveHCat进程故障
MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
Hive执行insert into语句报错
增加Hive表字段超时
重启Hive服务失败
Hive分区数过多导致删除表失败
Hive执行msck repair table命令时报错
Hive执行insert into命令报用户权限不足
在Hive中drop表后如何完全释放磁盘空间
JSON表中有破损数据导致Hive查询异常
Hive客户端执行SQL报错连接超时
WebHCat健康状态异常导致启动失败
mapred-default.xml文件解析异常导致WebHCat启动失败
MetaStore动态分区数超出阈值导致SQL报错
使用Hue
Hue界面中查看到未知Job在运行
使用IE浏览器在Hue中执行HQL失败
Hue WebUI界面访问失败
Hue界面无法加载HBase表
Hue中的输入框输入中文会出现混乱
Hue上执行Impala SQL查询中文报错
使用Impala
连接impala-shell失败
创建Kudu表报错
Impala客户端安装Python2
使用Kafka
运行Kafka客户端获取Topic时报错
安全集群中使用Python3.x对接Kafka
Flume正常连接Kafka后发送消息失败
Producer发送数据失败,报错“NullPointerException”
Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
Producer偶现发送数据失败,日志提示“Too many open files in system”
Consumer初始化成功但是无法从Kafka中获取指定Topic消息
Consumer消费数据失败,Consumer一直处于等待状态
SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
Consumer消费数据失败,提示“SchemaException: Error reading field”
Kafka Consumer消费数据丢失
账号锁定导致启动Kafka组件失败
Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
执行Kafka Topic删除操作时发现无法删除
执行Kafka Topic删除操作时提示“AdminOperationException”
执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
Consumer消费数据时存在重复消费现象
执行Kafka Topic创建操作时发现Partition的Leader显示为none
Kafka安全使用说明
如何获取Kafka Consumer Offset信息
如何针对Topic进行配置增加和删除
如何读取“__consumer_offsets”内部topic的内容
如何配置Kafka客户端shell命令日志
如何获取Topic的分布信息
Kafka高可靠使用说明
使用Kafka Shell命令无法操作Kafka集群
Kafka生产者写入单条记录过长问题
Kakfa消费者读取单条记录过长问题
Kafka集群节点内多磁盘数据量占用高
Kafka连接ZooKeeper客户端时发生断链
使用Oozie
并发提交大量oozie任务时,任务一直没有运行
Oozie调度HiveSQL作业报错处理
在MRS集群外客户端提交不了Oozie任务或两个小时才提交成功
使用Presto
配置sql-standard-with-group创建schema失败报Access Denied
Presto的coordinator进程无法正常启动
Presto查询Kudu表时系统报错找不到表
Presto查询Hive表无数据
MRS Presto查询报错“The node may have crashed or be under too much load”
MRS集群如何使用公网访问Presto
使用Spark
运行Spark应用时修改split值报错
提交Spark任务时提示参数格式错误
磁盘容量不足导致Spark、Hive和Yarn服务不可用
引入jar包不正确导致Spark任务无法运行
Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
提交Spark任务时报错“ClassNotFoundException”
提交Spark任务时Driver端提示运行内存超限
Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
JDK版本不匹配导致启动spark-sql和spark-shell失败
Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
提交Spark任务时连接ResourceManager异常
DataArts Studio调度Spark作业失败
通过API提交Spark作业后作业状态为error
MRS集群反复上报43006告警
在spark-beeline中创建或删除表失败
集群外节点提交Spark作业时报错无法连接Driver
运行Spark任务发现大量shuffle结果丢失
JDBCServer长时间运行导致磁盘空间不足
spark-shell执行SQL跨文件系统load数据到Hive表失败
Spark任务提交失败
Spark任务运行失败
JDBCServer连接失败
查看Spark任务日志失败
Spark Streaming任务提交问题
Spark连接其他服务认证问题
Spark连接Kafka认证错误
SparkSQL读取ORC表报错
Spark WebUI页面上stderr和stdout无法跳转到日志页面
spark-beeline查询Hive视图报错
使用Sqoop
Sqoop如何连接MySQL
Sqoop读取MySQL数据到HBase时报HBaseAdmin.<init>方法找不到异常
通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错
通过Sqoop从Hive导出数据到MySQL 8.0时报数据格式错误
通过sqoop import命令从PgSQL导出数据到Hive时报错
通过Sqoop读取MySQL数据并写parquet文件到OBS时失败
通过Sqoop迁移数据库数据时报错
使用Storm
Storm WebUI页面中events超链接地址无效
提交Storm拓扑失败排查思路
提交Storm拓扑失败,提示Failed to check principle for keytab
提交Storm拓扑后Worker日志为空
提交Storm拓扑后Worker运行异常,日志提示Failed to bind to XXX
使用jstack命令查看进程堆栈提示“well-known file is not secure”
使用Storm-JDBC插件开发Oracle写入Bolt时发现数据无法写入
Storm UI查看信息时显示Internal Server Error
使用Ranger
Hive启用Ranger鉴权后,在Hue页面能查看到没有权限的表和库
使用Yarn
集群启动Yarn后产生大量作业占用资源
通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
Yarn汇聚日志过大导致节点磁盘被占满
MapReduce任务异常,临时文件未删除
Yarn客户端的端口信息错误导致提交任务后报错connection refused
通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
使用Yarn客户端命令查询历史作业报错
TimelineServer目录文件数量到达上限
使用ZooKeeper
通过MRS客户端连接ZooKeeper报错
由于主备Master节点时间未同步导致ZooKeeper服务不可用
存算分离类
没有/tmp目录权限导致执行访问OBS的作业报错
使用Hadoop客户端删除OBS上数据时报.Trash目录没有权限错误
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败
视频帮助
产品术语
更多文档
用户指南(阿布扎比区域)
简介
什么是MRS
应用场景
组件介绍
Alluxio
CarbonData
ClickHouse
DBService
DBService基本原理
DBService与其他组件的关系
Flink
Flink基本原理
Flink HA方案介绍
Flink与其他组件的关系
Flink开源增强特性
窗口
Job Pipeline
配置表
Stream SQL Join
Flink CEP in SQL
Flume
Flume基本原理
Flume与其他组件的关系
Flume开源增强特性
HBase
HBase基本原理
HBase HA方案介绍
HBase与其他组件的关系
HBase开源增强特性
HDFS
HDFS基本原理
HDFS HA方案介绍
HDFS与其他组件的关系
HDFS开源增强特性
Hive
Hive基本原理
Hive CBO原理介绍
Hive与其他组件的关系
Hive开源增强特性
Hue
Hue基本原理
Hue与其他组件的关系
Hue开源增强特性
Impala
Kafka
Kafka基本原理
Kafka与其他组件的关系
Kafka开源增强特性
KafkaManager
KrbServer及LdapServer
KrbServer及LdapServer基本原理
KrbServer及LdapServer开源增强特性
Kudu
Loader
Loader基本原理
Loader与其他组件的关系
Loader开源增强特性
Manager
Manager基本原理
Manager关键特性
MapReduce
MapReduce基本原理
MapReduce与其他组件的关系
MapReduce开源增强特性
Oozie
Oozie基本原理
Oozie开源增强特性
Presto
Ranger
Ranger基本原理
Ranger与其他组件的关系
Spark
Spark基本原理
Spark HA方案介绍
Spark与HDFS和YARN的关系
Spark开源增强特性:跨源复杂数据的SQL查询优化
Spark2x
Spark2x基本原理
Spark2x HA方案介绍
Spark2x多主实例
Spark2x多租户
Spark2x与组件的关系
Spark2x开源新特性
Spark2x开源增强特性
CarbonData简介
跨源复杂数据的SQL查询优化
Storm
Storm基本原理
Storm与其他组件的关系
Storm开源增强特性
Tez
YARN
YARN基本原理
YARN HA方案介绍
Yarn与其他组件的关系
YARN开源增强特性
ZooKeeper
ZooKeeper基本原理
ZooKeeper与其他组件的关系
ZooKeeper开源增强特性
产品功能
多租户
安全增强
组件WebUI便捷访问
可靠性增强
作业管理
自定义引导操作
元数据
集群管理
集群生命周期管理
集群扩缩容
自动弹性伸缩
创建Task节点
隔离主机
标签管理
集群运维
消息通知
约束与限制
权限管理
与其他云服务的关系
IAM权限管理
创建用户并授权使用MRS
MRS自定义策略
IAM用户同步MRS
入门
如何使用MRS
创建集群
上传示例数据和程序
添加作业
删除集群
配置集群
概览
集群列表简介
创建方式简介
快速创建Hadoop分析集群
快速创建HBase查询集群
快速创建Kafka流式集群
快速创建ClickHouse集群
快速创建实时分析集群
创建自定义集群
创建自定义拓扑集群
添加集群标签
授权安全通信
通过引导操作安装第三方软件
引导操作简介
准备引导操作脚本
查看执行记录
添加引导操作
管理现有集群
查看和监控集群
查看集群基本信息
查看集群补丁信息
查看和定制集群监控指标
管理组件和主机监控
扩容集群
缩容集群
配置弹性伸缩规则
创建集群时配置弹性伸缩规则
切换集群子网
配置消息通知
运维
运维授权
日志共享
删除集群
删除失败任务
作业管理
MRS作业简介
运行MapReduce作业
运行SparkSubmit作业
运行HiveSql作业
运行SparkSql作业
运行Flink作业
运行Kafka作业
查看作业配置信息和日志
停止作业
删除作业
使用OBS加密数据运行作业
配置作业消息通知
导入导出数据
组件管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服角色实例
管理主机(节点)操作
隔离主机
取消隔离主机
启动及停止集群
同步集群配置
导出集群的配置数据
支持滚动重启
告警管理
查看告警列表
查看事件列表
查看与手动清除告警
补丁管理
MRS 3.x之前版本补丁操作指导
滚动补丁
修复隔离主机补丁
健康检查管理
使用前须知
执行健康检查
查看并导出检查报告
DBService健康检查指标项说明
Flume 健康检查指标项说明
HBase健康检查指标项说明
Host健康检查指标项说明
HDFS健康检查指标项说明
Hive健康检查指标项说明
Kafka健康检查指标项说明
KrbServer健康检查指标项说明
LdapServer健康检查指标项说明
Loader健康检查指标项说明
MapReduce健康检查指标项说明
OMS健康检查指标项说明
Spark健康检查指标项说明
Storm健康检查指标项说明
Yarn健康检查指标项说明
ZooKeeper健康检查指标项说明
租户管理
使用前须知
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
备份与恢复
使用前须知
备份与恢复简介
备份元数据
恢复元数据
修改备份任务
查看备份恢复任务
MRS多用户权限管理
MRS集群中的用户与权限
开启Kerberos认证集群中的默认用户清单
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
配置跨集群互信
配置并使用互信集群的用户
配置MRS多用户访问OBS细粒度权限
管理历史集群
查看历史集群基本信息
查看操作日志
元数据
配置数据连接
配置Ranger数据连接
连接集群
登录集群
集群节点简介
登录集群节点
如何确认Manager的主备管理节点
访问Manager
访问Manager
访问FusionInsight Manager(MRS 3.x及之后版本)
访问MRS集群上托管的开源组件Web页面
开源组件Web站点
开源组件端口列表
通过专线访问
通过弹性公网IP访问
通过Windows弹性云服务器访问
创建连接MRS集群的SSH隧道并配置浏览器
使用MRS客户端
安装客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
各组件客户端使用实践
使用ClickHouse客户端
使用Flink客户端
使用Flume客户端
使用HBase客户端
使用HDFS客户端
使用Hive客户端
使用Impala客户端
使用Kafka客户端
使用Kudu客户端
使用Oozie客户端
使用Storm客户端
使用Yarn客户端
MRS Manager操作指导(适用于2.x及之前)
MRS Manager简介
查看集群运行任务
监控管理
系统概览
管理服务和主机监控
管理资源分布
配置监控指标转储
告警管理
查看与手动清除告警
配置监控与告警阈值
配置Syslog北向参数
配置SNMP北向参数
对象管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服务角色实例
管理主机操作
隔离主机
取消隔离主机
启动及停止集群
同步集群配置
导出集群的配置数据
日志管理
关于日志
Manager日志清单
查看及导出审计日志
导出服务日志
配置审计日志导出参数
健康检查管理
执行健康检查
查看并导出检查报告
配置健康检查报告保存数
管理健康检查报告
DBService健康检查指标项说明
Flume 健康检查指标项说明
HBase健康检查指标项说明
Host健康检查指标项说明
HDFS健康检查指标项说明
Hive健康检查指标项说明
Kafka健康检查指标项说明
KrbServer健康检查指标项说明
LdapServer健康检查指标项说明
Loader健康检查指标项说明
MapReduce健康检查指标项说明
OMS健康检查指标项说明
Spark健康检查指标项说明
Storm健康检查指标项说明
Yarn健康检查指标项说明
ZooKeeper健康检查指标项说明
静态服务池管理
查看静态服务池状态
配置静态服务池
租户管理
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
备份与恢复
备份与恢复简介
备份元数据
恢复元数据
修改备份任务
查看备份恢复任务
安全管理
未开启Kerberos认证集群中的默认用户清单
开启Kerberos认证集群中的默认用户清单
修改操作系统用户密码
修改admin密码
修改Kerberos管理员密码
修改LDAP管理员和LDAP用户密码
修改组件运行用户密码
修改OMS数据库管理员密码
修改OMS数据库数据访问用户密码
修改组件数据库用户密码
更新集群密钥
权限管理
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
补丁操作指导
补丁操作指导
支持滚动补丁
修复隔离主机补丁
支持滚动重启
FusionInsight Manager操作指导(适用于3.x)
从这里开始
FusionInsight Manager入门指导
查询FusionInsight Manager版本号
登录管理系统
登录管理节点
主页
主页概述
管理监控指标数据报表
集群
管理集群
集群管理概述
滚动重启集群
管理配置过期
下载客户端
修改集群属性
管理集群配置
静态服务池
静态服务资源
配置集群静态资源
查看集群静态资源
客户端管理
管理客户端
批量升级客户端
批量刷新hosts文件
管理服务
服务管理概述
其他服务管理操作
服务详情概述
执行角色实例主备倒换
资源监控
采集堆栈信息
切换Ranger鉴权
服务配置
修改服务配置参数
修改服务自定义配置参数
管理实例
实例管理概述
入服与退服实例
管理实例配置
查看实例配置文件
实例组
管理实例组
查看实例组信息
配置实例组参数
主机
主机管理页面
查看主机列表
查看主机概览
查看主机进程及资源
主机维护操作
启动、停止主机上的所有实例
执行主机健康检查
分配机架
隔离主机
导出主机信息
资源概况
分布
趋势
集群
主机
运维
告警
告警与事件概述
配置阈值
配置告警屏蔽状态
日志
在线检索日志
下载日志
健康检查
查看健康检查任务
管理健康检查报告
修改健康检查配置
备份恢复设置
创建备份任务
创建恢复任务
其他任务管理说明
审计
审计管理页面概述
配置审计日志转储
租户资源
多租户介绍
简介
技术原理
多租户管理页面概述
相关模型
资源概述
动态资源
存储资源
多租户使用
使用说明
流程概述
使用Superior调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
管理全局用户策略
使用Capacity调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
Capacity Scheduler模式下清除租户非关联队列
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
切换调度器
系统设置
权限设置
用户管理
创建用户
修改用户信息
导出用户信息
锁定用户
解锁用户
删除用户
修改用户密码
初始化用户密码
导出认证凭据文件
用户组管理
角色管理
安全策略
配置密码策略
配置私有属性
对接设置
配置SNMP北向参数
配置Syslog北向参数
配置监控指标数据转储
导入证书
OMS管理
OMS维护页面概述
修改OMS数据库(gaussDB)密码
修改OMS服务配置参数
部件管理
查看部件包
集群管理
配置客户端
安装客户端
使用客户端
更新已安装客户端的配置
集群互信管理
集群互信概述
修改Manager系统域名
配置跨Manager集群互信
配置跨集群互信后的用户权限
配置定时备份告警与审计信息
修改FusionInsight Manager添加的路由表
切换维护模式
例行维护
日志管理
关于日志
Manager日志清单
配置日志级别与文件大小
配置审计日志本地备份数
查看角色实例日志
备份恢复管理
备份恢复简介
启用集群间拷贝功能
备份数据
备份Manager数据
备份DBService数据
备份HBase元数据
备份HBase业务数据
备份NameNode数据
备份HDFS业务数据
备份Hive业务数据
备份Kafka元数据
备份Yarn资源池数据
恢复数据
恢复Manager数据
恢复DBService数据
恢复HBase元数据
恢复HBase业务数据
恢复NameNode数据
恢复HDFS业务数据
恢复Hive业务数据
恢复Kafka元数据
恢复Yarn数据
管理本地快速恢复任务
修改备份任务
查看备份恢复任务
安全管理
安全概述
权限模型
权限机制
认证策略
鉴权策略
用户信息一览表
其他权限信息一览
FusionInsight Manager安全功能
帐户管理
帐户安全设置
解锁LDAP用户和管理帐户
解锁系统内部用户
修改集群组件鉴权配置开关
使用普通模式集群用户在非集群节点登录
修改系统用户密码
修改admin密码
修改操作系统用户密码
修改系统内部用户密码
修改Kerberos管理员密码
修改OMS Kerberos管理员密码
修改LDAP管理员和LDAP用户密码(含OMS LDAP)
修改LDAP管理帐户密码
修改组件运行用户密码
修改默认数据库用户密码
修改OMS数据库管理员密码
修改OMS数据库访问用户密码
修改组件数据库用户密码
修改DBService数据库omm用户密码
安全加固
加固策略
配置受信任IP访问LDAP
加密HFile和WAL内容
安全配置
配置HBase允许修改操作的IP地址白名单
更新集群密钥
加固LDAP
配置Kafka数据传输加密
配置HDFS数据传输加密
配置Storm业务进程间通信认证
配置Controller与Agent间通信加密
更新omm用户ssh密钥
安全维护
帐户维护建议
密码维护建议
日志维护建议
安全声明
数据备份与恢复
HDFS数据
Hive元数据
Hive数据
HBase数据
Kafka数据
存算分离操作指导
配置存算分离集群(委托方式)
配置存算分离集群(AKSK方式)
使用存算分离集群
Hive对接OBS文件系统
Flink对接OBS文件系统
Spark2x对接OBS文件系统
HDFS客户端对接OBS文件系统
MapReduce对接OBS文件系统
安全性
集群(未启用Kerberos认证)安全配置建议
安全认证原理和认证机制
高危操作一览表
FAQ
产品咨询类
MRS可以做什么?
MRS支持什么类型的分布式存储?
如何使用自定义安全组创建MRS集群?
如何使用MRS?
如何保证数据和业务运行安全?
如何配置Phoenix连接池?
MRS是否支持更换网段?
MRS服务集群节点是否执行降配操作?
Hive与其他组件有什么关系?
MRS集群是否支持Hive on Spark?
Hive版本之间是否兼容?
MRS集群哪个版本支持建立Hive连接且有用户同步功能?
数据存储在OBS和HDFS有什么区别?
Hadoop压力测试工具如何获取?
Impala与其他组件有什么关系?
关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
Kudu和HBase间的关系?
MRS是否支持Hive on Kudu?
10亿级数据量场景的解决方案
如何修改DBService的IP?
MRS sudo log能否清理?
MRS 2.1.0集群版本对Storm日志也有20G的限制么
Spark ThriftServer是什么
Kafka目前支持的访问协议类型
MRS节点访问OBS报错408
zstd的压缩比怎么样
创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
创建MRS集群时,找不到ZooKeeper组件
MRS 3.1.0集群版本,Spark任务支持python哪些版本?
如何让不同的业务程序分别用不同的Yarn队列?
MRS管理控制台和集群Manager页面区别与联系
MRS如何解绑EIP?
帐号密码类
登录Manager帐号的是什么?
帐号密码的过期时间如何查询和修改
帐号权限类
如果不开启Kerberos认证,MRS集群能否支持访问权限细分?
如何给新建的帐号添加租户管理权限?
如何自定义配置MRS服务策略?
在MRS Manager页面“系统设置”中找不到用户管理,什么原因?
Hue有没有配置帐号权限的功能?
客户端使用类
如何使用组件客户端?
怎么关闭ZooKeeper SASL认证
在MRS集群外客户端中执行kinit报错
Web页面访问类
修改开源组件Web页面会话超时时间
MRS租户管理中的动态资源计划页面无法刷新
Kafka Topic监控页签在Manager页面不显示
访问HDFS、Hue、Yarn、Flink等组件的WebUI界面报错,或部分功能不可用
监控告警类
在MRS流式集群中,Kafka topic监控是否支持发送告警?
产生告警“ALM-18022 Yarn队列资源不足”时,在哪里可以看到在运行的资源队列
HBase操作请求次数指标中的多级图表统计如何理解
性能优化类
MRS集群是否支持重装系统?
MRS集群是否支持切换操作系统?
如何提高集群Core节点的资源使用率?
如何关闭防火墙服务?
作业开发类
如何准备MRS的数据源?
集群支持提交哪些形式的Spark作业?
MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
Spark作业Client模式和Cluster模式的区别
如何查看MRS作业日志?
报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
MRS Console页面Flink作业状态与Yarn上的作业状态不一致
提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
ClickHouse客户端执行SQL查询时报内存不足问题
Spark运行作业报错:java.io.IOException: Connection reset by peer
Spark作业访问OBS报错:requestId=4971883851071737250
DataArts Studio调度spark作业,偶现失败,重跑失败
Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
提交的Yarn作业在界面上查看不到
如何修改现有集群的HDFS NameSpace(fs.defaultFS)
通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
Flink作业提交时报错slot request timeout
DistCP类型作业导入导出数据问题
集群升级/补丁
MRS版本如何进行升级?
MRS是否支持修改版本?
集群访问类
MRS登录集群节点的两种方式能够切换么?
如何获取ZooKeeper的IP地址和端口?
如何通过集群外的节点访问MRS集群?
大数据业务开发
MRS是否支持同时运行多个Flume任务?
如何修改FlumeClient的日志为标准输出日志?
Hadoop组件jar包位置和环境变量的位置在哪里?
HBase支持的压缩算法有哪些?
MRS是否支持通过Hive的HBase外表将数据写入到HBase?
如何查看HBase日志?
HBase表如何设置和修改数据保留期?
HDFS如何进行数据均衡?
如何修改HDFS的副本数?
如何使用Python远程连接HDFS的端口?
如何修改HDFS主备倒换类?
DynamoDB的number在Hive表中用什么类型比较好?
Hive Driver是否支持对接dbcp2?
用户A如何查看用户B创建的Hive表?
Hive查询数据是否支持导出?
Hive使用beeline -e执行多条语句报错
添加Hive服务后,提交hivesql/hivescript作业失败
Hue下载excel无法打开
Hue连接hiveserver,不释放session,报错over max user connections如何处理?
如何重置Kafka数据?
MRS Kafka如何查看客户端版本信息?
Kafka目前支持的访问协议类型有哪些?
消费kafka topic,报错:Not Authorized to access group xxx
Kudu支持的压缩算法有哪些?
如何查看Kudu日志?
新建集群Kudu服务异常处理
OpenTSDB是否支持python的接口?
Presto如何配置其他数据源?
MRS如何连接spark-shell
MRS如何连接spark-beeline
spark job对应的执行日志保存在哪里?
MRS的Storm集群提交任务时如何指定日志路径?
Yarn的ResourceManager配置是否正常?
如何修改Clickhouse服务的allow_drop_detached配置项?
执行Spark任务报内存不足告警
ClickHouse占用大量CPU,一直不下降
ClickHouse如何开启Map类型?
SparkSQL访问hive分区表大量调用OBS接口
API使用类
使用调整集群节点接口时参数node_id如何配置?
集群管理类
如何查看所有集群?
如何查看日志信息?
如何查看集群配置信息?
如何在MRS集群中安装Kafka,Flume组件?
如何停止MRS集群?
MRS支持数据盘扩容吗?
现有集群如何增加组件?
MRS集群中安装的组件能否删除?
MRS是否支持变更MRS集群节点?
如何取消集群风险告警
为什么MRS集群显示的资源池内存小于实际集群内存?
如何配置knox内存?
MRS集群安装的Python版本是多少?
如何查看各组件配置文件路径?
MRS节点时间不正确
如何查询MRS节点的启动时间
节点互信异常如何处理?
如何调整manager-executor进程内存?
Kerberos使用
已创建的MRS集群如何修改Kerberos状态?
Kerberos认证服务的端口有哪些?
如何在运行中的集群中部署Kerberos服务?
开启Kerberos认证的集群如何访问Hive?
开启Kerberos认证的集群如何访问Presto?
开启Kerberos认证的集群如何访问Spark?
如何避免Kerberos认证过期?
元数据管理
Hive元数据在哪里查看?
故障排除
Web页面访问类
无法访问MRS集群管理页面(MRS Manager界面)
升级Python后,无法登录MRS Manager页面
用户修改域名后无法登录MRS Manager页面
登录Manager,页面空白不显示
用户名过长时下载认证凭据失败
集群管理类
缩容Task节点失败
如何处理集群内部OBS证书过期
MRS集群添加新磁盘
MRS集群更换磁盘(适用于2.x及之前)
MRS集群更换磁盘(适用于3.x)
MRS备份失败
Core节点出现df显示的容量和du显示的容量不一致
如何解除关联子网
修改hostname,导致MRS状态异常
如何定位进程被kill
MRS 集群使用pip3安装python包提示网络不可达
MRS集群客户端无法下载
扩容失败
MRS通过beeline执行插入命令的时候出错
MRS集群如何进行Euleros系统漏洞升级?
使用CDM迁移数据至HDFS
MRS集群频繁产生告警
PMS进程占用内存高问题处理
Knox进程占用内存高
安全集群外节点安装客户端访问HBase很慢
作业无法提交如何定位?
HBase日志文件过大导致OS盘空间不足
Manager页面新建的租户删除失败
使用Alluixo
Alluixo在HA模式下出现Does not contain a valid host:port authority报错
使用ClickHouse
ZooKeeper上数据错乱导致ClickHouse启动失败问题
使用DBservice
DBServer实例状态异常
DBServer实例一直处于Restoring状态
默认端口20050或20051被占用
/tmp目录权限不对导致DBserver实例状态一直处于Restoring
DBService备份失败
DBService状态正常,组件无法连接DBService
DBServer启动失败
浮动IP不通导致DBService备份失败
DBService配置文件丢失导致启动失败
使用Flink
安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
创建Flink集群时执行yarn-session.sh命令失败
使用不同用户,执行yarn-session创建集群失败
Flink业务程序无法读取NFS盘上的文件
自定义Flink log4j日志输出级别
使用Flume
Flume向Spark Streaming提交作业,提交到集群后报类找不到
Flume客户端安装失败
Flume客户端无法连接服务端
Flume数据写入组件失败
Flume 服务端进程故障
Flume数据采集慢
Flume启动失败
使用HBase
连接到HBase响应慢
HBase用户认证失败
端口被占用导致RegionServer启动失败
节点剩余内存不足导致HBase启动失败
HDFS性能差导致HBase服务不可用告警
参数不合理导致HBase启动失败
残留进程导致Regionsever启动失败
HDFS上设置配额导致HBase启动失败
HBase version文件损坏导致启动失败
无业务情况下,RegionServer占用CPU高
HBase启动失败,RegionServer日志中提示FileNotFoundException异常
HBase启动后原生页面显示RegionServer个数多于实际个数
RegionServer实例异常,处于Restoring状态
新安装的集群HBase启动失败
acl表目录丢失导致HBase启动失败
集群上下电之后HBase启动失败
文件块过大导致HBase数据导入失败
使用Phoenix创建HBase表后,向索引表中加载数据报错
在MRS集群客户端无法执行hbase shell命令
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
RegionServer剩余内存不足导致HBase服务启动失败
使用HDFS
修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
通过公网IP连接主机,使用HDFS客户端报错
使用Python远程连接HDFS的端口失败
HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
启动HDFS和Yarn报错
HDFS权限设置问题
HDFS的DataNode一直显示退服中
内存不足导致HDFS启动失败
ntpdate修改时间导致HDFS出现大量丢块
DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
单NameNode长期故障,如何使用客户端手动checkpoint
文件读写常见故障
文件最大打开句柄数设置太小导致读写文件异常
客户端写文件close失败
文件错误导致上传文件到HDFS失败
界面配置dfs.blocksize后put数据,block大小还是原来的大小
读取文件失败,FileNotFoundException
HDFS写文件失败,item limit of / is exceeded
调整shell客户端日志级别
读文件失败No common protection layer
HDFS目录配额(quota)不足导致写文件失败
执行balance失败,Source and target differ in block-size
查询或者删除文件失败,父目录可以看见此文件(不可见字符)
非HDFS数据残留导致数据分布不均衡
客户端安装在数据节点导致数据分布不均衡
节点内DataNode磁盘使用率不均衡处理指导
执行balance常见问题定位方法
HDFS显示磁盘空间不足,其实还有10%磁盘空间
普通集群在Core节点安装hdfs客户端,使用时报错
集群外节点安装客户端使用hdfs上传文件失败
HDFS写并发较大时,报副本不足的问题
HDFS客户端无法删除超长目录
集群外节点访问MRS HDFS报错
使用Hive
Hive各个日志里都存放了什么信息?
Hive启动失败问题的原因有哪些?
安全集群执行set命令的时候报Cannot modify xxx at runtime.
怎样在Hive提交任务的时候指定队列?
客户端怎么设置Map/Reduce内存?
如何在导入表时指定输出的文件压缩格式
desc描述表过长时,无法显示完整
增加分区列后再insert数据显示为NULL
创建新用户,执行查询时报无权限
执行SQL提交任务到指定队列报错
执行load data inpath命令报错
执行load data local inpath命令报错
执行create external table报错
在beeline客户端执行dfs -put命令报错
执行set role admin报无权限
通过beeline创建UDF时候报错
Hive服务健康状态和Hive实例健康状态的区别
Hive中的告警有哪些以及触发的场景
Shell客户端连接提示"authentication failed"
客户端提示访问ZooKeeper失败
使用udf函数提示"Invalid function"
Hive服务状态为Unknown总结
Hiveserver或者Metastore实例的健康状态为unknown
Hiveserver或者Metastore实例的健康状态为Concerning
TEXTFILE类型文件使用ARC4压缩时select结果乱码
hive任务运行过程中失败,重试成功
执行select语句报错
drop partition操作,有大量分区时操作失败
localtask启动失败
WebHCat启动失败
切域后Hive二次开发样例代码报错
DBService超过最大连接数,导致metastore异常
beeline报Failed to execute session hooks: over max connections错误
beeline报OutOfMemoryError错误
输入文件数超出设置限制导致任务执行失败
任务执行中报栈内存溢出导致任务执行失败
对同一张表或分区并发写数据导致任务失败
Hive任务失败,报没有HDFS目录的权限
Load数据到Hive表失败
HiveServer和HiveHCat进程故障
Hive执行insert into语句报错,命令界面报错信息不明
增加Hive表字段超时
Hive服务重启失败
hive执行删除表失败
Hive执行msck repair table table_name报错
在Hive中drop表后,如何完全释放磁盘空间
客户端执行SQL报错连接超时
WebHCat健康状态异常导致启动失败
mapred-default.xml文件解析异常导致WebHCat启动失败
使用Hue
Hue上有job在运行
使用IE浏览器在Hue中执行HQL失败
Hue(主)无法打开web网页
Hue WebUI访问失败
Hue界面无法加载HBase表
使用Impala
用户连接impala-shell失败
创建Kudu表报错
Impala客户端登录失败
使用Kafka
运行Kafka获取topic报错
Flume可以正常连接Kafka,但是发送消息失败。
Producer发送数据失败,抛出NullPointerException
Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
Producer偶现发送数据失败,日志提示Too many open files in system
Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
Consumer消费数据失败,Consumer一直处于等待状态
SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
Consumer消费数据是否丢失排查
帐号锁定导致启动组件失败
Kafka Broker上报进程异常,日志提示IllegalArgumentException
执行Kafka Topic删除操作,发现无法删除
执行Kafka Topic删除操作,提示AdminOperationException
执行Kafka Topic创建操作,发现无法创建提示NoAuthException
执行Kafka Topic设置ACL操作失败,提示NoAuthException
执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
Consumer消费数据存在重复消费现象
执行Kafka Topic创建操作,发现Partition的Leader显示为none
Kafka安全使用说明
如何获取Kafka Consumer Offset信息
如何针对Topic进行配置增加和删除
如何读取“__consumer_offsets”内部topic的内容
如何配置客户端shell命令的日志
如何获取Topic的分布信息
Kafka高可靠使用说明
Kafka生产者写入单条记录过长问题
Kakfa消费者读取单条记录过长问题
Kafka集群节点内多磁盘数据量占用高处理办法
使用Oozie
当并发提交大量oozie任务时,任务一直没有运行
使用Presto
配置sql-standard-with-group创建schema失败报Access Denied
Presto的coordinator无法正常启动
Presto查询Kudu表报错
Presto查询Hive表无数据
使用Spark
Spark应用下修改split值时报错
使用Spark时报错
引入jar包不正确,导致Spark任务无法运行
Spark任务由于内存不够,作业卡住
运行Spark报错
Driver端提示executor memory超限
Yarn-cluster模式下,Can't get the Kerberos realm异常
JDK版本不匹配启动spark-sql,spark-shell失败
Yarn-client模式提交ApplicationMaster尝试启动两次失败
提交Spark任务时,连接ResourceManager异常
DataArts Studio调度spark作业失败
Spark作业api提交状态为error
集群反复出现43006告警
在spark-beeline中创建/删除表失败
集群外节点提交Spark作业到Yarn报错连不上Driver
运行Spark任务发现大量shuffle结果丢失
JDBCServer长时间运行导致磁盘空间不足
spark-shell执行sql跨文件系统load数据到hive表失败
Spark任务提交失败
Spark任务运行失败
JDBCServer连接失败
查看Spark任务日志失败
Spark连接其他服务认证问题
spark连接redis报错
spark-beeline查询Hive视图报错
使用Sqoop
Sqoop如何连接mysql
Sqoop读取MySQL中数据到HBase报HBaseAdmin.<init>方法找不到异常
HUE界面的Sqoop任务HBase到HDFS报错
Sqoop从hive到mysql8.0报格式错误
Sqoop import 从pg到hive报错
Sqoop读mysql,写parquet文件到OBS失败
使用Storm
Storm组件的Storm UI页面中events超链接地址无效
提交拓扑失败
提交拓扑失败,提示Failed to check principle for keytab
提交拓扑后Worker日志为空
提交拓扑后Worker运行异常,日志提示Failed to bind to:host:ip
使用jstack命令查看进程堆栈提示well-known file is not secure
使用Storm-JDBC插件开发Oracle写入Bolt,发现数据无法写入
业务拓扑配置GC参数不生效
UI查看信息显示Internal Server Error
使用Ranger
Hive启用Ranger鉴权后,在Hue页面能查看到没有权限的表和库
使用Yarn
启动Yarn后发现一堆job
通过客户端hadoop jar命令提交任务,客户端返回GC overhead
Yarn汇聚日志过大导致磁盘被占满
MR任务异常临时文件不删除
提交任务的Yarn的ResourceManager报错connection refused,且配置的Yarn端口为8032
Yarn WebUI作业查看日志提示“Could not access logs page!”
Yarn页面单击队列名称报错
使用ZooKeeper
MRS集群如何访问ZooKeeper
访问OBS
使用MRS多用户访问OBS功能时/tmp目录没有权限
Hadoop客户端删除OBS上数据时.Trash目录没有权限
附录
MRS 3.x版本操作注意事项
组件操作指南(阿布扎比区域)
使用Alluxio
配置底层存储系统
通过数据应用访问Alluxio
Alluxio常用操作
使用CarbonData(MRS 3.x之前版本)
从零开始使用CarbonData
CarbonData表简介
创建CarbonData表
删除CarbonData表
使用CarbonData(MRS 3.x及之后版本)
概述
CarbonData简介
CarbonData主要规格
配置参考
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库抛出Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
使用ClickHouse
从零开始使用ClickHouse
ClickHouse表引擎介绍
ClickHouse表创建
ClickHouse数据类型
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
ClickHouse数据迁移
ClickHouse数据导入导出
将Kafka数据同步至ClickHouse
使用ClickHouse数据迁移工具
用户管理及认证
ClickHouse用户及权限管理
ClickHouse使用OpenLDAP认证
ClickHouse集群管理
ClickHouse集群配置说明
ClickHouse增加磁盘容量
ClickHouse新增磁盘
通过数据文件备份恢复ClickHouse数据
ClickHouse日志介绍
ClickHouse性能调优
数据表报错Too many parts解决方法
加速Merge操作
加速TTL操作
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
如何迁移Hive/HDFS的数据到ClickHouse
如何迁移OBS/S3的数据到ClickHouse
使用辅助Zookeeper或者副本数据同步表数据时,日志报错
如何为ClickHouse用户赋予数据库级别的Select权限
使用DBService
DBService日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置Flink服务参数
配置Flink安全特性
安全特性描述
认证和加密
配置对接Kafka
配置Pipeline
配置开发Flink可视化作业
Flink WebUI应用简介
Flink WebUI权限管理
创建FlinkServer角色
访问Flink WebUI
创建应用
创建集群连接
创建数据连接
创建流表
创建作业
Flink日志介绍
Flink性能调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
经验总结
Flink常见Shell命令
参考
签发证书样例
Flink重启策略
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume对接安全Hive指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
Flume常见问题
使用HBase
从零开始使用HBase
使用HBase客户端
创建HBase角色
配置HBase备份
配置HBase参数
启用集群间拷贝功能
使用ReplicationSyncUp工具
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
索引数据迁移
配置HBase容灾
配置HBase数据压缩和编码
HBase容灾业务切换
HBase容灾主备集群倒换
社区BulkLoad Tool
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
使用二级索引
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
租户访问Phoenix提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
使用HDFS
从零开始使用Hadoop
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置DataNode容量均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS Mover
使用HDFS AZ Mover
配置HDFS DiskBalancer
配置从NameNode支持读
使用HDFS文件并发操作命令
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并抛出异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅admin用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
Hive支持事务
切换Hive执行引擎为Tez
Hive物化视图
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
Hive复杂类型字段名称中包含特殊字符导致建表失败
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
如何关闭Hive客户端日志
Hive快删目录配置类问题
Hive配置类问题
使用Hudi
快速入门
基本操作
Hudi表结构
写操作指导
使用前须知
批量写入
流式写入
将Hudi表数据同步到Hive
读操作指导
简介
cow表视图读取
mor表视图读取
数据管理维护
Clustering
Cleaning
Compaction
Savepoint
单表并发控制
Hudi客户端使用
使用Hudi-Cli.sh操作Hudi表
配置参考
写入操作配置
同步hive表配置
index相关配置
存储配置
compaction&cleaning配置
单表并发控制配置
Hudi性能调优
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue(MRS 3.x之前版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
使用Hue(MRS 3.x及之后版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
典型场景
HDFS on Hue
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
使用Impala
从零开始使用Impala
Impala常用参数
访问Impala的WebUI
使用Impala操作Kudu
Impala对接外部LDAP
Impala启用并配置动态资源池
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
基于binlog的MySQL数据同步到MRS集群中
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka扩容节点后数据均衡
Kafka Token认证机制工具使用说明
Kafka日志介绍
性能调优
Kafka性能调优
Kafka 特性说明
Kafka节点内数据迁移
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用KafkaManager
KafkaManager介绍
访问KafkaManager的WebUI
管理Kafka集群
Kafka集群监控管理
使用Loader
从零开始使用Loader
Loader使用简介
Loader常用参数
创建Loader角色
Loader连接配置说明
管理Loader连接(MRS 3.x之前版本)
管理Loader连接(MRS 3.x及之后版本)
Loader作业源连接配置说明
Loader作业目的连接配置说明
管理Loader作业
准备MySQL数据库连接的驱动
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
样例:通过Loader将数据从OBS导入HDFS
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Kudu
从零开始使用Kudu
访问Kudu的WebUI
使用Mapreduce
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用OpenTSDB
使用MRS客户端操作OpenTSDB指标数据
使用curl命令操作OpenTSDB
使用Oozie
从零开始使用Oozie
使用Oozie客户端
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Streaming作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
Oozie常用排查手段
使用Presto
访问Presto的WebUI
使用客户端执行查询语句
Presto常见问题
Presto配置多Hive连接
使用Ranger(MRS 1.9.2)
创建Ranger集群
访问Ranger WebUI及同步Unix用户到Ranger WebUI
在Ranger中配置Hive/Impala的访问权限
在Ranger中配置HBase的访问权限
使用Ranger(MRS 3.x)
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
查看Ranger权限信息
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加Storm的Ranger访问权限策略
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
使用Spark
使用前须知
从零开始使用Spark
从零开始使用Spark SQL
使用Spark客户端
访问Spark Web UI界面
Spark对接OpenTSDB
创建表关联OpenTSDB
插入数据至OpenTSDB表
查询OpenTSDB表
默认配置修改
使用Spark2x
使用前须知
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
使用Sqoop
从零开始使用Sqoop
Sqoop1.4.7适配MRS 3.x集群
Sqoop常用命令及参数介绍
Sqoop常见问题
报错找不到QueryProvider类
连接postgresql或者gaussdb时报错
使用hive-table方式同步数据到obs上的hive表报错
使用hive-table方式同步数据到orc表或者parquet表失败
使用hive-table方式同步数据报错
使用hcatalog方式同步hive parquet表报错
使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错
使用Storm
从零开始使用Storm
使用Storm客户端
使用客户端提交Storm拓扑
访问Storm的WebUI
管理Storm拓扑
查看Storm拓扑日志
Storm常用参数
配置Storm业务用户密码策略
迁移Storm业务至Flink
概述
完整迁移Storm业务
嵌入式迁移Storm业务
迁移Storm对接的外部安全组件业务
Storm日志介绍
性能调优
Storm性能调优
使用Tez
使用前须知
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问集群Manager
访问MRS Manager(MRS 3.x之前版本)
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
API参考(阿布扎比区域)
使用前必读
概述
调用说明
终端节点
约束与限制
基本概念
API版本选择建议
API概览
如何调用API
构造请求
认证鉴权
返回结果
应用示例
创建MRS集群
扩容集群
缩容集群
新增作业
终止作业
删除集群
API V2
集群管理接口
创建集群
修改集群名称
作业对象接口
新增并执行作业
查询单个作业信息
查询作业列表信息
终止作业
获取SQL结果
批量删除作业
弹性伸缩接口
查看弹性伸缩策略
集群HDFS文件接口
获取指定目录文件列表
SQL接口
提交SQL语句
查询SQL结果
取消SQL执行任务
委托管理
查询用户(组)与IAM委托的映射关系
更新用户(组)与IAM委托的映射
API V1.1
集群管理接口
创建集群并执行作业
调整集群节点
查询集群列表
查询集群详情
查询主机列表
删除集群
作业对象接口
作业执行对象接口
弹性伸缩接口
配置弹性伸缩规则
标签管理接口
给指定集群添加标签
查询指定集群的标签
删除指定集群的标签
批量添加集群标签
批量删除集群标签
查询所有标签
查询特定标签的集群列表
历史API
作业接口管理(废弃)
新增作业并执行(废弃)
查询作业exe对象列表(废弃)
查询作业exe对象详情(废弃)
删除作业执行对象(废弃)
权限策略和授权项
策略及授权项说明
附录
状态码
错误码
获取项目ID
获取MRS集群信息
MRS支持的角色与组件对应表
修订记录
用户指南(巴黎区域)
简介
什么是MRS
应用场景
如何选择MRS
组件介绍
Alluxio
CarbonData
ClickHouse
DBService
DBService基本原理
DBService与其他组件的关系
Flink
Flink基本原理
Flink HA方案介绍
Flink与其他组件的关系
Flink开源增强特性
窗口
Job Pipeline
Stream SQL Join
Flink CEP in SQL
Flume
Flume基本原理
Flume与其他组件的关系
Flume开源增强特性
HBase
HBase基本原理
HBase HA方案介绍
HBase与其他组件的关系
HBase开源增强特性
HDFS
HDFS基本原理
HDFS HA方案介绍
HDFS与其他组件的关系
HDFS开源增强特性
Hive
Hive基本原理
Hive CBO原理介绍
Hive与其他组件的关系
Hive开源增强特性
Hudi
Hue
Hue基本原理
Hue与其他组件的关系
Hue开源增强特性
Impala
Kafka
Kafka基本原理
Kafka与其他组件的关系
Kafka开源增强特性
KafkaManager
KrbServer及LdapServer
KrbServer及LdapServer基本原理
KrbServer及LdapServer开源增强特性
Kudu
Loader
Loader基本原理
Loader与其他组件的关系
Loader开源增强特性
Manager
Manager基本原理
Manager关键特性
MapReduce
MapReduce基本原理
MapReduce与其他组件的关系
MapReduce开源增强特性
Oozie
Oozie基本原理
Oozie开源增强特性
OpenTSDB
Presto
Ranger
Ranger基本原理
Ranger与其他组件的关系
Spark
Spark基本原理
Spark HA方案介绍
Spark与HDFS和YARN的关系
Spark开源增强特性:跨源复杂数据的SQL查询优化
Spark2x
Spark2x基本原理
Spark2x HA方案介绍
Spark2x多主实例
Spark2x多租户
Spark2x与组件的关系
Spark2x开源新特性
Spark2x开源增强特性
CarbonData简介
跨源复杂数据的SQL查询优化
Storm
Storm基本原理
Storm与其他组件的关系
Storm开源增强特性
Tez
YARN
YARN基本原理
YARN HA方案介绍
Yarn与其他组件的关系
YARN开源增强特性
ZooKeeper
ZooKeeper基本原理
ZooKeeper与其他组件的关系
ZooKeeper开源增强特性
产品功能
多租户
安全增强
组件WebUI便捷访问
可靠性增强
作业管理
自定义引导操作
元数据
集群管理
集群生命周期管理
集群扩缩容
自动弹性伸缩
创建Task节点
升级Master节点规格
隔离主机
标签管理
集群运维
消息通知
约束与限制
技术支持
权限管理
与其他云服务的关系
配额说明
常见概念
准备用户
创建MRS操作用户
创建MRS自定义策略
IAM用户同步MRS说明
配置集群
创建方式简介
快速集群
快速创建Hadoop分析集群
快速创建HBase查询集群
快速创建Kafka流式集群
快速创建ClickHouse集群
快速创建实时分析集群
创建自定义集群
创建自定义拓扑集群
添加集群标签
授权安全通信
配置弹性伸缩规则
简介
创建集群时配置弹性伸缩
为已有集群新增弹性伸缩策略
场景1:单独配置弹性伸缩规则
场景2:单独使用资源计划
场景3:弹性伸缩规则与资源计划叠加使用
修改已有弹性伸缩策略
删除已有弹性伸缩策略
开启或关闭已有弹性伸缩策略
查看已有弹性伸缩策略
配置自动化脚本
配置弹性伸缩指标
管理数据连接
配置数据连接
配置RDS数据连接操作
配置Ranger数据连接
配置Hive数据连接
通过引导操作安装第三方软件
查看失败的集群操作任务
查看历史集群信息
管理集群
登录集群
MRS集群节点简介
登录集群节点
如何确认Manager的主备管理节点
集群概览
集群列表简介
查看集群状态
查看集群基本信息
查看集群补丁信息
查看和定制集群监控指标
管理组件和主机监控
集群运维
导入导出数据
切换集群子网
配置消息通知
健康检查
使用前须知
执行健康检查
查看并导出检查报告
远程运维
运维授权
日志共享
查看MRS服务操作日志
删除集群
节点管理
扩容集群
缩容集群
管理主机(节点)操作
隔离主机
取消隔离主机
升级Master节点规格
作业管理
MRS作业简介
运行MapReduce作业
运行SparkSubmit作业
运行HiveSql作业
运行SparkSql作业
运行Flink作业
运行Kafka作业
查看作业配置信息和日志
停止作业
删除作业
使用OBS加密数据运行作业
配置作业消息通知
组件管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服角色实例
启动及停止集群
同步集群配置
导出集群的配置数据
支持滚动重启
告警管理
查看告警列表
查看事件列表
查看与手动清除告警
补丁管理
MRS 1.7.0前版本补丁操作指导
MRS 1.7.0至2.0.1版本补丁操作指导
滚动补丁
修复隔离主机补丁
租户管理
使用前须知
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
引导操作
引导操作简介
准备引导操作脚本
查看执行记录
添加引导操作
修改引导操作
删除引导操作
使用MRS客户端
安装客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
各组件客户端使用实践
使用ClickHouse客户端
使用Flink客户端
使用Flume客户端
使用HBase客户端
使用HDFS客户端
使用Hive客户端
使用Impala客户端
使用Kafka客户端
使用Kudu客户端
使用Oozie客户端
使用Storm客户端
使用Yarn客户端
配置存算分离
存算分离简介
配置存算分离集群(委托方式)
配置存算分离集群(AKSK方式)
使用存算分离集群
Flink对接OBS文件系统
Flume对接OBS文件系统
HDFS客户端对接OBS文件系统
Hive对接OBS文件系统
MapReduce对接OBS文件系统
Spark2x对接OBS文件系统
Sqoop对接外部存储系统
Hudi对接OBS文件系统
访问MRS集群上托管的开源组件Web页面
开源组件Web站点
开源组件端口列表
通过专线访问
通过弹性公网IP访问
通过Windows弹性云服务器访问
创建连接MRS集群的SSH隧道并配置浏览器
Jupyter Notebook采用自定义Python对接MRS
简介
安装集群外节点客户端
安装Python3
配置MRS客户端
安装Jupyter Notebook
验证Jupyter Notebook访问MRS
常见问题
访问集群Manager
访问FusionInsight Manager(MRS 3.x及之后版本)
访问MRS Manager(MRS 2.x及之前版本)
FusionInsight Manager操作指导(适用于3.x)
从这里开始
FusionInsight Manager入门指导
查询FusionInsight Manager版本号
登录管理系统
登录管理节点
主页
主页概述
管理监控指标数据报表
集群
管理集群
集群管理概述
滚动重启集群
管理配置过期
下载客户端
修改集群属性
管理集群配置
静态服务池
静态服务资源
配置集群静态资源
查看集群静态资源
客户端管理
管理客户端
批量升级客户端
批量刷新hosts文件
管理服务
服务管理概述
其他服务管理操作
服务详情概述
执行角色实例主备倒换
资源监控
采集堆栈信息
切换Ranger鉴权
服务配置
修改服务配置参数
修改服务自定义配置参数
管理实例
实例管理概述
入服与退服实例
管理实例配置
查看实例配置文件
实例组
管理实例组
查看实例组信息
配置实例组参数
主机
主机管理页面
查看主机列表
查看主机概览
查看主机进程及资源
主机维护操作
启动、停止主机上的所有实例
执行主机健康检查
分配机架
隔离主机
导出主机信息
资源概况
分布
趋势
集群
主机
运维
告警
告警与事件概述
配置阈值
配置告警屏蔽状态
日志
在线检索日志
下载日志
健康检查
查看健康检查任务
管理健康检查报告
修改健康检查配置
备份恢复设置
创建备份任务
创建恢复任务
其他任务管理说明
审计
审计管理页面概述
配置审计日志转储
租户资源
多租户介绍
简介
技术原理
多租户管理页面概述
相关模型
资源概述
动态资源
存储资源
多租户使用
使用说明
流程概述
使用Superior调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
管理全局用户策略
使用Capacity调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
Capacity Scheduler模式下清除租户非关联队列
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
切换调度器
系统设置
权限设置
用户管理
创建用户
修改用户信息
导出用户信息
锁定用户
解锁用户
删除用户
修改用户密码
初始化用户密码
导出认证凭据文件
用户组管理
角色管理
安全策略
配置密码策略
配置私有属性
对接设置
配置SNMP北向参数
配置Syslog北向参数
配置监控指标数据转储
导入证书
OMS管理
OMS维护页面概述
修改OMS服务配置参数
部件管理
查看部件包
集群管理
配置客户端
安装客户端
使用客户端
更新已安装客户端的配置
集群互信管理
集群互信概述
修改Manager系统域名
配置跨Manager集群互信
配置跨集群互信后的用户权限
配置定时备份告警与审计信息
修改FusionInsight Manager添加的路由表
切换维护模式
例行维护
日志管理
关于日志
Manager日志清单
配置日志级别与文件大小
配置审计日志本地备份数
查看角色实例日志
备份恢复管理
备份恢复简介
备份数据
备份Manager数据
备份CDL数据
备份ClickHouse元数据
备份ClickHouse业务数据
备份DBService数据
备份HBase元数据
备份HBase业务数据
备份NameNode数据
备份HDFS业务数据
备份Hive业务数据
备份IoTDB元数据
备份IoTDB业务数据
备份Kafka元数据
恢复数据
恢复Manager数据
恢复CDL数据
恢复ClickHouse元数据
恢复ClickHouse业务数据
恢复DBService数据
恢复HBase元数据
恢复HBase业务数据
恢复NameNode数据
恢复HDFS业务数据
恢复Hive业务数据
恢复IoTDB元数据
恢复IoTDB业务数据
恢复Kafka元数据
启用集群间拷贝功能
管理本地快速恢复任务
修改备份任务
查看备份恢复任务
创建ClickHouse备份任务路径选择RemoteHDFS时的环境配置
安全管理
安全概述
权限模型
权限机制
认证策略
鉴权策略
用户帐号一览表
默认权限信息一览
FusionInsight Manager安全功能
帐户管理
帐户安全设置
解锁LDAP用户和管理帐户
解锁系统内部用户
修改集群组件鉴权配置开关
使用普通模式集群用户在非集群节点登录
修改系统用户密码
修改admin密码
修改操作系统用户密码
修改系统内部用户密码
修改Kerberos管理员密码
修改OMS Kerberos管理员密码
修改LDAP管理员和LDAP用户密码(含OMS LDAP)
修改LDAP管理帐户密码
修改组件运行用户密码
修改默认数据库用户密码
修改OMS数据库管理员密码
修改OMS数据库访问用户密码
修改组件数据库用户密码
重置组件数据库用户密码
修改DBService数据库compdbuser用户密码
安全加固
加固策略
配置受信任IP访问LDAP
加密HFile和WAL内容
配置Hadoop安全参数
配置HBase允许修改操作的IP地址白名单
更新集群密钥
加固LDAP
配置Kafka数据传输加密
配置HDFS数据传输加密
配置Controller与Agent间通信加密
更新omm用户ssh密钥
安全维护
帐户维护建议
密码维护建议
日志维护建议
安全声明
MRS Manager操作指导(适用于2.x及之前)
MRS Manager简介
查看集群运行任务
监控管理
系统概览
管理服务和主机监控
管理资源分布
配置监控指标转储
告警管理
查看与手动清除告警
配置监控与告警阈值
配置Syslog北向参数
配置SNMP北向参数
对象管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服务角色实例
管理主机操作
隔离主机
取消隔离主机
启动及停止集群
同步集群配置
导出集群的配置数据
日志管理
关于日志
Manager日志清单
查看及导出审计日志
导出服务日志
配置审计日志转储参数
健康检查管理
执行健康检查
查看并导出检查报告
配置健康检查报告保存数
管理健康检查报告
DBService健康检查指标项说明
Flume 健康检查指标项说明
HBase健康检查指标项说明
Host健康检查指标项说明
HDFS健康检查指标项说明
Hive健康检查指标项说明
Kafka健康检查指标项说明
KrbServer健康检查指标项说明
LdapServer健康检查指标项说明
Loader健康检查指标项说明
MapReduce健康检查指标项说明
OMS健康检查指标项说明
Spark健康检查指标项说明
Storm健康检查指标项说明
Yarn健康检查指标项说明
ZooKeeper健康检查指标项说明
静态服务池管理
查看静态服务池状态
配置静态服务池
租户管理
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
备份与恢复
备份与恢复简介
备份元数据
恢复元数据
修改备份任务
查看备份恢复任务
安全管理
未开启Kerberos认证集群中的默认用户清单
开启Kerberos认证集群中的默认用户清单
修改操作系统用户密码
修改admin密码
修改Kerberos管理员密码
修改LDAP管理员和LDAP用户密码
修改组件运行用户密码
修改OMS数据库管理员密码
修改OMS数据库数据访问用户密码
修改组件数据库用户密码
更换HA证书
更新集群密钥
权限管理
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
MRS多用户权限管理
MRS集群中的用户与权限
开启Kerberos认证集群中的默认用户清单
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
配置跨集群互信
配置并使用互信集群的用户
配置MRS多用户访问OBS细粒度权限
补丁操作指导
MRS 1.7.0前版本补丁操作指导
支持滚动补丁
修复隔离主机补丁
支持滚动重启
安全性说明
集群(未启用Kerberos认证)安全配置建议
安全认证原理和认证机制
高危操作一览表
入门
如何使用MRS
创建集群
上传示例数据和程序
添加作业
快速使用Kerberos认证集群
删除集群
故障排除
Web页面访问类
无法访问MRS集群管理页面(MRS Manager界面)
升级Python后,无法登录MRS Manager页面
用户修改域名后无法登录MRS Manager页面
登录Manager,页面空白不显示
用户名过长时下载认证凭据失败
集群管理类
缩容Task节点失败
MRS集群添加新磁盘
MRS集群更换磁盘(适用于2.x及之前)
MRS集群更换磁盘(适用于3.x)
MRS备份失败
Core节点出现df显示的容量和du显示的容量不一致
如何解除关联子网
修改hostname,导致MRS状态异常
如何定位进程被kill
MRS 集群使用pip3安装python包提示网络不可达
MRS集群客户端无法下载
扩容失败
MRS通过beeline执行插入命令的时候出错
MRS集群如何进行Euleros系统漏洞升级?
使用CDM迁移数据至HDFS
MRS集群频繁产生告警
PMS进程占用内存高问题处理
Knox进程占用内存高
安全集群外节点安装客户端访问HBase很慢
作业无法提交如何定位?
HBase日志文件过大导致OS盘空间不足
Manager页面新建的租户删除失败
使用Alluixo
Alluixo在HA模式下出现Does not contain a valid host:port authority报错
使用ClickHouse
ZooKeeper上数据错乱导致ClickHouse启动失败问题
使用DBservice
DBServer实例状态异常
DBServer实例一直处于Restoring状态
默认端口20050或20051被占用
/tmp目录权限不对导致DBserver实例状态一直处于Restoring
DBService备份失败
DBService状态正常,组件无法连接DBService
DBServer启动失败
浮动IP不通导致DBService备份失败
DBService配置文件丢失导致启动失败
使用Flink
安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
创建Flink集群时执行yarn-session.sh命令失败
使用不同用户,执行yarn-session创建集群失败
Flink业务程序无法读取NFS盘上的文件
自定义Flink log4j日志输出级别
使用Flume
Flume向Spark Streaming提交作业,提交到集群后报类找不到
Flume客户端安装失败
Flume客户端无法连接服务端
Flume数据写入组件失败
Flume 服务端进程故障
Flume数据采集慢
Flume启动失败
使用HBase
连接到HBase响应慢
HBase用户认证失败
端口被占用导致RegionServer启动失败
节点剩余内存不足导致HBase启动失败
HDFS性能差导致HBase服务不可用告警
参数不合理导致HBase启动失败
残留进程导致Regionsever启动失败
HDFS上设置配额导致HBase启动失败
HBase version文件损坏导致启动失败
无业务情况下,RegionServer占用CPU高
HBase启动失败,RegionServer日志中提示FileNotFoundException异常
HBase启动后原生页面显示RegionServer个数多于实际个数
RegionServer实例异常,处于Restoring状态
新安装的集群HBase启动失败
acl表目录丢失导致HBase启动失败
集群上下电之后HBase启动失败
文件块过大导致HBase数据导入失败
使用Phoenix创建HBase表后,向索引表中加载数据报错
在MRS集群客户端无法执行hbase shell命令
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
RegionServer剩余内存不足导致HBase服务启动失败
使用HDFS
修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
通过公网IP连接主机,使用HDFS客户端报错
使用Python远程连接HDFS的端口失败
HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
启动HDFS和Yarn报错
HDFS权限设置问题
HDFS的DataNode一直显示退服中
内存不足导致HDFS启动失败
ntpdate修改时间导致HDFS出现大量丢块
DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
单NameNode长期故障,如何使用客户端手动checkpoint
文件读写常见故障
文件最大打开句柄数设置太小导致读写文件异常
客户端写文件close失败
文件错误导致上传文件到HDFS失败
界面配置dfs.blocksize后put数据,block大小还是原来的大小
读取文件失败,FileNotFoundException
HDFS写文件失败,item limit of / is exceeded
调整shell客户端日志级别
读文件失败No common protection layer
HDFS目录配额(quota)不足导致写文件失败
执行balance失败,Source and target differ in block-size
查询或者删除文件失败,父目录可以看见此文件(不可见字符)
非HDFS数据残留导致数据分布不均衡
客户端安装在数据节点导致数据分布不均衡
节点内DataNode磁盘使用率不均衡处理指导
执行balance常见问题定位方法
HDFS显示磁盘空间不足,其实还有10%磁盘空间
普通集群在Core节点安装hdfs客户端,使用时报错
集群外节点安装客户端使用hdfs上传文件失败
HDFS写并发较大时,报副本不足的问题
HDFS客户端无法删除超长目录
集群外节点访问MRS HDFS报错
使用Hive
Hive各个日志里都存放了什么信息?
Hive启动失败问题的原因有哪些?
安全集群执行set命令的时候报Cannot modify xxx at runtime.
怎样在Hive提交任务的时候指定队列?
客户端怎么设置Map/Reduce内存?
如何在导入表时指定输出的文件压缩格式
desc描述表过长时,无法显示完整
增加分区列后再insert数据显示为NULL
创建新用户,执行查询时报无权限
执行SQL提交任务到指定队列报错
执行load data inpath命令报错
执行load data local inpath命令报错
执行create external table报错
在beeline客户端执行dfs -put命令报错
执行set role admin报无权限
通过beeline创建UDF时候报错
Hive服务健康状态和Hive实例健康状态的区别
Hive中的告警有哪些以及触发的场景
Shell客户端连接提示"authentication failed"
客户端提示访问ZooKeeper失败
使用udf函数提示"Invalid function"
Hive服务状态为Unknown总结
Hiveserver或者Metastore实例的健康状态为unknown
Hiveserver或者Metastore实例的健康状态为Concerning
TEXTFILE类型文件使用ARC4压缩时select结果乱码
hive任务运行过程中失败,重试成功
执行select语句报错
drop partition操作,有大量分区时操作失败
localtask启动失败
WebHCat启动失败
切域后Hive二次开发样例代码报错
DBService超过最大连接数,导致metastore异常
beeline报Failed to execute session hooks: over max connections错误
beeline报OutOfMemoryError错误
输入文件数超出设置限制导致任务执行失败
任务执行中报栈内存溢出导致任务执行失败
对同一张表或分区并发写数据导致任务失败
Hive任务失败,报没有HDFS目录的权限
Load数据到Hive表失败
HiveServer和HiveHCat进程故障
Hive执行insert into语句报错,命令界面报错信息不明
增加Hive表字段超时
Hive服务重启失败
hive执行删除表失败
Hive执行msck repair table table_name报错
在Hive中drop表后,如何完全释放磁盘空间
客户端执行SQL报错连接超时
WebHCat健康状态异常导致启动失败
mapred-default.xml文件解析异常导致WebHCat启动失败
使用Hue
Hue上有job在运行
使用IE浏览器在Hue中执行HQL失败
Hue(主)无法打开web网页
Hue WebUI访问失败
Hue界面无法加载HBase表
使用Impala
用户连接impala-shell失败
创建Kudu表报错
Impala客户端登录失败
使用Kafka
运行Kafka获取topic报错
Flume可以正常连接Kafka,但是发送消息失败。
Producer发送数据失败,抛出NullPointerException
Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
Producer偶现发送数据失败,日志提示Too many open files in system
Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
Consumer消费数据失败,Consumer一直处于等待状态
SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
Consumer消费数据是否丢失排查
账号锁定导致启动组件失败
Kafka Broker上报进程异常,日志提示IllegalArgumentException
执行Kafka Topic删除操作,发现无法删除
执行Kafka Topic删除操作,提示AdminOperationException
执行Kafka Topic创建操作,发现无法创建提示NoAuthException
执行Kafka Topic设置ACL操作失败,提示NoAuthException
执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
Consumer消费数据存在重复消费现象
执行Kafka Topic创建操作,发现Partition的Leader显示为none
Kafka安全使用说明
如何获取Kafka Consumer Offset信息
如何针对Topic进行配置增加和删除
如何读取“__consumer_offsets”内部topic的内容
如何配置客户端shell命令的日志
如何获取Topic的分布信息
Kafka高可靠使用说明
Kafka生产者写入单条记录过长问题
Kakfa消费者读取单条记录过长问题
Kafka集群节点内多磁盘数据量占用高处理办法
使用Oozie
当并发提交大量oozie任务时,任务一直没有运行
使用Presto
配置sql-standard-with-group创建schema失败报Access Denied
Presto的coordinator无法正常启动
Presto查询Kudu表报错
Presto查询Hive表无数据
使用Spark
Spark应用下修改split值时报错
使用Spark时报错
引入jar包不正确,导致Spark任务无法运行
Spark任务由于内存不够,作业卡住
运行Spark报错
Driver端提示executor memory超限
Yarn-cluster模式下,Can't get the Kerberos realm异常
JDK版本不匹配启动spark-sql,spark-shell失败
Yarn-client模式提交ApplicationMaster尝试启动两次失败
提交Spark任务时,连接ResourceManager异常
DataArts Studio调度spark作业失败
Spark作业api提交状态为error
集群反复出现43006告警
在spark-beeline中创建/删除表失败
集群外节点提交Spark作业到Yarn报错连不上Driver
运行Spark任务发现大量shuffle结果丢失
JDBCServer长时间运行导致磁盘空间不足
spark-shell执行sql跨文件系统load数据到hive表失败
Spark任务提交失败
Spark任务运行失败
JDBCServer连接失败
查看Spark任务日志失败
Spark连接其他服务认证问题
spark连接redis报错
spark-beeline查询Hive视图报错
使用Sqoop
Sqoop如何连接mysql
Sqoop读取MySQL中数据到HBase报HBaseAdmin.<init>方法找不到异常
HUE界面的Sqoop任务HBase到HDFS报错
Sqoop从hive到mysql8.0报格式错误
Sqoop import 从pg到hive报错
Sqoop读mysql,写parquet文件到OBS失败
使用Storm
Storm组件的Storm UI页面中events超链接地址无效
提交拓扑失败
提交拓扑失败,提示Failed to check principle for keytab
提交拓扑后Worker日志为空
提交拓扑后Worker运行异常,日志提示Failed to bind to:host:ip
使用jstack命令查看进程堆栈提示well-known file is not secure
使用Storm-JDBC插件开发Oracle写入Bolt,发现数据无法写入
业务拓扑配置GC参数不生效
UI查看信息显示Internal Server Error
使用Ranger
Hive启用Ranger鉴权后,在Hue页面能查看到没有权限的表和库
使用Yarn
启动Yarn后发现一堆job
通过客户端hadoop jar命令提交任务,客户端返回GC overhead
Yarn汇聚日志过大导致磁盘被占满
MR任务异常临时文件不删除
提交任务的Yarn的ResourceManager报错connection refused,且配置的Yarn端口为8032
Yarn WebUI作业查看日志提示“Could not access logs page!”
Yarn页面单击队列名称报错
使用ZooKeeper
MRS集群如何访问ZooKeeper
访问OBS
使用MRS多用户访问OBS功能时/tmp目录没有权限
Hadoop客户端删除OBS上数据时.Trash目录没有权限
附录
MRS所使用的裸金属服务器规格
数据迁移方案介绍
准备工作
元数据导出
数据拷贝
数据恢复
MRS 3.x版本操作注意事项
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
修订记录
组件操作指南(普通版)(巴黎区域)
使用CarbonData(MRS 3.x之前版本)
从零开始使用CarbonData
CarbonData表简介
创建CarbonData表
删除CarbonData表
使用CarbonData(MRS 3.x及之后版本)
概述
CarbonData简介
CarbonData主要规格
配置参考
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库抛出Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
使用ClickHouse
从零开始使用ClickHouse
ClickHouse表引擎介绍
ClickHouse表创建
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
ClickHouse数据迁移
ClickHouse数据导入导出
将Kafka数据同步至ClickHouse
使用ClickHouse数据迁移工具
用户管理及认证
ClickHouse用户及权限管理
ClickHouse使用OpenLDAP认证
通过数据文件备份恢复ClickHouse数据
ClickHouse日志介绍
ClickHouse常见问题
在System.disks表中查询到磁盘status是fault或者abnormal
使用DBService
DBService日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置Flink服务参数
配置Flink安全特性
安全特性描述
认证和加密
配置对接Kafka
配置Pipeline
配置开发Flink可视化作业
Flink WebUI应用简介
Flink WebUI权限管理
创建FlinkServer角色
访问Flink WebUI
创建应用
创建集群连接
创建数据连接
创建流表
创建作业
Flink日志介绍
Flink性能调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
经验总结
Flink常见Shell命令
参考
签发证书样例
Flink重启策略
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
Flume常见问题
使用HBase
从零开始使用HBase
使用HBase客户端
创建HBase角色
配置HBase备份
配置HBase参数
启用集群间拷贝功能
使用ReplicationSyncUp工具
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
索引数据迁移
配置HBase容灾
配置HBase数据压缩和编码
HBase容灾业务切换
HBase容灾主备集群倒换
社区BulkLoad Tool
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
使用二级索引
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
租户访问Phoenix提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
使用HDFS
从零开始使用Hadoop
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置DataNode容量均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS Mover
使用HDFS AZ Mover
配置HDFS DiskBalancer
配置从NameNode支持读
使用HDFS文件并发操作命令
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并抛出异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅Hive管理员用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
Hive支持事务
切换Hive执行引擎为Tez
Hive物化视图
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
如何关闭Hive客户端日志
Hive快删目录配置类问题
Hive配置类问题
使用Hudi
快速入门
基本操作
Hudi表结构
写操作指导
使用前须知
批量写入
流式写入
将Hudi表数据同步到Hive
读操作指导
简介
cow表视图读取
mor表视图读取
数据管理维护
Clustering
Cleaning
Compaction
Savepoint
单表并发控制
Hudi客户端使用
使用Hudi-Cli.sh操作Hudi表
配置参考
写入操作配置
同步hive表配置
index相关配置
存储配置
compaction&cleaning配置
单表并发控制配置
Hudi性能调优
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
Hudi写入小精度Decimal数据失败
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue(MRS 3.x之前版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
使用Hue(MRS 3.x及之后版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
典型场景
HDFS on Hue
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
使用IE浏览器在Hue中执行HQL失败
使用Hive输入use database语句失效
使用Hue WebUI访问HDFS文件失败
在Hue页面上传大文件失败
集群未安装Hive服务时Hue原生页面无法正常显示
使用Impala
从零开始使用Impala
Impala常用参数
访问Impala的WebUI
使用Impala操作Kudu
Impala对接外部LDAP
Impala启用并配置动态资源池
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
基于binlog的MySQL数据同步到MRS集群中
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka扩容节点后数据均衡
Kafka Token认证机制工具使用说明
Kafka日志介绍
性能调优
Kafka性能调优
Kafka 特性说明
Kafka节点内数据迁移
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用KafkaManager
KafkaManager介绍
访问KafkaManager的WebUI
管理Kafka集群
Kafka集群监控管理
使用Loader
从零开始使用Loader
Loader使用简介
Loader常用参数
创建Loader角色
Loader连接配置说明
管理Loader连接(MRS 3.x之前版本)
管理Loader连接(MRS 3.x及之后版本)
Loader作业源连接配置说明
Loader作业目的连接配置说明
管理Loader作业
准备MySQL数据库连接的驱动
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
样例:通过Loader将数据从OBS导入HDFS
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Kudu
从零开始使用Kudu
访问Kudu的WebUI
使用Mapreduce
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用OpenTSDB
使用MRS客户端操作OpenTSDB指标数据
使用curl命令操作OpenTSDB
使用Oozie
从零开始使用Oozie
使用Oozie客户端
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Streaming作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
Oozie常用排查手段
使用Presto
访问Presto的WebUI
使用客户端执行查询语句
使用Ranger(MRS 3.x)
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
查看Ranger权限信息
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加Storm的Ranger访问权限策略
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
使用Spark
使用前须知
从零开始使用Spark
从零开始使用Spark SQL
使用Spark客户端
访问Spark Web UI界面
Spark对接OpenTSDB
创建表关联OpenTSDB
插入数据至OpenTSDB表
查询OpenTSDB表
默认配置修改
使用Spark2x
使用前须知
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
使用Storm
从零开始使用Storm
使用Storm客户端
使用客户端提交Storm拓扑
访问Storm的WebUI
管理Storm拓扑
查看Storm拓扑日志
Storm常用参数
配置Storm业务用户密码策略
迁移Storm业务至Flink
概述
完整迁移Storm业务
嵌入式迁移Storm业务
迁移Storm对接的外部安全组件业务
Storm日志介绍
性能调优
Storm性能调优
使用Tez
使用前须知
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问集群Manager
访问MRS Manager(MRS 3.x之前版本)
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
组件操作指南(LTS版)(巴黎区域)
使用CarbonData
概述
CarbonData简介
CarbonData主要规格
配置参考
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
REFRESH INDEX
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库抛出Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
使用ClickHouse
从零开始使用ClickHouse
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
导入导出文件数据
用户管理及认证
ClickHouse用户及权限管理
配置ClickHouse默认用户密码
ClickHouse表引擎介绍
ClickHouse表创建
使用ClickHouse数据迁移工具
ClickHouse慢查询语句和复制表数据同步指标监控
慢查询语句监控
复制表数据同步监控
ClickHouse自适应物化视图使用指导
ClickHouse日志介绍
使用DBService
配置HA模块的SSL
还原HA模块的SSL
配置DBService备份任务超时时间
DBService日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置管理Flink
配置参数路径
JobManager & TaskManager
Blob
Distributed Coordination (via Akka)
SSL
Network communication (via Netty)
JobManager Web Frontend
File Systems
State Backend
Kerberos-based Security
HA
Environment
Yarn
Pipeline
安全配置
安全特性描述
配置对接Kafka
配置Pipeline
安全加固
认证和加密
ACL控制
web安全
安全声明
使用Flink WebUI
概述
Flink WebUI应用简介
Flink WebUI应用流程
FlinkServer权限管理
概述
基于用户和角色的鉴权
访问Flink WebUI
在Flink WebUI创建应用
在Flink WebUI创建集群连接
在Flink WebUI创建数据连接
使用Flink WebUI的流表管理
使用Flink WebUI的作业管理
使用Flink WebUI管理UDF
使用Flink WebUI管理UDF
UDF java代码及SQL样例
UDAF java代码及SQL样例
UDTF java代码及SQL样例
FlinkServer对接外部组件
FlinkServer对接ClickHouse
FlinkServer对接HBase
FlinkServer对接HDFS
FlinkServer对接Hive
FlinkServer对接Hudi
FlinkServer对接Kafka
Flink任务运行残留信息清理
Flink日志介绍
Flink性能调优
DataStream调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
经验总结
Flink常见Shell命令
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume对接安全Hive指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
Flume常见问题
使用HBase
从零开始使用HBase
创建HBase角色
使用HBase客户端
配置HBase备份
启用集群间拷贝功能
支持全文索引
使用ReplicationSyncUp工具
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
配置HBase容灾
HBase容灾业务切换
配置HBase数据压缩和编码
HBase容灾主备集群倒换
社区BulkLoad Tool
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
使用二级索引
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
租户访问Phoenix提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
使用HDFS
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置DataNode容量均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS DiskBalancer
使用HDFS文件并发操作命令
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
多个NameService环境下,运行MapReduce任务失败
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并抛出异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用HetuEngine
从零开始使用HetuEngine
HetuEngine权限管理
HetuEngine权限管理概述
创建HetuEngine用户
HetuEngine基于Ranger权限管控
HetuEngine基于MetaStore权限管控
MetaStore权限管控概述
创建HetuEngine角色
配置表、列和数据库的权限
权限原则及约束
创建HetuEngine计算实例
配置数据源
配置数据源前必读
配置Hive数据源
配置共部署Hive数据源
配置传统数据格式数据源
配置Hudi格式数据源
配置HBase数据源
配置GAUSSDB数据源
配置HetuEngine数据源
配置ClickHouse数据源
管理数据源
管理外接数据源
管理计算实例
配置资源组
调整worker节点数量
管理HetuEngine计算实例
导入导出计算实例配置
查看实例监控页面
查看Coordinator和Worker日志
通过资源标签限制Coordinator运行的节点范围
使用HetuEngine客户端
使用HetuEngine跨源功能
HetuEngine跨源功能简介
HetuEngine跨源功能使用指导
使用HetuEngine跨域功能
HetuEngine跨域功能简介
HetuEngine跨域功能使用指导
HetuEngine跨域限流功能使用指导
使用第三方可视化工具访问HetuEngine
使用说明
使用DBeaver访问HetuEngine
使用Tableau访问HetuEngine
使用FineBI访问HetuEngine
使用PowerBI访问HetuEngine
使用永洪BI访问HetuEngine
Function&UDF的开发和应用
开发和应用HetuEngine Function Plugin
开发和应用Hive UDF
开发和应用HetuEngine UDF
HetuEngine日志介绍
HetuEngine性能调优
调整Yarn服务配置
调整集群节点资源配置
调整执行计划缓存
调整元数据缓存
调整CTE(公用表表达式)配置
HetuEngine常见问题
如何进行域名修改后的相关操作
如何处理通过客户端启动集群超时
如何处理数据源丢失问题
如何处理HetuEngine告警
如何处理HetuEngine的coordinator和worker无法启动到新扩容的节点上
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅admin用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
Hive支持事务
切换Hive执行引擎为Tez
Hive对接外置RDS
HiveMetaStore支持基于Redis的CacheStore
Hive物化视图
Hive支持读取Hudi表
Hive支持分区元数据冷热存储
Hive支持ZSTD压缩格式
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive配置类问题
使用Hudi
快速入门
基本操作
Hudi表结构
写操作指导
批量写入
流式写入
原地转表
将Hudi表数据同步到Hive
读操作指导
cow表视图读取
mor表视图读取
数据管理维护
Metadata Table
Clustering
Cleaning
Compaction
Savepoint
单表并发写
Hudi客户端使用
使用Hudi-Cli.sh操作Hudi表
配置参考
写入操作配置
同步hive表配置
index相关配置
存储配置
compaction&cleaning配置
MetaData Table配置
单表并发写配置
Hudi性能调优
性能调优方式
推荐资源配置
Hudi SQL语法参考
使用约束
DDL
CREATE TABLE
CREATE TABLE AS SELECT
DROP TABLE
SHOW TABLE
ALTER RENAME TABLE
ALTER ADD COLUMNS
TRUNCATE TABLE
DML
INSERT INTO
MERGE INTO
UPDATE
DELETE
COMPACTION
SET/RESET
Hudi常见问题
数据写入
写入更新数据时报错 Parquet/Avro schema
写入更新数据时报错UnsupportedOperationException
写入更新数据时报错SchemaCompatabilityException
Hudi在upsert时占用了临时文件夹中大量空间
数据采集
使用kafka采集数据时报错IllegalArgumentException
采集数据时报错HoodieException
采集数据时报错HoodieKeyException
Hive同步
Hive同步数据报错SQLException
Hive同步数据报错HoodieHiveSyncException
Hive同步数据报错SemanticException
使用Hue
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
典型场景
HDFS on Hue
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
如何解决使用IE浏览器在Hue中执行HQL失败的问题
在使用Hive时,输入use database语句失效了
如何处理使用Hue WebUI访问HDFS文件失败的问题
Hue页面上传大文件失败如何处理
集群未安装Hive服务时Hue原生页面无法正常显示
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka Token认证机制工具使用说明
Kafka 特性说明
使用KafkaUI
访问KafkaUI
KafkaUI概览
在KafkaUI创建Topic
在KafkaUI进行分区迁移
使用KafkaUI管理Topic
使用KafkaUI查看Broker
使用KafkaUI查看Consumer Group
Kafka日志介绍
性能调优
Kafka性能调优
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用Loader
Loader常用参数
创建Loader角色
管理Loader连接
数据导入
概述
使用Loader导入数据
典型场景:从SFTP服务器导入数据到HDFS/OBS
典型场景:从SFTP服务器导入数据到HBase
典型场景:从SFTP服务器导入数据到Hive
典型场景:从SFTP服务器导入数据到Spark
典型场景:从FTP服务器导入数据到HBase
典型场景:从关系型数据库导入数据到HDFS/OBS
典型场景:从关系型数据库导入数据到HBase
典型场景:从关系型数据库导入数据到Hive
典型场景:从关系型数据库导入数据到Spark
典型场景:从HDFS/OBS导入数据到HBase
典型场景:从关系型数据库导入数据到ClickHouse
典型场景:从HDFS导入数据到ClickHouse
数据导出
概述
使用Loader导出数据
典型场景:从HDFS/OBS导出数据到SFTP服务器
典型场景:从HBase导出数据到SFTP服务器
典型场景:从Hive导出数据到SFTP服务器
典型场景:从Spark导出数据到SFTP服务器
典型场景:从HDFS/OBS导出数据到关系型数据库
典型场景:从HBase导出数据到关系型数据库
典型场景:从Hive导出数据到关系型数据库
典型场景:从Spark导出数据到关系型数据库
典型场景:从HBase导出数据到HDFS/OBS
作业管理
批量迁移Loader作业
批量删除Loader作业
批量导入Loader作业
批量导出Loader作业
查看作业历史信息
算子帮助
概述
输入算子
CSV文件输入
固定宽度文件输入
表输入
HBase输入
HTML输入
Hive输入
Spark输入
转换算子
长整型时间转换
空值转换
增加常量字段
随机值转换
拼接转换
分隔转换
取模转换
剪切字符串
EL操作转换
字符串大小写转换
字符串逆序转换
字符串空格清除转换
过滤行转换
更新域
输出算子
Hive输出
Spark输出
表输出
文件输出
HBase输出
ClickHouse输出
关联、编辑、导入、导出算子的字段配置信息
配置项中使用宏定义
算子数据处理规则
客户端工具说明
使用命令行运行Loader作业
loader-tool工具使用指导
loader-tool工具使用示例
schedule-tool工具使用指导
schedule-tool工具使用示例
使用loader-backup工具备份作业数据
开源sqoop-shell工具使用指导
开源sqoop-shell工具使用示例(SFTP - HDFS)
开源sqoop-shell工具使用示例(Oracle - HBase)
Loader日志介绍
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Mapreduce
Mapreduce如何从单实例转换为HA
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用Oozie
从零开始使用Oozie
使用Oozie客户端
开启Oozie HA机制
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Email作业
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
如何解决使用Oozie客户端提交Mapreduce任务失败的问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
使用Ranger
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
普通集群修改Ranger数据源为Ldap
查看Ranger权限信息
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加HetuEngine的Ranger访问权限策略
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
使用Spark2x
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置是否显示包含敏感词的Spark SQL语句
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark on OBS调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
用add jar方式创建function,执行drop function时出现问题
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark Streaming
Streaming任务打印两次相同DAG日志
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
Spark shuffle异常处理
使用Tez
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
队列替换策略
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
更改ZooKeeper的存储目录
配置ZooKeeper连接数
配置ZooKeeper响应超时时间
配置客户端绑定IP
配置客户端绑定的端口范围
在同个JVM对不同ZooKeeper客户端进行特殊配置
设置Znode的quota信息
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问FusionInsight Manager
使用MRS客户端
集群内节点使用MRS客户端
集群外节点使用MRS客户端
API参考(巴黎区域)
使用前必读
概述
调用说明
终端节点
约束与限制
基本概念
API版本选择建议
API概览
如何调用API
构造请求
认证鉴权
返回结果
应用示例
创建MRS集群
扩容集群
缩容集群
新增作业
终止作业
删除集群
API V2
集群管理接口
创建集群
作业对象接口
新增并执行作业
查询单个作业信息
查询作业列表信息
终止作业
批量删除作业
获取SQL结果
SQL接口
提交SQL语句
查询SQL结果
取消SQL执行任务
集群HDFS文件接口
获取指定目录文件列表
委托管理
查询用户(组)与IAM委托的映射关系
更新用户(组)与IAM委托的映射
API V1.1
数据源接口
创建数据源
更新数据源
查询数据源列表
查询数据源详情
删除数据源
集群管理接口
创建集群并执行作业
调整集群节点
查询集群列表
删除集群
查询集群详情
查询主机列表
作业二进制对象接口
创建作业二进制对象
更新作业二进制对象
查询作业二进制列表
查询作业二进制详情
删除作业二进制对象
作业对象接口
创建作业对象
更新作业对象
执行作业对象
查询作业对象列表
查询作业对象详情
删除作业对象
作业执行对象接口
查询作业执行对象列表
查询作业执行对象详情
取消作业执行
弹性伸缩接口
配置弹性伸缩规则
标签管理接口
给指定集群添加标签
删除指定集群的标签
查询指定集群的标签
批量添加/删除集群标签
查询所有标签
查询特定标签的集群列表
历史API
作业接口管理(废弃)
新增作业并执行(废弃)
查询作业exe对象列表(废弃)
查询作业exe对象详情(废弃)
删除作业执行对象(废弃)
权限策略和授权项
策略及授权项说明
附录
MRS所使用的弹性云服务器规格
状态码
获取项目ID
获取账号ID
获取MRS集群信息
MRS支持的角色与组件对应表
修订记录
用户指南(吉隆坡区域)
简介
什么是MRS
MRS与自建Hadoop对比优势
应用场景
组件介绍
Alluxio
CarbonData
ClickHouse
DBService
DBService基本原理
DBService与其他组件的关系
Flink
Flink基本原理
Flink HA方案介绍
Flink与其他组件的关系
Flink开源增强特性
窗口
Job Pipeline
配置表
Stream SQL Join
Flink CEP in SQL
Flume
Flume基本原理
Flume与其他组件的关系
Flume开源增强特性
HBase
HBase基本原理
HBase HA方案介绍
HBase与其他组件的关系
HBase开源增强特性
HDFS
HDFS基本原理
HDFS HA方案介绍
HDFS与其他组件的关系
HDFS开源增强特性
Hive
Hive基本原理
Hive CBO原理介绍
Hive与其他组件的关系
Hive开源增强特性
Hue
Hue基本原理
Hue与其他组件的关系
Hue开源增强特性
Impala
Kafka
Kafka基本原理
Kafka与其他组件的关系
Kafka开源增强特性
KafkaManager
KrbServer及LdapServer
KrbServer及LdapServer基本原理
KrbServer及LdapServer开源增强特性
Kudu
Loader
Loader基本原理
Loader与其他组件的关系
Loader开源增强特性
Manager
Manager基本原理
Manager关键特性
MapReduce
MapReduce基本原理
MapReduce与其他组件的关系
MapReduce开源增强特性
Oozie
Oozie基本原理
Oozie开源增强特性
OpenTSDB
Presto
Ranger
Ranger基本原理
Ranger与其他组件的关系
Spark
Spark基本原理
Spark HA方案介绍
Spark与HDFS和YARN的关系
Spark开源增强特性:跨源复杂数据的SQL查询优化
Spark2x
Spark2x基本原理
Spark2x HA方案介绍
Spark2x多主实例
Spark2x多租户
Spark2x与组件的关系
Spark2x开源新特性
Spark2x开源增强特性
CarbonData简介
跨源复杂数据的SQL查询优化
数据倾斜优化
Storm
Storm基本原理
Storm与其他组件的关系
Storm开源增强特性
Tez
YARN
YARN基本原理
YARN HA方案介绍
Yarn与其他组件的关系
YARN开源增强特性
ZooKeeper
ZooKeeper基本原理
ZooKeeper与其他组件的关系
ZooKeeper开源增强特性
产品功能
多租户
安全增强
组件WebUI便捷访问
可靠性增强
作业管理
自定义引导操作
企业项目管理
元数据
集群管理
集群生命周期管理
集群扩缩容
自动弹性伸缩
创建Task节点
升级Master节点规格
隔离主机
标签管理
集群运维
消息通知
约束与限制
技术支持
权限管理
与其他云服务的关系
常见概念
入门
如何使用MRS
创建集群
上传示例数据和程序
添加作业
快速使用Kerberos认证集群
删除集群
准备用户
创建MRS操作用户
创建MRS自定义策略
IAM用户同步MRS说明
配置集群
创建方式简介
快速创建集群
快速创建Hadoop分析集群
快速创建HBase查询集群
快速创建Kafka流式集群
快速创建ClickHouse集群
快速创建实时分析集群
创建自定义集群
创建自定义拓扑集群
添加集群标签
授权安全通信
配置弹性伸缩规则
管理数据连接
配置数据连接
配置Ranger数据连接
配置Hive数据连接
通过引导操作安装第三方软件
引导操作简介
准备引导操作脚本
查看执行记录
添加引导操作
查看失败的集群操作任务
查看历史集群信息
管理集群
登录集群
MRS集群节点简介快速创建Hadoop分析集群
登录集群节点
如何确认Manager的主备管理节点
集群概览
集群列表简介
查看集群状态
查看集群基本信息
查看集群补丁信息
查看和定制集群监控指标
管理组件和主机监控
集群运维
导入导出数据
切换集群子网
配置消息通知
健康检查
使用前须知
执行健康检查
查看并导出检查报告
远程运维
运维授权
日志共享
查看MRS服务操作日志
删除集群
节点管理
扩容集群
缩容集群
管理主机(节点)操作
隔离主机
取消隔离主机
升级Master节点规格
作业管理
MRS作业简介
运行MapReduce作业
运行SparkSubmit作业
运行HiveSql作业
运行SparkSql作业
运行Flink作业
运行Kafka作业
查看作业配置信息和日志
停止作业
删除作业
使用OBS加密数据运行作业
配置作业消息通知
组件管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服角色实例
启动及停止集群
同步集群配置
导出集群的配置数据
支持滚动重启
告警管理
查看告警列表
查看事件列表
查看与手动清除告警
补丁管理
MRS 3.x之前版本补丁操作指导
滚动补丁
修复隔离主机补丁
租户管理
使用前须知
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
使用MRS客户端
安装客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
各组件客户端使用实践
使用ClickHouse客户端
使用Flink客户端
使用Flume客户端
使用HBase客户端
使用HDFS客户端
使用Hive客户端
使用Impala客户端
使用Kafka客户端
使用Kudu客户端
使用Oozie客户端
使用Storm客户端
使用Yarn客户端
配置存算分离
存算分离简介
配置存算分离集群(委托方式)
配置存算分离集群(AKSK方式)
使用存算分离集群
Flink对接OBS文件系统
Flume对接OBS文件系统
HDFS客户端对接OBS文件系统
Hive对接OBS文件系统
MapReduce对接OBS文件系统
Spark2x对接OBS文件系统
Sqoop对接外部存储系统
访问MRS集群上托管的开源组件Web页面
开源组件Web站点
开源组件端口列表
通过专线访问
通过弹性公网IP访问
通过Windows弹性云服务器访问
创建连接MRS集群的SSH隧道并配置浏览器
访问集群Manager
访问FusionInsight Manager(MRS 3.x及之后版本)
访问MRS Manager(MRS 2.x及之前版本)
FusionInsight Manager操作指导(适用于3.x)
从这里开始
FusionInsight Manager入门指导
查询FusionInsight Manager版本号
登录管理系统
登录管理节点
主页
主页概述
管理监控指标数据报表
集群
管理集群
集群管理概述
滚动重启集群
管理配置过期
下载客户端
修改集群属性
管理集群配置
静态服务池
静态服务资源
配置集群静态资源
查看集群静态资源
客户端管理
管理客户端
批量升级客户端
批量刷新hosts文件
管理服务
服务管理概述
其他服务管理操作
服务详情概述
执行角色实例主备倒换
资源监控
采集堆栈信息
切换Ranger鉴权
服务配置
修改服务配置参数
修改服务自定义配置参数
管理实例
实例管理概述
入服与退服实例
管理实例配置
查看实例配置文件
实例组
管理实例组
查看实例组信息
配置实例组参数
主机
主机管理页面
查看主机列表
查看主机概览
查看主机进程及资源
主机维护操作
启动、停止主机上的所有实例
执行主机健康检查
分配机架
隔离主机
导出主机信息
资源概况
分布
趋势
集群
主机
运维
告警
告警与事件概述
配置阈值
配置告警屏蔽状态
日志
在线检索日志
下载日志
健康检查
查看健康检查任务
管理健康检查报告
修改健康检查配置
备份恢复设置
创建备份任务
创建恢复任务
其他任务管理说明
审计
审计管理页面概述
配置审计日志转储
租户资源
多租户介绍
简介
技术原理
多租户管理页面概述
相关模型
资源概述
动态资源
存储资源
多租户使用
使用说明
流程概述
使用Superior调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
管理全局用户策略
使用Capacity调度器的租户业务
创建租户
添加租户
添加子租户
添加用户并绑定租户的角色
管理租户
管理租户目录
恢复租户数据
删除租户
Capacity Scheduler模式下清除租户非关联队列
管理资源
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列容量配置
切换调度器
系统设置
权限设置
用户管理
创建用户
修改用户信息
导出用户信息
锁定用户
解锁用户
删除用户
修改用户密码
初始化用户密码
导出认证凭据文件
用户组管理
角色管理
安全策略
配置密码策略
配置私有属性
对接设置
配置SNMP北向参数
配置Syslog北向参数
配置监控指标数据转储
导入证书
OMS管理
OMS维护页面概述
修改OMS服务配置参数
部件管理
查看部件包
集群管理
配置客户端
安装客户端
使用客户端
更新已安装客户端的配置
集群互信管理
集群互信概述
修改Manager系统域名
配置跨Manager集群互信
配置跨集群互信后的用户权限
配置定时备份告警与审计信息
修改FusionInsight Manager添加的路由表
切换维护模式
例行维护
日志管理
关于日志
Manager日志清单
配置日志级别与文件大小
配置审计日志本地备份数
查看角色实例日志
备份恢复管理
备份恢复简介
备份数据
备份OMS数据
备份DBService数据
备份HBase元数据
备份HBase业务数据
备份NameNode数据
备份HDFS业务数据
备份Hive业务数据
备份Kafka元数据
恢复数据
恢复OMS数据
恢复DBService数据
恢复HBase元数据
恢复HBase业务数据
恢复NameNode数据
恢复HDFS业务数据
恢复Hive业务数据
恢复Kafka元数据
启用集群间拷贝功能
管理本地快速恢复任务
修改备份任务
查看备份恢复任务
安全管理
安全概述
权限模型
权限机制
认证策略
鉴权策略
用户帐号一览表
默认权限信息一览
FusionInsight Manager安全功能
帐户管理
帐户安全设置
解锁LDAP用户和管理帐户
解锁系统内部用户
修改集群组件鉴权配置开关
使用普通模式集群用户在非集群节点登录
修改系统用户密码
修改admin密码
修改操作系统用户密码
修改系统内部用户密码
修改Kerberos管理员密码
修改OMS Kerberos管理员密码
修改LDAP管理员和LDAP用户密码(含OMS LDAP)
修改LDAP管理帐户密码
修改组件运行用户密码
修改默认数据库用户密码
修改OMS数据库管理员密码
修改OMS数据库访问用户密码
修改组件数据库用户密码
修改DBService数据库omm用户密码
安全加固
加固策略
配置受信任IP访问LDAP
加密HFile和WAL内容
安全配置
配置HBase允许修改操作的IP地址白名单
更新集群密钥
加固LDAP
配置Kafka数据传输加密
配置HDFS数据传输加密
配置Controller与Agent间通信加密
更新omm用户ssh密钥
安全维护
帐户维护建议
密码维护建议
日志维护建议
安全声明
告警参考(适用于MRS 3.x版本)
ALM-12001 审计日志转储失败
ALM-12004 OLdap资源异常
ALM-12005 OKerberos资源异常
ALM-12006 节点故障
ALM-12007 进程故障
ALM-12010 Manager主备节点间心跳中断
ALM-12011 Manager主备节点同步数据异常
ALM-12014 设备分区丢失
ALM-12015 设备分区文件系统只读
ALM-12016 CPU使用率超过阈值
ALM-12017 磁盘容量不足
ALM-12018 内存使用率超过阈值
ALM-12027 主机PID使用率超过阈值
ALM-12028 主机D状态进程数超过阈值
ALM-12033 慢盘故障
ALM-12034 周期备份任务失败
ALM-12035 恢复任务失败后数据状态未知
ALM-12038 监控指标转储失败
ALM-12039 OMS数据库主备不同步
ALM-12040 系统熵值不足
ALM-12041 关键文件权限异常
ALM-12042 关键文件配置异常
ALM-12045 网络读包丢包率超过阈值
ALM-12046 网络写包丢包率超过阈值
ALM-12047 网络读包错误率超过阈值
ALM-12048 网络写包错误率超过阈值
ALM-12049 网络读吞吐率超过阈值
ALM-12050 网络写吞吐率超过阈值
ALM-12051 磁盘Inode使用率超过阈值
ALM-12052 TCP临时端口使用率超过阈值
ALM-12053 主机文件句柄使用率超过阈值
ALM-12054 证书文件失效
ALM-12055 证书文件即将过期
ALM-12057 元数据未配置周期备份到第三方服务器的任务
ALM-12061 进程使用率超过阈值
ALM-12062 OMS参数配置同集群规模不匹配
ALM-12063 磁盘不可用
ALM-12064 主机随机端口范围配置与集群使用端口冲突
ALM-12066 节点间互信失效
ALM-12067 tomcat资源异常
ALM-12068 acs资源异常
ALM-12069 aos资源异常
ALM-12070 controller资源异常
ALM-12071 httpd资源异常
ALM-12072 floatip资源异常
ALM-12073 cep资源异常
ALM-12074 fms资源异常
ALM-12075 pms资源异常
ALM-12076 gaussDB资源异常
ALM-12077 omm用户过期
ALM-12078 omm密码过期
ALM-12079 omm用户即将过期
ALM-12080 omm密码即将过期
ALM-12081 ommdba用户过期
ALM-12082 ommdba用户即将过期
ALM-12083 ommdba密码即将过期
ALM-12084 ommdba密码过期
ALM-12085 服务审计日志转储失败
ALM-12087 系统处于升级观察期
ALM-12089 节点间网络互通异常
ALM-12101 AZ不健康
ALM-12102 AZ高可用组件未按容灾需求部署
ALM-12110 获取ECS临时ak/sk失败
ALM-13000 ZooKeeper服务不可用
ALM-13001 ZooKeeper可用连接数不足
ALM-13002 ZooKeeper直接内存使用率超过阈值
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
ALM-13004 ZooKeeper堆内存使用率超过阈值
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
ALM-13006 Znode数量或容量超过阈值
ALM-13007 ZooKeeper客户端可用连接数不足
ALM-13008 ZooKeeper Znode数量使用率超出阈值
ALM-13009 ZooKeeper Znode容量使用率超出阈值
ALM-13010 配置quota的目录Znode使用率超出阈值
ALM-14000 HDFS服务不可用
ALM-14001 HDFS磁盘空间使用率超过阈值
ALM-14002 DataNode磁盘空间使用率超过阈值
ALM-14003 丢失的HDFS块数量超过阈值
ALM-14006 HDFS文件数超过阈值
ALM-14007 NameNode堆内存使用率超过阈值
ALM-14008 DataNode堆内存使用率超过阈值
ALM-14009 Dead DataNode数量超过阈值
ALM-14010 NameService服务异常
ALM-14011 DataNode数据目录配置不合理
ALM-14012 Journalnode数据不同步
ALM-14013 NameNode FsImage文件更新失败
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
ALM-14016 DataNode直接内存使用率超过阈值
ALM-14017 NameNode直接内存使用率超过阈值
ALM-14018 NameNode非堆内存使用率超过阈值
ALM-14019 DataNode非堆内存使用率超过阈值
ALM-14020 HDFS目录条目数量超过阈值
ALM-14021 NameNode RPC处理平均时间超过阈值
ALM-14022 NameNode RPC队列平均时间超过阈值
ALM-14023 总副本预留磁盘空间所占比率超过阈值
ALM-14024 租户空间使用率超过阈值
ALM-14025 租户文件对象使用率超过阈值
ALM-14026 DataNode块数超过阈值
ALM-14027 DataNode磁盘故障
ALM-14028 待补齐的块数超过阈值
ALM-14029 单副本的块数超过阈值
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
ALM-16001 Hive数据仓库空间使用率超过阈值
ALM-16002 Hive SQL执行成功率低于阈值
ALM-16003 Background线程使用率超过阈值
ALM-16004 Hive服务不可用
ALM-16005 Hive服务进程堆内存使用超出阈值
ALM-16006 Hive服务进程直接内存使用超出阈值
ALM-16007 Hive GC 时间超出阈值
ALM-16008 Hive服务进程非堆内存使用超出阈值
ALM-16009 Map数超过阈值
ALM-16045 Hive数据仓库被删除
ALM-16046 Hive数据仓库权限被修改
ALM-16047 HiveServer已从Zookeeper注销
ALM-16048 Tez或者Spark库路径不存在
ALM-17003 Oozie服务不可用
ALM-17004 Oozie堆内存使用率超过阈值
ALM-17005 Oozie非堆内存使用率超过阈值
ALM-17006 Oozie直接内存使用率超过阈值
ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
ALM-18000 Yarn服务不可用
ALM-18002 NodeManager心跳丢失
ALM-18003 NodeManager不健康
ALM-18008 ResourceManager堆内存使用率超过阈值
ALM-18009 JobHistoryServer堆内存使用率超过阈值
ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
ALM-18013 ResourceManager直接内存使用率超过阈值
ALM-18014 NodeManager直接内存使用率超过阈值
ALM-18015 JobHistoryServer直接内存使用率超过阈值
ALM-18016 ResourceManager非堆内存使用率超过阈值
ALM-18017 NodeManager非堆内存使用率超过阈值
ALM-18018 NodeManager堆内存使用率超过阈值
ALM-18019 JobHistoryServer非堆内存使用率超过阈值
ALM-18020 Yarn任务执行超时
ALM-18021 Mapreduce服务不可用
ALM-18022 Yarn队列资源不足
ALM-18023 Yarn任务挂起数超过阈值
ALM-18024 Yarn任务挂起内存量超阈值
ALM-18025 Yarn被终止的任务数超过阈值
ALM-18026 Yarn上运行失败的任务数超过阈值
ALM-19000 HBase服务不可用
ALM-19006 HBase容灾同步失败
ALM-19007 HBase GC时间超出阈值
ALM-19008 HBase服务进程堆内存使用率超出阈值
ALM-19009 HBase服务进程直接内存使用率超出阈值
ALM-19011 RegionServer的Region数量超出阈值
ALM-19012 HBase系统表目录或文件丢失
ALM-19013 region处在RIT状态的时长超过阈值
ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
ALM-19018 HBase合并队列超出阈值
ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
ALM-20002 Hue服务不可用
ALM-24000 Flume服务不可用
ALM-24001 Flume Agent异常
ALM-24003 Flume Client连接中断
ALM-24004 Flume读取数据异常
ALM-24005 Flume传输数据异常
ALM-24006 Flume Server堆内存使用率超过阈值
ALM-24007 Flume Server直接内存使用率超过阈值
ALM-24008 Flume Server非堆内存使用率超过阈值
ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
ALM-24010 Flume证书文件非法或已损坏
ALM-24011 Flume证书文件即将过期
ALM-24012 Flume证书文件已过期
ALM-24013 Flume MonitorServer证书文件非法或已损坏
ALM-24014 Flume MonitorServer证书文件即将过期
ALM-24015 Flume MonitorServer证书文件已过期
ALM-25000 LdapServer服务不可用
ALM-25004 LdapServer数据同步异常
ALM-25005 Nscd服务异常
ALM-25006 Sssd服务异常
ALM-25500 KrbServer服务不可用
ALM-26051 Storm服务不可用
ALM-26052 Storm服务可用Supervisor数量小于阈值
ALM-26053 Storm Slot使用率超过阈值
ALM-26054 Nimbus堆内存使用率超过阈值
ALM-27001 DBService服务不可用
ALM-27003 DBService主备节点间心跳中断
ALM-27004 DBService主备数据不同步
ALM-27005 数据库连接数使用率超过阈值
ALM-27006 数据目录磁盘空间使用率超过阈值
ALM-27007 数据库进入只读模式
ALM-29000 Impala服务不可用
ALM-29004 Impalad进程内存占用率超过阈值
ALM-29005 Impalad JDBC连接数超过阈值
ALM-29006 Impalad ODBC连接数超过阈值
ALM-29100 Kudu服务不可用
ALM-29104 Tserver进程内存占用率超过阈值
ALM-29106 Tserver进程CPU占用率过高
ALM-29107 Tserver进程内存使用百分比超过阈值
ALM-38000 Kafka服务不可用
ALM-38001 Kafka磁盘容量不足
ALM-38002 Kafka堆内存使用率超过阈值
ALM-38004 Kafka直接内存使用率超过阈值
ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
ALM-38006 Kafka未完全同步的Partition百分比超过阈值
ALM-38007 Kafka默认用户状态异常
ALM-38008 Kafka数据目录状态异常
ALM-38009 Broker磁盘IO繁忙
ALM-38010 存在单副本的Topic
ALM-43001 Spark2x服务不可用
ALM-43006 JobHistory2x进程堆内存使用超出阈值
ALM-43007 JobHistory2x进程非堆内存使用超出阈值
ALM-43008 JobHistory2x进程直接内存使用超出阈值
ALM-43009 JobHistory2x进程GC时间超出阈值
ALM-43010 JDBCServer2x进程堆内存使用超出阈值
ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
ALM-43012 JDBCServer2x进程直接内存使用超出阈值
ALM-43013 JDBCServer2x进程GC时间超出阈值
ALM-43017 JDBCServer2x进程Full GC次数超出阈值
ALM-43018 JobHistory2x进程Full GC次数超出阈值
ALM-43019 IndexServer2x进程堆内存使用超出阈值
ALM-43020 IndexServer2x进程非堆内存使用超出阈值
ALM-43021 IndexServer2x进程直接内存使用超出阈值
ALM-43022 IndexServer2x进程GC时间超出阈值
ALM-43023 IndexServer2x进程Full GC次数超出阈值
ALM-44004 Presto Coordinator资源组排队任务超过阈值
ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
ALM-44006 Presto Worker进程垃圾收集时间超出阈值
ALM-45175 OBS元数据接口调用平均时间超过阈值
ALM-45176 OBS元数据接口调用成功率低于阈值
ALM-45177 OBS数据读操作接口调用成功率低于阈值
ALM-45178 OBS数据写操作接口调用成功率低于阈值
ALM-45275 Ranger服务不可用
ALM-45276 RangerAdmin状态异常
ALM-45277 RangerAdmin堆内存使用率超过阈值
ALM-45278 RangerAdmin直接内存使用率超过阈值
ALM-45279 RangerAdmin非堆内存使用率超过阈值
ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
ALM-45281 UserSync堆内存使用率超过阈值
ALM-45282 UserSync直接内存使用率超过阈值
ALM-45283 UserSync非堆内存使用率超过阈值
ALM-45284 UserSync垃圾回收(GC)时间超过阈值
ALM-45285 TagSync堆内存使用率超过阈值
ALM-45286 TagSync直接内存使用率超过阈值
ALM-45287 TagSync非堆内存使用率超过阈值
ALM-45288 TagSync垃圾回收(GC)时间超过阈值
ALM-45425 ClickHouse服务不可用
ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
ALM-45736 Guardian服务不可用
MRS Manager操作指导(适用于2.x及之前)
MRS Manager简介
查看集群运行任务
监控管理
系统概览
管理服务和主机监控
管理资源分布
配置监控指标转储
告警管理
查看与手动清除告警
配置监控与告警阈值
配置Syslog北向参数
配置SNMP北向参数
对象管理
对象管理简介
查看配置
管理服务操作
配置服务参数
配置服务自定义参数
同步服务配置
管理角色实例操作
配置角色实例参数
同步角色实例配置
退服和入服务角色实例
管理主机操作
隔离主机
取消隔离主机
启动及停止集群
同步集群配置
导出集群的配置数据
日志管理
关于日志
Manager日志清单
查看及导出审计日志
导出服务日志
配置审计日志导出参数
健康检查管理
执行健康检查
查看并导出检查报告
配置健康检查报告保存数
管理健康检查报告
DBService健康检查指标项说明
Flume 健康检查指标项说明
HBase健康检查指标项说明
Host健康检查指标项说明
HDFS健康检查指标项说明
Hive健康检查指标项说明
Kafka健康检查指标项说明
KrbServer健康检查指标项说明
LdapServer健康检查指标项说明
Loader健康检查指标项说明
MapReduce健康检查指标项说明
OMS健康检查指标项说明
Spark健康检查指标项说明
Storm健康检查指标项说明
Yarn健康检查指标项说明
ZooKeeper健康检查指标项说明
静态服务池管理
查看静态服务池状态
配置静态服务池
租户管理
租户简介
添加租户
添加子租户
删除租户
管理租户目录
恢复租户数据
添加资源池
修改资源池
删除资源池
配置队列
配置资源池的队列容量策略
清除队列配置
备份与恢复
备份与恢复简介
备份元数据
恢复元数据
修改备份任务
查看备份恢复任务
安全管理
未开启Kerberos认证集群中的默认用户清单
开启Kerberos认证集群中的默认用户清单
修改操作系统用户密码
修改admin密码
修改Kerberos管理员密码
修改LDAP管理员和LDAP用户密码
修改组件运行用户密码
修改OMS数据库管理员密码
修改OMS数据库数据访问用户密码
修改组件数据库用户密码
更新集群密钥
权限管理
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
MRS多用户权限管理
MRS集群中的用户与权限
开启Kerberos认证集群中的默认用户清单
创建角色
创建用户组
创建用户
修改用户信息
锁定用户
解锁用户
删除用户
修改操作用户密码
初始化系统用户密码
下载用户认证文件
修改密码策略
配置跨集群互信
配置并使用互信集群的用户
配置MRS多用户访问OBS细粒度权限
补丁操作指导
补丁操作指导
支持滚动补丁
修复隔离主机补丁
支持滚动重启
MRS集群组件操作指导
使用Alluxio
配置底层存储系统
通过数据应用访问Alluxio
Alluxio常用操作
使用CarbonData(MRS 3.x之前版本)
从零开始使用CarbonData
CarbonData表简介
创建CarbonData表
删除CarbonData表
使用CarbonData(MRS 3.x及之后版本)
概述
CarbonData简介
CarbonData主要规格
配置参考
CarbonData操作指导
CarbonData快速入门
管理CarbonData Table
CarbonData Table简介
新建CarbonData Table
删除CarbonData Table
修改CarbonData Table
管理CarbonData Table数据
加载数据
删除Segments
合并Segments
迁移CarbonData数据
迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中
CarbonData性能调优
调优指导
创建CarbonData Table的建议
性能调优的相关配置
CarbonData访问控制
CarbonData语法参考
DDL
CREATE TABLE
CREATE TABLE As SELECT
DROP TABLE
SHOW TABLES
ALTER TABLE COMPACTION
TABLE RENAME
ADD COLUMNS
DROP COLUMNS
CHANGE DATA TYPE
REFRESH TABLE
REGISTER INDEX TABLE
DML
LOAD DATA
UPDATE CARBON TABLE
DELETE RECORDS from CARBON TABLE
INSERT INTO CARBON TABLE
DELETE SEGMENT by ID
DELETE SEGMENT by DATE
SHOW SEGMENTS
CREATE SECONDARY INDEX
SHOW SECONDARY INDEXES
DROP SECONDARY INDEX
CLEAN FILES
SET/RESET
操作并发
API
空间索引
CarbonData故障处理
当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致
查询性能下降
CarbonData FAQ
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
如何避免对历史数据进行minor compaction?
如何在CarbonData数据加载时修改默认的组名?
为什么INSERT INTO CARBON TABLE失败?
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
为什么Bad Records导致数据加载性能降低?
当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
为什么在off heap时数据加载失败?
为什么创建Hive表失败?
为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
如何在不同的namespaces上逻辑地分割数据
为什么drop数据库抛出Missing Privileges异常?
为什么在Spark Shell中不能执行更新命令?
如何在CarbonData中配置非安全内存?
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
使用ClickHouse
从零开始使用ClickHouse
ClickHouse表引擎介绍
ClickHouse表创建
ClickHouse常用SQL语法
CREATE DATABASE创建数据库
CREATE TABLE创建表
INSERT INTO插入表数据
SELECT查询表数据
ALTER TABLE修改表结构
DESC查询表结构
DROP删除表
SHOW显示数据库和表信息
ClickHouse数据迁移
ClickHouse数据导入导出
将Kafka数据同步至ClickHouse
使用ClickHouse数据迁移工具
用户管理及认证
ClickHouse用户及权限管理
ClickHouse使用OpenLDAP认证
通过数据文件备份恢复ClickHouse数据
ClickHouse日志介绍
使用DBService
DBService日志介绍
使用Flink
从零开始使用Flink
查看Flink作业信息
配置管理Flink
配置参数路径
JobManager & TaskManager
Blob
Distributed Coordination (via Akka)
SSL
Network communication (via Netty)
JobManager Web Frontend
File Systems
State Backend
Kerberos-based Security
HA
Environment
Yarn
Pipeline
安全配置
安全特性描述
配置对接Kafka
配置Pipeline
安全加固
认证和加密
ACL控制
web安全
安全声明
使用Flink WebUI
概述
Flink WebUI应用简介
Flink WebUI应用流程
FlinkServer权限管理
概述
基于用户和角色的鉴权
访问Flink WebUI
在Flink WebUI创建应用
在Flink WebUI创建集群连接
在Flink WebUI创建数据连接
使用Flink WebUI的流表管理
使用Flink WebUI的作业管理
Flink日志介绍
Flink性能调优
DataStream调优
配置内存
设置并行度
配置进程参数
设计分区方法
配置netty网络通信
经验总结
Flink常见Shell命令
参考
签发证书样例
使用Flume
从零开始使用Flume
使用简介
安装Flume客户端
安装MRS 3.x之前版本Flume客户端
安装MRS 3.x及之后版本Flume客户端
查看Flume客户端日志
停止或卸载Flume客户端
使用Flume客户端加密工具
Flume业务配置指南
Flume配置参数说明
在配置文件properties.properties中使用环境变量
非加密传输
配置非加密传输
典型场景:从本地采集静态日志保存到Kafka
典型场景:从本地采集静态日志保存到HDFS
典型场景:从本地采集动态日志保存到HDFS
典型场景:从Kafka采集日志保存到HDFS
典型场景:从Kafka客户端采集日志经Flume客户端保存到HDFS
典型场景:从本地采集静态日志保存到HBase
加密传输
配置加密传输
典型场景:从本地采集静态日志保存到HDFS
查看Flume客户端监控信息
Flume对接安全Kafka指导
Flume对接安全Hive指导
Flume业务模型配置指导
概述
业务模型配置指导
Flume日志介绍
Flume客户端Cgroup使用指导
Flume第三方插件二次开发指导
Flume常见问题
使用HBase
从零开始使用HBase
使用HBase客户端
创建HBase角色
配置HBase备份
配置HBase参数
启用集群间拷贝功能
使用ReplicationSyncUp工具
使用HIndex
HIndex介绍
批量加载索引数据
使用索引生成工具
索引数据迁移
配置HBase容灾
配置HBase数据压缩和编码
HBase容灾业务切换
HBase容灾主备集群倒换
社区BulkLoad Tool
配置MOB
配置安全的HBase Replication
配置Region Transition恢复线程
使用二级索引
HBase日志介绍
HBase性能调优
提升BulkLoad效率
提升连续put场景性能
Put和Scan性能综合调优
提升实时写数据效率
提升实时读数据效率
JVM参数优化
HBase常见问题
客户端连接服务端时,长时间无法连接成功
结束BulkLoad客户端程序,导致作业执行失败
在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
HBase占用网络端口,连接数过大会导致其他服务不稳定
HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
如何修复长时间处于RIT状态的Region
HMaster等待namespace表上线时超时退出
客户端查询HBase出现SocketTimeoutException异常
使用scan命令仍然可以查询到已修改和已删除的数据
在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
租户访问Phoenix提示权限不足
如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
如何修复Region Overlap
HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
Phoenix sqlline脚本使用,报import argparse错误
Phoenix BulkLoad Tool限制
CTBase对接Ranger权限插件,提示权限不足
使用HDFS
从零开始使用Hadoop
配置内存管理
创建HDFS角色
使用HDFS客户端
使用distcp命令
HDFS文件系统目录简介
更改DataNode的存储目录
配置HDFS目录权限
配置NFS
规划HDFS容量
设置HBase和HDFS的ulimit
配置DataNode容量均衡
配置DataNode节点间容量异构时的副本放置策略
配置HDFS单目录文件数量
配置回收站机制
配置文件和目录的权限
配置token的最大存活时间和时间间隔
配置磁盘坏卷
使用安全加密通道
在网络不稳定的情况下,降低客户端运行异常概率
配置NameNode blacklist
优化HDFS NameNode RPC的服务质量
优化HDFS DataNode RPC的服务质量
配置DataNode预留磁盘百分比
配置HDFS NodeLabel
配置HDFS Mover
使用HDFS AZ Mover
配置HDFS DiskBalancer
配置从NameNode支持读
使用HDFS文件并发操作命令
HDFS日志介绍
HDFS性能调优
提升写性能
使用客户端元数据缓存提高读取性能
使用当前活动缓存提升客户端与NameNode的连接性能
HDFS常见问题
NameNode启动慢
DataNode状态正常,但无法正常上报数据块
HDFS Web UI无法正常刷新损坏数据的信息
distcp命令在安全集群上失败并抛出异常
当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
在存储小文件过程中,系统断电,缓存中的数据丢失
FileInputFormat split的时候出现数组越界
当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
NameNode节点长时间满负载,HDFS客户端无响应
DataNode禁止手动删除或修改数据存储目录
成功回滚后,为什么NameNode UI上显示有一些块缺失
为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
为什么主NameNode重启后系统出现双备现象
HDFS执行Balance时被异常停止,再次执行Balance会失败
IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
EditLog不连续导致NameNode启动失败
使用Hive
从零开始使用Hive
配置Hive常用参数
Hive SQL
权限管理
Hive权限介绍
创建Hive角色
配置Hive表、列或数据库的权限
配置Hive业务使用其他组件的权限
使用Hive客户端
使用HDFS Colocation存储Hive表
使用Hive列加密功能
自定义行分隔符
配置跨集群互信下Hive on HBase
删除Hive on HBase表中的单行记录
配置基于HTTPS/HTTP协议的REST接口
配置是否禁用Transform功能
Hive支持创建单表动态视图授权访问控制
配置创建临时函数是否需要ADMIN权限
使用Hive读取关系型数据库数据
Hive支持的传统关系型数据库语法
创建Hive用户自定义函数
beeline可靠性增强特性介绍
具备表select权限可用show create table查看表结构
Hive写目录旧数据进回收站
Hive能给一个不存在的目录插入数据
限定仅admin用户能创建库和在default库建表
限定创建Hive内部表不能指定location
允许在只读权限的目录建外表
Hive支持授权超过32个角色
Hive任务支持限定最大map数
HiveServer租约隔离使用
Hive支持事务
切换Hive执行引擎为Tez
Hive物化视图
Hive日志介绍
Hive性能调优
建立表分区
Join优化
Group By优化
数据存储优化
SQL优化
使用Hive CBO优化查询
Hive常见问题
如何在多个HiveServer之间同步删除UDF
已备份的Hive表无法执行drop操作
如何在Hive自定义函数中操作本地文件
如何强制停止Hive执行的MapReduce任务
如何对Hive表大小数据进行监控
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
未安装HBase时Hive on Spark任务卡顿处理
FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
关于Hive表的location支持跨OBS和HDFS路径的说明
通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
Hive不支持对同一张表或分区进行并发写数据
Hive不支持向量化查询
Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
如何关闭Hive客户端日志
Hive快删目录配置类问题
Hive配置类问题
使用Hue(MRS 3.x之前版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
使用Hue(MRS 3.x及之后版本)
从零开始使用Hue
访问Hue的WebUI
Hue常用参数
在Hue WebUI使用HiveQL编辑器
在Hue WebUI使用SparkSql编辑器
在Hue WebUI使用元数据浏览器
在Hue WebUI使用文件浏览器
在Hue WebUI使用作业浏览器
在Hue WebUI使用HBase
典型场景
HDFS on Hue
配置HDFS冷热数据迁移
Hive on Hue
Oozie on Hue
Hue日志介绍
Hue常见问题
如何解决使用IE浏览器在Hue中执行HQL失败的问题
在使用Hive时,输入use database语句失效了
如何处理使用Hue WebUI访问HDFS文件失败的问题
Hue页面上传大文件失败如何处理
集群未安装Hive服务时Hue原生页面无法正常显示
使用Impala
从零开始使用Impala
访问Impala的WebUI
使用Impala操作Kudu
Impala对接外部LDAP
使用Kafka
从零开始使用Kafka
管理Kafka主题
查看Kafka主题
管理Kafka用户权限
管理Kafka主题中的消息
基于binlog的MySQL数据同步到MRS集群中
创建Kafka角色
Kafka常用参数
Kafka安全使用说明
Kafka业务规格说明
使用Kafka客户端
配置Kafka高可用和高可靠参数
更改Broker的存储目录
查看Consumer Group消费情况
Kafka均衡工具使用说明
Kafka扩容节点后数据均衡
Kafka Token认证机制工具使用说明
Kafka日志介绍
性能调优
Kafka性能调优
Kafka 特性说明
Kafka节点内数据迁移
Kafka常见问题
如何解决Kafka topic无法删除的问题
使用KafkaManager
KafkaManager介绍
访问KafkaManager的WebUI
管理Kafka集群
Kafka集群监控管理
使用Kudu
从零开始使用Kudu
访问Kudu的WebUI
使用Loader
从零开始使用Loader
Loader使用简介
Loader连接配置说明
管理Loader连接(MRS 3.x之前版本)
Loader作业源连接配置说明
Loader作业目的连接配置说明
管理Loader作业
准备MySQL数据库连接的驱动
Loader日志介绍
样例:通过Loader将数据从OBS导入HDFS
Loader常见问题
IE 10&IE 11浏览器无法保存数据
将Oracle数据库中的数据导入HDFS时各连接器的区别
使用Mapreduce
配置日志归档和清理机制
降低客户端应用的失败率
将MR任务从Windows上提交到Linux上运行
配置使用分布式缓存
配置MapReduce shuffle address
配置集群管理员列表
MapReduce日志介绍
MapReduce性能调优
多CPU内核下的调优配置
确定Job基线
Shuffle调优
大任务的AM调优
推测执行
通过“Slow Start”调优
MR job commit阶段优化
MapReduce常见问题
ResourceManager进行主备切换后,任务中断后运行时间过长
MapReduce任务长时间无进展
运行任务时,客户端不可用
在缓存中找不到HDFS_DELEGATION_TOKEN
如何在提交MapReduce任务时设置任务优先级
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
多个NameService环境下,运行MapReduce任务失败
基于分区的任务黑名单
使用Oozie
从零开始使用Oozie
使用Oozie客户端
使用Oozie客户端提交作业
提交Hive任务
提交Spark2x任务
提交Loader任务
提交DistCp任务
提交其它任务
使用Hue提交Oozie作业
创建工作流
提交Workflow工作流作业
提交Hive2作业
提交Spark2x作业
提交Java作业
提交Loader作业
提交Mapreduce作业
提交Sub workflow作业
提交Shell作业
提交HDFS作业
提交Streaming作业
提交Distcp作业
互信操作示例
提交SSH作业
提交Hive脚本
提交Coordinator定时调度作业
提交Bundle批处理作业
作业结果查询
Oozie日志介绍
Oozie常见问题
Oozie定时任务没有准时运行
HDFS上更新了oozie的share lib目录但没有生效
Oozie常用排查手段
使用Presto
访问Presto的WebUI
使用客户端执行查询语句
使用Ranger(MRS 3.x)
登录Ranger管理界面
启用Ranger鉴权
配置组件权限策略
查看Ranger审计信息
配置Ranger安全区
普通集群修改Ranger数据源为Ldap
查看Ranger权限信息
添加HDFS的Ranger访问权限策略
添加HBase的Ranger访问权限策略
添加Hive的Ranger访问权限策略
添加Yarn的Ranger访问权限策略
添加Spark2x的Ranger访问权限策略
添加Kafka的Ranger访问权限策略
添加Storm的Ranger访问权限策略
Ranger日志介绍
Ranger常见问题
安装集群过程中,Ranger启动失败
如何判断某个服务是否使用了Ranger鉴权
新创建用户修改完密码后无法登录Ranger
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表
使用Spark
使用前须知
从零开始使用Spark
从零开始使用Spark SQL
使用Spark客户端
访问Spark Web UI界面
Spark对接OpenTSDB
创建表关联OpenTSDB
插入数据至OpenTSDB表
查询OpenTSDB表
默认配置修改
使用Spark2x
使用前须知
基本操作
快速入门
快速配置参数
常用参数
SparkOnHBase概述及基本应用
SparkOnHBasev2概述及基本应用
SparkSQL权限管理(安全模式)
SparkSQL权限介绍
创建SparkSQL角色
配置表、列和数据库的权限
配置SparkSQL业务使用其他组件的权限
客户端和服务端配置
场景化参数
配置多主实例模式
配置多租户模式
配置多主实例与多租户模式切换
配置事件队列的大小
配置executor堆外内存大小
增强有限内存下的稳定性
配置WebUI上查看聚合后的container日志
配置YARN-Client和YARN-Cluster不同模式下的环境变量
配置SparkSQL的分块个数
配置parquet表的压缩格式
配置WebUI上显示的Lost Executor信息的个数
动态设置日志级别
配置Spark是否获取HBase Token
配置Kafka后进先出
配置对接Kafka可靠性
配置流式读取driver执行结果
配置过滤掉分区表中路径不存在的分区
配置Spark2x Web UI ACL
配置矢量化读取ORC数据
Hive分区修剪的谓词下推增强
支持Hive动态分区覆盖语义
配置列统计值直方图Histogram用以增强CBO准确度
配置JobHistory本地磁盘缓存
配置Spark SQL开启Adaptive Execution特性
配置eventlog日志回滚
使用Ranger时适配第三方JDK
Spark2x日志介绍
获取运行中Spark应用的Container日志
小文件合并工具
CarbonData首查优化工具
Spark2x性能调优
Spark Core调优
数据序列化
配置内存
设置并行度
使用广播变量
使用External Shuffle Service提升性能
Yarn模式下动态资源调度
配置进程参数
设计DAG
经验总结
SQL和DataFrame调优
Spark SQL join优化
优化数据倾斜场景下的Spark SQL性能
优化小文件场景下的Spark SQL性能
INSERT...SELECT操作调优
多并发JDBC客户端连接JDBCServer
动态分区插入场景内存优化
小文件优化
聚合算法优化
Datasource表优化
合并CBO优化
跨源复杂数据的SQL查询优化
多级嵌套子查询以及混合Join的SQL调优
Spark Streaming调优
Spark2x常见问题
Spark Core
日志聚合下,如何查看Spark已完成应用日志
Driver返回码和RM WebUI上应用状态显示不一致
为什么Driver进程不能退出
网络连接超时导致FetchFailedException
当事件队列溢出时如何配置事件队列的大小
Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
NodeManager关闭导致Executor(s)未移除
Password cannot be null if SASL is enabled异常
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
使用Hash shuffle出现任务失败
访问Spark应用的聚合日志页面报“DNS查找失败”错误
由于Timeout waiting for task异常导致Shuffle FetchFailed
Executor进程Crash导致Stage重试
执行大数据量的shuffle过程时Executor注册shuffle service失败
在Spark应用执行过程中NodeManager出现OOM异常
安全集群使用HiBench工具运行sparkbench获取不到realm
SQL和DataFrame
Spark SQL ROLLUP和CUBE使用的注意事项
Spark SQL在不同DB都可以显示临时表
如何在Spark命令中指定参数值
SparkSQL建表时的目录权限
为什么不同服务之间互相删除UDF失败
Spark SQL无法查询到Parquet类型的Hive表的新插入数据
cache table使用指导
Repartition时有部分Partition没数据
16T的文本数据转成4T Parquet数据失败
当表名为table时,执行相关操作时出现异常
执行analyze table语句,因资源不足出现任务卡住
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
执行Hive命令修改元数据时失败或不生效
spark-sql退出时打印RejectedExecutionException异常栈
健康检查时,误将JDBCServer Kill
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
连上不同的JDBCServer,function不能正常使用
Spark2x无法访问Spark1.5创建的DataSource表
为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
Spark SQL无法查询到ORC类型的Hive表的新插入数据
Spark Streaming
Spark Streaming任务一直阻塞
运行Spark Streaming任务参数调优的注意事项
为什么提交Spark Streaming应用超过token有效期,应用失败
为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
访问Spark应用获取的restful接口信息有误
为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
加载空的part文件时,app无法显示在JobHistory的页面上
Spark2x导出带有相同字段名的表,结果导出失败
为什么多次运行Spark应用程序会引发致命JRE错误
IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
Spark2x如何访问外部集群组件
对同一目录创建多个外表,可能导致外表查询失败
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
Spark shuffle异常处理
使用Sqoop
从零开始使用Sqoop
Sqoop1.4.7适配MRS 3.x集群
Sqoop常用命令及参数介绍
Sqoop常见问题
报错找不到QueryProvider类
连接postgresql或者gaussdb时报错
使用hive-table方式同步数据到obs上的hive表报错
使用hive-table方式同步数据到orc表或者parquet表失败
使用hive-table方式同步数据报错
使用hcatalog方式同步hive parquet表报错
使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错
使用Storm
从零开始使用Storm
使用Storm客户端
使用客户端提交Storm拓扑
访问Storm的WebUI
管理Storm拓扑
查看Storm拓扑日志
Storm常用参数
配置Storm业务用户密码策略
迁移Storm业务至Flink
概述
完整迁移Storm业务
嵌入式迁移Storm业务
迁移Storm对接的外部安全组件业务
Storm日志介绍
性能调优
Storm性能调优
使用Tez
使用前须知
Tez常用参数
访问TezUI
日志介绍
常见问题
TezUI无法展示Tez任务执行细节
进入Tez原生界面显示异常
TezUI界面无法查看yarn日志
TezUI HiveQueries界面表格数据为空
使用Yarn
Yarn常用参数
创建Yarn角色
使用Yarn客户端
配置NodeManager角色实例使用的资源
更改NodeManager的存储目录
配置YARN严格权限控制
配置Container日志聚合功能
启用CGroups功能
配置AM失败重试次数
配置AM自动调整分配内存
配置访问通道协议
检测内存使用情况
配置自定义调度器的WebUI
配置YARN Restart特性
配置AM作业保留
配置本地化日志级别
配置运行任务的用户
Yarn日志介绍
Yarn性能调优
抢占任务
任务优先级
节点配置调优
Yarn常见问题
任务完成后Container挂载的文件目录未清除
作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
重启YARN,本地日志不被删除
为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
为什么在ResourceManager重启后,应用程序会移回原来的队列
为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
ResourceManager持续主备倒换
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
如何限制存储在ZKstore中的应用程序诊断消息的大小
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
开启Native Task特性后,Reduce任务在部分操作系统运行失败
使用ZooKeeper
从零开始使用Zookeeper
ZooKeeper常用参数
使用ZooKeeper客户端
ZooKeeper权限设置指南
ZooKeeper日志介绍
ZooKeeper常见问题
创建大量znode后,ZooKeeper Sever启动失败
为什么ZooKeeper Server出现java.io.IOException: Len的错误日志
为什么在Zookeeper服务器上启用安全的netty配置时,四个字母的命令不能与linux的netcat命令一起使用
如何查看哪个ZooKeeper实例是leader
使用IBM JDK时客户端无法连接ZooKeeper
ZooKeeper客户端刷新TGT失败
使用deleteall命令,删除大量znode时,偶现报错“Node does not exist”错误
附录
修改集群服务配置参数
访问集群Manager
访问MRS Manager(MRS 3.x之前版本)
访问FusionInsight Manager(MRS 3.x及之后版本)
使用MRS客户端
安装客户端(3.x及之后版本)
安装客户端(3.x之前版本)
更新客户端(3.x及之后版本)
更新客户端(3.x之前版本)
安全性说明
集群(未启用Kerberos认证)安全配置建议
安全认证原理和认证机制
高危操作一览表
常见问题
产品咨询类
MRS可以做什么?
MRS支持什么类型的分布式存储?
如何使用自定义安全组创建MRS集群?
如何使用MRS?
如何保证数据和业务运行安全?
如何配置Phoenix连接池?
MRS是否支持更换网段?
MRS服务集群节点是否执行降配操作?
Hive与其他组件有什么关系?
MRS集群是否支持Hive on Spark?
Hive版本之间是否兼容?
MRS集群哪个版本支持建立Hive连接且有用户同步功能?
数据存储在OBS和HDFS有什么区别?
Hadoop压力测试工具如何获取?
Impala与其他组件有什么关系?
关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
Kudu和HBase间的关系?
MRS是否支持Hive on Kudu?
10亿级数据量场景的解决方案
如何修改DBService的IP?
MRS sudo log能否清理?
MRS 2.1.0集群版本对Storm日志也有20G的限制么
Spark ThriftServer是什么
Kafka目前支持的访问协议类型
zstd的压缩比怎么样
创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
创建MRS集群时,找不到ZooKeeper组件
MRS 3.1.0集群版本,Spark任务支持python哪些版本?
如何让不同的业务程序分别用不同的Yarn队列?
MRS管理控制台和集群Manager页面区别与联系
MRS如何解绑EIP?
帐号密码类
登录Manager帐号的是什么?
帐号密码的过期时间如何查询和修改
帐号权限类
如果不开启Kerberos认证,MRS集群能否支持访问权限细分?
如何给新建的帐号添加租户管理权限?
如何自定义配置MRS服务策略?
在MRS Manager页面“系统设置”中找不到用户管理,什么原因?
Hue有没有配置帐号权限的功能?
客户端使用类
如何使用组件客户端?
怎么关闭ZooKeeper SASL认证
在MRS集群外客户端中执行kinit报错
Web页面访问类
修改开源组件Web页面会话超时时间
MRS租户管理中的动态资源计划页面无法刷新
Kafka Topic监控页签在Manager页面不显示
访问HDFS、Hue、Yarn、Flink等组件的WebUI界面报错,或部分功能不可用
监控告警类
在MRS流式集群中,Kafka topic监控是否支持发送告警?
产生告警“ALM-18022 Yarn队列资源不足”时,在哪里可以看到在运行的资源队列
HBase操作请求次数指标中的多级图表统计如何理解
性能优化类
MRS集群是否支持重装系统?
MRS集群是否支持切换操作系统?
如何提高集群Core节点的资源使用率?
如何关闭防火墙服务?
作业开发类
如何准备MRS的数据源?
集群支持提交哪些形式的Spark作业?
MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
Spark作业Client模式和Cluster模式的区别
如何查看MRS作业日志?
报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
MRS Console页面Flink作业状态与Yarn上的作业状态不一致
提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
ClickHouse客户端执行SQL查询时报内存不足问题
Spark运行作业报错:java.io.IOException: Connection reset by peer
Spark作业访问OBS报错:requestId=4971883851071737250
DataArts Studio调度spark作业,偶现失败,重跑失败
Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
提交的Yarn作业在界面上查看不到
如何修改现有集群的HDFS NameSpace(fs.defaultFS)
通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
Flink作业提交时报错slot request timeout
DistCP类型作业导入导出数据问题
集群升级/补丁
MRS版本如何进行升级?
MRS是否支持修改版本?
集群访问类
MRS登录集群节点的两种方式能够切换么?
如何获取ZooKeeper的IP地址和端口?
如何通过集群外的节点访问MRS集群?
大数据业务开发
MRS是否支持同时运行多个Flume任务?
如何修改FlumeClient的日志为标准输出日志?
Hadoop组件jar包位置和环境变量的位置在哪里?
HBase支持的压缩算法有哪些?
MRS是否支持通过Hive的HBase外表将数据写入到HBase?
如何查看HBase日志?
HBase表如何设置和修改数据保留期?
HDFS如何进行数据均衡?
如何修改HDFS的副本数?
如何使用Python远程连接HDFS的端口?
如何修改HDFS主备倒换类?
DynamoDB的number在Hive表中用什么类型比较好?
Hive Driver是否支持对接dbcp2?
用户A如何查看用户B创建的Hive表?
Hive查询数据是否支持导出?
Hive使用beeline -e执行多条语句报错
添加Hive服务后,提交hivesql/hivescript作业失败
Hue下载excel无法打开
Hue连接hiveserver,不释放session,报错over max user connections如何处理?
如何重置Kafka数据?
MRS Kafka如何查看客户端版本信息?
Kafka目前支持的访问协议类型有哪些?
消费kafka topic,报错:Not Authorized to access group xxx
Kudu支持的压缩算法有哪些?
如何查看Kudu日志?
新建集群Kudu服务异常处理
OpenTSDB是否支持python的接口?
Presto如何配置其他数据源?
MRS如何连接spark-shell
MRS如何连接spark-beeline
spark job对应的执行日志保存在哪里?
MRS的Storm集群提交任务时如何指定日志路径?
Yarn的ResourceManager配置是否正常?
如何修改Clickhouse服务的allow_drop_detached配置项?
执行Spark任务报内存不足告警
ClickHouse占用大量CPU,一直不下降
ClickHouse如何开启Map类型?
SparkSQL访问hive分区表大量调用OBS接口
API使用类
使用调整集群节点接口时参数node_id如何配置?
集群管理类
如何查看所有集群?
如何查看日志信息?
如何查看集群配置信息?
如何在MRS集群中安装Kafka,Flume组件?
如何停止MRS集群?
MRS支持数据盘扩容吗?
现有集群如何增加组件?
MRS集群中安装的组件能否删除?
MRS是否支持变更MRS集群节点?
如何取消集群风险告警
为什么MRS集群显示的资源池内存小于实际集群内存?
如何配置knox内存?
MRS集群安装的Python版本是多少?
如何查看各组件配置文件路径?
MRS节点时间不正确
如何查询MRS节点的启动时间
节点互信异常如何处理?
如何调整manager-executor进程内存?
Kerberos使用
已创建的MRS集群如何修改Kerberos状态?
Kerberos认证服务的端口有哪些?
如何在运行中的集群中部署Kerberos服务?
开启Kerberos认证的集群如何访问Hive?
开启Kerberos认证的集群如何访问Presto?
开启Kerberos认证的集群如何访问Spark?
如何避免Kerberos认证过期?
元数据管理
Hive元数据在哪里查看?
故障排除
Web页面访问类
无法访问MRS集群管理页面(MRS Manager界面)
升级Python后,无法登录MRS Manager页面
用户修改域名后无法登录MRS Manager页面
登录Manager,页面空白不显示
用户名过长时下载认证凭据失败
集群管理类
缩容Task节点失败
MRS集群添加新磁盘
MRS集群更换磁盘(适用于2.x及之前)
MRS集群更换磁盘(适用于3.x)
MRS备份失败
Core节点出现df显示的容量和du显示的容量不一致
如何解除关联子网
修改hostname,导致MRS状态异常
如何定位进程被kill
MRS 集群使用pip3安装python包提示网络不可达
MRS集群客户端无法下载
扩容失败
MRS通过beeline执行插入命令的时候出错
MRS集群如何进行Euleros系统漏洞升级?
使用CDM迁移数据至HDFS
MRS集群频繁产生告警
PMS进程占用内存高问题处理
Knox进程占用内存高
安全集群外节点安装客户端访问HBase很慢
作业无法提交如何定位?
HBase日志文件过大导致OS盘空间不足
Manager页面新建的租户删除失败
使用Alluixo
Alluixo在HA模式下出现Does not contain a valid host:port authority报错
使用ClickHouse
ZooKeeper上数据错乱导致ClickHouse启动失败问题
使用DBservice
DBServer实例状态异常
DBServer实例一直处于Restoring状态
默认端口20050或20051被占用
/tmp目录权限不对导致DBserver实例状态一直处于Restoring
DBService备份失败
DBService状态正常,组件无法连接DBService
DBServer启动失败
浮动IP不通导致DBService备份失败
DBService配置文件丢失导致启动失败
使用Flink
安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
创建Flink集群时执行yarn-session.sh命令失败
使用不同用户,执行yarn-session创建集群失败
Flink业务程序无法读取NFS盘上的文件
自定义Flink log4j日志输出级别
使用Flume
Flume向Spark Streaming提交作业,提交到集群后报类找不到
Flume客户端安装失败
Flume客户端无法连接服务端
Flume数据写入组件失败
Flume 服务端进程故障
Flume数据采集慢
Flume启动失败
使用HBase
连接到HBase响应慢
HBase用户认证失败
端口被占用导致RegionServer启动失败
节点剩余内存不足导致HBase启动失败
HDFS性能差导致HBase服务不可用告警
参数不合理导致HBase启动失败
残留进程导致Regionsever启动失败
HDFS上设置配额导致HBase启动失败
HBase version文件损坏导致启动失败
无业务情况下,RegionServer占用CPU高
HBase启动失败,RegionServer日志中提示FileNotFoundException异常
HBase启动后原生页面显示RegionServer个数多于实际个数
RegionServer实例异常,处于Restoring状态
新安装的集群HBase启动失败
acl表目录丢失导致HBase启动失败
集群上下电之后HBase启动失败
文件块过大导致HBase数据导入失败
使用Phoenix创建HBase表后,向索引表中加载数据报错
在MRS集群客户端无法执行hbase shell命令
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
RegionServer剩余内存不足导致HBase服务启动失败
使用HDFS
修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
通过公网IP连接主机,使用HDFS客户端报错
使用Python远程连接HDFS的端口失败
HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
启动HDFS和Yarn报错
HDFS权限设置问题
HDFS的DataNode一直显示退服中
内存不足导致HDFS启动失败
ntpdate修改时间导致HDFS出现大量丢块
DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
单NameNode长期故障,如何使用客户端手动checkpoint
文件读写常见故障
文件最大打开句柄数设置太小导致读写文件异常
客户端写文件close失败
文件错误导致上传文件到HDFS失败
界面配置dfs.blocksize后put数据,block大小还是原来的大小
读取文件失败,FileNotFoundException
HDFS写文件失败,item limit of / is exceeded
调整shell客户端日志级别
读文件失败No common protection layer
HDFS目录配额(quota)不足导致写文件失败
执行balance失败,Source and target differ in block-size
查询或者删除文件失败,父目录可以看见此文件(不可见字符)
非HDFS数据残留导致数据分布不均衡
客户端安装在数据节点导致数据分布不均衡
节点内DataNode磁盘使用率不均衡处理指导
执行balance常见问题定位方法
HDFS显示磁盘空间不足,其实还有10%磁盘空间
普通集群在Core节点安装hdfs客户端,使用时报错
集群外节点安装客户端使用hdfs上传文件失败
HDFS写并发较大时,报副本不足的问题
HDFS客户端无法删除超长目录
集群外节点访问MRS HDFS报错
使用Hive
Hive各个日志里都存放了什么信息?
Hive启动失败问题的原因有哪些?
安全集群执行set命令的时候报Cannot modify xxx at runtime.
怎样在Hive提交任务的时候指定队列?
客户端怎么设置Map/Reduce内存?
如何在导入表时指定输出的文件压缩格式
desc描述表过长时,无法显示完整
增加分区列后再insert数据显示为NULL
创建新用户,执行查询时报无权限
执行SQL提交任务到指定队列报错
执行load data inpath命令报错
执行load data local inpath命令报错
执行create external table报错
在beeline客户端执行dfs -put命令报错
执行set role admin报无权限
通过beeline创建UDF时候报错
Hive服务健康状态和Hive实例健康状态的区别
Hive中的告警有哪些以及触发的场景
Shell客户端连接提示"authentication failed"
客户端提示访问ZooKeeper失败
使用udf函数提示"Invalid function"
Hive服务状态为Unknown总结
Hiveserver或者Metastore实例的健康状态为unknown
Hiveserver或者Metastore实例的健康状态为Concerning
TEXTFILE类型文件使用ARC4压缩时select结果乱码
hive任务运行过程中失败,重试成功
执行select语句报错
drop partition操作,有大量分区时操作失败
localtask启动失败
WebHCat启动失败
切域后Hive二次开发样例代码报错
DBService超过最大连接数,导致metastore异常
beeline报Failed to execute session hooks: over max connections错误
beeline报OutOfMemoryError错误
输入文件数超出设置限制导致任务执行失败
任务执行中报栈内存溢出导致任务执行失败
对同一张表或分区并发写数据导致任务失败
Hive任务失败,报没有HDFS目录的权限
Load数据到Hive表失败
HiveServer和HiveHCat进程故障
Hive执行insert into语句报错,命令界面报错信息不明
增加Hive表字段超时
Hive服务重启失败
hive执行删除表失败
Hive执行msck repair table table_name报错
在Hive中drop表后,如何完全释放磁盘空间
客户端执行SQL报错连接超时
WebHCat健康状态异常导致启动失败
mapred-default.xml文件解析异常导致WebHCat启动失败
使用Hue
Hue上有job在运行
使用IE浏览器在Hue中执行HQL失败
Hue(主)无法打开web网页
Hue WebUI访问失败
Hue界面无法加载HBase表
使用Impala
用户连接impala-shell失败
创建Kudu表报错
Impala客户端登录失败
使用Kafka
运行Kafka获取topic报错
Flume可以正常连接Kafka,但是发送消息失败。
Producer发送数据失败,抛出NullPointerException
Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
Producer偶现发送数据失败,日志提示Too many open files in system
Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
Consumer消费数据失败,Consumer一直处于等待状态
SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
Consumer消费数据是否丢失排查
帐号锁定导致启动组件失败
Kafka Broker上报进程异常,日志提示IllegalArgumentException
执行Kafka Topic删除操作,发现无法删除
执行Kafka Topic删除操作,提示AdminOperationException
执行Kafka Topic创建操作,发现无法创建提示NoAuthException
执行Kafka Topic设置ACL操作失败,提示NoAuthException
执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
Consumer消费数据存在重复消费现象
执行Kafka Topic创建操作,发现Partition的Leader显示为none
Kafka安全使用说明
如何获取Kafka Consumer Offset信息
如何针对Topic进行配置增加和删除
如何读取“__consumer_offsets”内部topic的内容
如何配置客户端shell命令的日志
如何获取Topic的分布信息
Kafka高可靠使用说明
Kafka生产者写入单条记录过长问题
Kakfa消费者读取单条记录过长问题
Kafka集群节点内多磁盘数据量占用高处理办法
使用Oozie
当并发提交大量oozie任务时,任务一直没有运行
使用Presto
配置sql-standard-with-group创建schema失败报Access Denied
Presto的coordinator无法正常启动
Presto查询Kudu表报错
Presto查询Hive表无数据
使用Spark
Spark应用下修改split值时报错
使用Spark时报错
引入jar包不正确,导致Spark任务无法运行
Spark任务由于内存不够,作业卡住
运行Spark报错
Driver端提示executor memory超限
Yarn-cluster模式下,Can't get the Kerberos realm异常
JDK版本不匹配启动spark-sql,spark-shell失败
Yarn-client模式提交ApplicationMaster尝试启动两次失败
提交Spark任务时,连接ResourceManager异常
DataArts Studio调度spark作业失败
Spark作业api提交状态为error
集群反复出现43006告警
在spark-beeline中创建/删除表失败
集群外节点提交Spark作业到Yarn报错连不上Driver
运行Spark任务发现大量shuffle结果丢失
JDBCServer长时间运行导致磁盘空间不足
spark-shell执行sql跨文件系统load数据到hive表失败
Spark任务提交失败
Spark任务运行失败
JDBCServer连接失败
查看Spark任务日志失败
Spark连接其他服务认证问题
spark连接redis报错
spark-beeline查询Hive视图报错
使用Sqoop
Sqoop如何连接mysql
Sqoop读取MySQL中数据到HBase报HBaseAdmin.<init>方法找不到异常
HUE界面的Sqoop任务HBase到HDFS报错
Sqoop从hive到mysql8.0报格式错误
Sqoop import 从pg到hive报错
Sqoop读mysql,写parquet文件到OBS失败
使用Storm
Storm组件的Storm UI页面中events超链接地址无效
提交拓扑失败
提交拓扑失败,提示Failed to check principle for keytab
提交拓扑后Worker日志为空
提交拓扑后Worker运行异常,日志提示Failed to bind to:host:ip
使用jstack命令查看进程堆栈提示well-known file is not secure
使用Storm-JDBC插件开发Oracle写入Bolt,发现数据无法写入
业务拓扑配置GC参数不生效
UI查看信息显示Internal Server Error
使用Ranger
Hive启用Ranger鉴权后,在Hue页面能查看到没有权限的表和库
使用Yarn
启动Yarn后发现一堆job
通过客户端hadoop jar命令提交任务,客户端返回GC overhead
Yarn汇聚日志过大导致磁盘被占满
MR任务异常临时文件不删除
提交任务的Yarn的ResourceManager报错connection refused,且配置的Yarn端口为8032
Yarn WebUI作业查看日志提示“Could not access logs page!”
Yarn页面单击队列名称报错
使用ZooKeeper
MRS集群如何访问ZooKeeper
访问OBS
使用MRS多用户访问OBS功能时/tmp目录没有权限
Hadoop客户端删除OBS上数据时.Trash目录没有权限
附录
MRS 3.x版本操作注意事项
API参考(吉隆坡区域)
使用前必读
概述
调用说明
终端节点
约束与限制
基本概念
API版本选择建议
API概览
如何调用API
构造请求
认证鉴权
返回结果
应用示例
创建MRS集群
扩容集群
缩容集群
新增作业
终止作业
删除集群
API V2
集群管理接口
创建集群
作业对象接口
新增并执行作业
查询单个作业信息
查询作业列表信息
终止作业
批量删除作业
获取SQL结果
SQL接口
提交SQL语句
查询SQL结果
取消SQL执行任务
集群HDFS文件接口
获取指定目录文件列表
委托管理
查询用户(组)与IAM委托的映射关系
更新用户(组)与IAM委托的映射
API V1.1
集群管理接口
创建集群并执行作业
调整集群节点
查询集群列表
删除集群
查询集群详情
查询主机列表
作业对象接口
新增作业并执行
查询作业exe对象列表
查询作业exe对象详情
作业执行对象接口
删除作业执行对象
弹性伸缩接口
配置弹性伸缩规则
标签管理接口
给指定集群添加标签
删除指定集群的标签
查询指定集群的标签
批量添加/删除集群标签
查询所有标签
查询特定标签的集群列表
权限策略和授权项
策略及授权项说明
附录
状态码
获取项目ID
获取账号ID
获取MRS集群信息
MRS支持的角色与组件对应表
通用参考
云服务等级协议(SLA)
白皮书资源
支持区域
系统权限