MapReduce服务 MRS
MapReduce服务 MRS
- 最新动态
- 功能总览
- 服务公告
-
产品介绍
- 图解MapReduce服务
- 什么是MapReduce服务
- 产品优势
- 应用场景
- MRS集群版本说明
- MRS组件版本一览表
- 组件介绍
- 产品功能
- 安全
- 约束与限制
- 技术支持
- 计费说明
- 权限管理
- 与其他云服务的关系
- 配额说明
- 常见概念
- 发行版本
- 计费说明
- 快速入门
-
用户指南
- 准备工作
- MRS集群规划
- 购买MRS集群
- 安装MRS集群客户端
- 提交MRS作业
- 管理MRS集群
-
MRS集群运维
- MRS集群运维说明
- 登录MRS集群
- 查看MRS集群监控指标
- MRS集群健康检查
- MRS集群容量调整
- 备份恢复MRS集群数据
- 安装MRS集群补丁
-
MRS集群补丁说明
- MRS 3.0.5.1补丁说明
- MRS 2.1.0.11补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.1补丁说明
- MRS 1.9.3.3补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.2.2补丁说明
- MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.8.10.1补丁说明
- 查看MRS集群日志
- MRS集群安全配置
- 查看与配置MRS告警事件
-
MRS集群告警处理参考
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态和Z状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12091 disaster资源异常
- ALM-12099 发生core dump
- ALM-12100 AD服务器连接异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12103 executor资源异常
- ALM-12104 knox资源异常
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12172 指标上报CES失败
- ALM-12180 磁盘卡IO
- ALM-12186 用户CGroup任务数使用率超过阈值
- ALM-12187 磁盘分区扩容失败
- ALM-12188 diskmgt磁盘监控服务不可用
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-12207 慢盘处理超时
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-14036 NameNode进入安全模式
- ALM-14037 存在集群外的DataNode
- ALM-14038 Router堆内存使用率超过阈值
- ALM-14039 集群内存在慢DataNode
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
- ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-18027 JobHistoryServer进程状态异常
- ALM-18028 TimeLineServer进程状态异常
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19021 RegionSever handler 使用率超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-19036 HBase关键目录数据存在坏块
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25007 SlapdServer连接数超过阈值
- ALM-25008 SlapdServer CPU使用率超过阈值
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29010 Impalad 正在提交的查询总数超过阈值
- ALM-29011 Impalad 正在执行的查询总数超过阈值
- ALM-29012 Impalad 正在等待的查询总数超过阈值
- ALM-29013 Impalad FGCT超过阈值
- ALM-29014 Catalog FGCT超过阈值
- ALM-29015 Catalog进程内存占用率超过阈值
- ALM-29016 Impalad实例亚健康
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
- ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-38012 Broker的分区数量超过阈值
- ALM-38013 Produce请求在请求队列的时延超过阈值
- ALM-38014 Produce请求总体时延超过阈值
- ALM-38015 Fetch请求在请求队列的时延超过阈值
- ALM-38016 Fetch请求总体时延超过阈值
- ALM-38017 分区均衡时间超过阈值
- ALM-38018 Kafka消息积压
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-43028 JDBCServer Session过载
- ALM-43029 JDBCServer作业提交超时
- ALM-44000 Presto服务不可用
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45008 HetuEngine计算实例查询时延超过阈值
- ALM-45009 HetuEngine计算实例任务失败率超过阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45179 OBS readFully接口调用失败数高于阈值
- ALM-45180 OBS read接口调用失败数高于阈值
- ALM-45181 OBS write接口调用失败数高于阈值
- ALM-45182 OBS操作被流控次数高于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45294 RangerKMS进程状态异常
- ALM-45325 Presto服务不可用
- ALM-45326 Presto Coordinator线程数超过阈值
- ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-45328 Presto Worker进程垃圾收集时间超出阈值
- ALM-45329 Presto Coordinator资源组排队任务超过阈值
- ALM-45330 Presto Worker线程数超过阈值
- ALM-45331 Presto Worker1线程数超过阈值
- ALM-45332 Presto Worker2线程数超过阈值
- ALM-45333 Presto Worker3线程数超过阈值
- ALM-45334 Presto Worker4线程数超过阈值
- ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
- ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
- ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
- ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45431 ClickHouse 实例不满足拓扑分配
- ALM-45432 ClickHouse用户同步进程故障
- ALM-45433 ClickHouse AZ拓扑检查异常
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45435 ClickHouse表元数据不一致
- ALM-45436 ClickHouse表数据倾斜
- ALM-45437 ClickHouse表part数量过多
- ALM-45438 ClickHouse磁盘使用率超过80%
- ALM-45439 ClickHouse节点进入只读模式
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45447 ClickHouse表只读
- ALM-45448 ClickHouse使用Znode数量增长速率过快
- ALM-45449 ClickHouse使用zxid即将翻转
- ALM-45450 ClickHouse获取临时委托凭据失败
- ALM-45451 ClickHouse访问OBS失败
- ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 FlinkServer作业task持续背压
- ALM-45638 FlinkServer作业失败重启次数超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 TokenServer堆内存使用率超过阈值
- ALM-45738 TokenServer直接内存使用率超过阈值
- ALM-45739 TokenServer非堆内存使用率超过阈值
- ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 请求ECS securitykey接口失败
- ALM-45742 请求ECS metadata接口失败
- ALM-45743 请求IAM接口失败
- ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
- ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
- ALM-47001 MemArtsCC服务不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-47003 MemArtsCC Worker进程内存使用超过阈值
- ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例故障
- ALM-50226 BE实例故障
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50231 Doris中存在异常Tablet
- ALM-50232 Doris中存在较大的Tablet
- ALM-50401 JobServer中等待执行的任务数超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-50406 JobServer提交作业接口失败率超过阈值
- ALM-50407 JobServer查询作业接口失败率超过阈值
- ALM-50408 JobServer终止作业接口失败率超过阈值
- ALM-12001 审计日志转储失败(2.x及以前版本)
- ALM-12002 HA资源异常(2.x及以前版本)
- ALM-12004 OLdap资源异常(2.x及以前版本)
- ALM-12005 OKerberos资源异常(2.x及以前版本)
- ALM-12006 节点故障(2.x及以前版本)
- ALM-12007 进程故障(2.x及以前版本)
- ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
- ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
- ALM-12012 NTP服务异常(2.x及以前版本)
- ALM-12014 设备分区丢失(2.x及以前版本)
- ALM-12015 设备分区文件系统只读(2.x及以前版本)
- ALM-12016 CPU使用率超过阈值(2.x及以前版本)
- ALM-12017 磁盘容量不足(2.x及以前版本)
- ALM-12018 内存使用率超过阈值(2.x及以前版本)
- ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
- ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
- ALM-12031 omm用户或密码即将过期(2.x及以前版本)
- ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
- ALM-12033 慢盘故障(2.x及以前版本)
- ALM-12034 周期备份任务失败(2.x及以前版本)
- ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
- ALM-12037 NTP服务器异常(2.x及以前版本)
- ALM-12038 监控指标转储失败(2.x及以前版本)
- ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
- ALM-12040 系统熵值不足(2.x及以前版本)
- ALM-12041关键文件权限异常(2.x及以前版本)
- ALM-12042 关键文件配置异常(2.x及以前版本)
- ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
- ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
- ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
- ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
- ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
- ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
- ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
- ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
- ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
- ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
- ALM-12054 证书文件失效(2.x及以前版本)
- ALM-12055 证书文件即将过期(2.x及以前版本)
- ALM-12180 磁盘卡IO(2.x及以前版本)
- ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
- ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
- ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
- ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
- ALM-14000 HDFS服务不可用(2.x及以前版本)
- ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
- ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
- ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
- ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
- ALM-14010 NameService服务异常(2.x及以前版本)
- ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
- ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
- ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
- ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
- ALM-16004 Hive服务不可用(2.x及以前版本)
- ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
- ALM-18000 Yarn服务不可用(2.x及以前版本)
- ALM-18002 NodeManager心跳丢失(2.x及以前版本)
- ALM-18003 NodeManager不健康(2.x及以前版本)
- ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
- ALM-18006 执行MapReduce任务超时(2.x及以前版本)
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
- ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
- ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
- ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
- ALM-19000 HBase服务不可用(2.x及以前版本)
- ALM-19006 HBase容灾同步失败(2.x及以前版本)
- ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
- ALM-20002 Hue服务不可用(2.x及以前版本)
- ALM-23001 Loader服务不可用(2.x及以前版本)
- ALM-24000 Flume服务不可用(2.x及以前版本)
- ALM-24001 Flume Agent异常(2.x及以前版本)
- ALM-24003 Flume Client连接中断(2.x及以前版本)
- ALM-24004 Flume读取数据异常(2.x及以前版本)
- ALM-24005 Flume传输数据异常(2.x及以前版本)
- ALM-25000 LdapServer服务不可用(2.x及以前版本)
- ALM-25004 LdapServer数据同步异常(2.x及以前版本)
- ALM-25500 KrbServer服务不可用(2.x及以前版本)
- ALM-26051 Storm服务不可用(2.x及以前版本)
- ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
- ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
- ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
- ALM-27001 DBService服务不可用(2.x及以前版本)
- ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
- ALM-27004 DBService主备数据不同步(2.x及以前版本)
- ALM-28001 Spark服务不可用(2.x及以前版本)
- ALM-38000 Kafka服务不可用(2.x及以前版本)
- ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
- ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
- ALM-43001 Spark服务不可用(2.x及以前版本)
- ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
- ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
- ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-45325 Presto服务不可用(2.x及以前版本)
- 配置MRS集群远程运维
- MRS集群服务常用端口列表
- 配置MRS集群存算分离
-
组件操作指南(LTS版)
-
使用CarbonData
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
-
CarbonData语法参考
- CREATE TABLE
- CREATE TABLE As SELECT
- DROP TABLE
- SHOW TABLES
- ALTER TABLE COMPACTION
- TABLE RENAME
- ADD COLUMNS
- DROP COLUMNS
- CHANGE DATA TYPE
- REFRESH TABLE
- REGISTER INDEX TABLE
- LOAD DATA
- UPDATE CARBON TABLE
- DELETE RECORDS from CARBON TABLE
- INSERT INTO CARBON TABLE
- DELETE SEGMENT by ID
- DELETE SEGMENT by DATE
- SHOW SEGMENTS
- CREATE SECONDARY INDEX
- SHOW SECONDARY INDEXES
- DROP SECONDARY INDEX
- CLEAN FILES
- SET/RESET
- CarbonData表操作并发语法说明
- CarbonData Segment API语法说明
- CarbonData表空间索引语法说明
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
- CarbonData故障排除
- 使用CDL
-
使用ClickHouse
- ClickHouse概述
- ClickHouse用户权限管理
- ClickHouse客户端使用实践
- ClickHouse数据导入
- ClickHouse企业级能力增强
- ClickHouse性能调优
- ClickHouse运维管理
- ClickHouse常用SQL语法
- ClickHouse常见问题
- 使用DBService
- 使用Doris
-
使用Flink
- Flink作业引擎概述
- Flink用户权限管理
- Flink客户端使用实践
- 创建FlinkServer作业前准备
- 创建FlinkServer作业
- 管理FlinkServer作业
-
Flink企业级能力增强
- Flink SQL语法增强
- 多流Join场景支持配置表级别的TTL时间
- 配置Flink SQL Client支持SQL校验功能
- Flink作业大小表Join能力增强
- FlinkSQL OVER窗口支持超期退窗
- FlinkSQL Kafka和upsert-kafka Connector支持限流读
- FlinkSQL Kafka Connector支持消费drs-json格式数据
- FlinkSQL写入JDBC数据支持ignoreDelete
- Join-To-Live
- FlinkSQL行级过滤
- FlinkSQL算子并行度
- FlinkSQL JSON_VALUE函数性能优化
- FlinkSQL Lookup算子复用
- FlinkSQL Function增强
- FlinkSQL支持MultiJoin算子
- Flink运维管理
- Flink性能调优
- Flink客户端常见命令说明
- Flink常见SQL语法说明
- Flink常见问题
- Flink故障排除
- 使用Flume
- 使用Guardian
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序,导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件,提示权限不足
- HBase全局二级索引API介绍说明
- HBase如何关闭HDFS多路读功能
-
HBase故障排除
- HBase客户端连接服务端时长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果
- HBase恢复数据任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HDFS进入安全模式导致HBase服务异常,退出安全模式后HBase如何快速恢复
- 使用HDFS
-
使用HetuEngine
- HetuEngine交互查询引擎概述
- HetuEngine用户权限管理
- 快速使用HetuEngine访问Hive数据源
- 创建HetuEngine计算实例
- 添加HetuEngine数据源
- 配置HetuEngine物化视图
- 配置HetuEngine SQL诊断功能
- 开发和部署HetuEngine UDF
- 管理HetuEngine数据源
- 管理HetuEngine计算实例
- HetuEngine性能调优
- HetuEngine日志介绍
-
HetuEngine常见SQL语法说明
- HetuEngine数据类型说明
-
HetuEngine DDL SQL语法说明
- CREATE SCHEMA
- CREATE VIRTUAL SCHEMA
- CREATE TABLE
- CREATE TABLE AS
- CREATE TABLE LIKE
- CREATE VIEW
- CREATE FUNCTION
- CREATE MATERIALIZED VIEW
- ALTER MATERIALIZED VIEW STATUS
- ALTER MATERIALIZED VIEW
- ALTER TABLE
- ALTER VIEW
- ALTER SCHEMA
- DROP SCHEMA
- DROP TABLE
- DROP VIEW
- DROP FUNCTION
- DROP MATERIALIZED VIEW
- REFRESH MATERIALIZED VIEW
- TRUNCATE TABLE
- COMMENT
- VALUES
- SHOW语法使用概要
- SHOW CATALOGS
- SHOW SCHEMAS(DATABASES)
- SHOW TABLES
- SHOW TBLPROPERTIES TABLE|VIEW
- SHOW TABLE/PARTITION EXTENDED
- SHOW STATS
- SHOW FUNCTIONS
- SHOW SESSION
- SHOW PARTITIONS
- SHOW COLUMNS
- SHOW CREATE TABLE
- SHOW VIEWS
- SHOW CREATE VIEW
- SHOW MATERIALIZED VIEWS
- SHOW CREATE MATERIALIZED VIEW
- HetuEngine DML SQL语法说明
- HetuEngine TCL SQL语法说明
- HetuEngine DQL SQL语法说明
- HetuEngine SQL函数和操作符说明
- HetuEngine辅助命令语法
- HetuEngine预留关键字
- HetuEngine数据类型隐式转换
- HetuEngine样例表数据准备
- HetuEngine常用数据源语法兼容性说明
- HetuEngine常见问题
- HetuEngine故障排除
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库
- 配置Hive读取Hudi表
-
Hive企业级能力增强
- 配置Hive表不同分区分别存储至OBS和HDFS
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- 配置Hive自读自写SQL防御规则
- 配置Hive动态脱敏
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
-
使用Hudi
- Hudi表概述
- 使用Spark Shell创建Hudi表
- 使用spark-sql操作Hudi表
- 使用Hudi-Cli.sh操作Hudi表
- Hudi写操作
- Hudi读操作
- Hudi数据管理维护
- Hudi SQL语法参考
- Hudi Schema演进
- 配置Hudi数据列默认值
- Hudi支持Partial Update
- Hudi支持聚合函数
- Hudi常见配置参数
- Hudi性能调优
-
Hudi常见问题
- 写入更新数据时报错Parquet/Avro schema
- 写入更新数据时报错UnsupportedOperationException
- 写入更新数据时报错SchemaCompatabilityException
- Hudi在upsert时占用了临时文件夹中大量空间
- Hudi写入小精度Decimal数据失败
- 使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
- 使用kafka采集数据时报错IllegalArgumentException
- Hive同步数据报错SQLException
- Hive同步数据报错HoodieHiveSyncException
- Hive同步数据报错SemanticException
- 使用Hue
- 使用Impala
- 使用IoTDB
- 使用JobGateway
- 使用Kafka
- 使用Kudu
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- Oozie企业级能力增强
- Oozie日志介绍
- Oozie常见问题
- 使用Ranger
-
使用Spark/Spark2x
- Spark使用说明
- Spark用户权限管理
- Spark客户端使用实践
- 访问Spark WebUI界面
- 使用代理用户提交Spark作业
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark on OBS性能调优
- Spark运维管理
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
Spark故障排除
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- 使用Sqoop
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- 配置TimelineServer支持HA
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
-
组件操作指南(普通版)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删后为什么Carbon表没有执行drop命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 租户使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件提示权限不足
-
HBase故障排除
- HBase客户端连接服务端时,长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果
- HBase数据恢复任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 使用HDFS
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库数据
-
Hive企业级能力增强
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问Beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用MapReduce
- 使用OpenTSDB
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- 开启Oozie HA机制
- Oozie日志介绍
- Oozie常见问题
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark(MRS 3.x之前版本)
-
使用Spark2x(MRS 3.x及之后版本)
- Spark用户权限管理
- Spark客户端使用实践
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark运维管理
-
Spark2x常见问题
-
Spark Core
- 日志聚合下如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- 在ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 常见操作
- 最佳实践
-
开发指南
-
开发指南(LTS版)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS组件应用安全认证说明
- 准备MRS应用开发用户
- 快速开发MRS组件应用
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- HetuEngine开发指南(安全模式)
- HetuEngine开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- IoTDB开发指南(安全模式)
- IoTDB开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
- Manager管理开发指南
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
-
开发指南(普通版_3.x)
- MRS应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
- MRS应用开发安全认证说明
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- Impala开发指南(安全模式)
- Impala开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- Kudu开发指南(安全模式)
- Kudu开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- Storm开发指南(安全模式)
- Storm开发指南(普通模式)
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
-
开发指南(普通版_2.x及之前)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- Alluxio开发指南
-
Flink开发指南
- Flink应用开发概述
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink Savepoints CLI介绍
- Flink Client CLI介绍
- Flink应用性能调优建议
- Savepoints相关问题解决方案
- 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
- 如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
- 为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
- 为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
- 为什么Flink Web页面无法直接连接?
- HBase开发指南
- HDFS开发指南
- Hive开发指南
- Impala开发指南
- Kafka开发指南
- MapReduce开发指南
- OpenTSDB开发指南
- Presto开发指南
-
Spark开发指南
- Spark应用开发概述
- 准备Spark应用开发环境
- 开发Spark应用
- 调测Spark应用
-
Spark应用开发常见问题
- Spark接口介绍
- Spark应用调优
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 本地运行Spark程序连接MRS集群的Hive、HDFS
- Storm开发指南
-
组件开发规范
- ClickHouse应用开发规范
- Doris应用开发规范
-
Flink应用开发规范
- Flink开发规范概述
-
FlinkSQL Connector开发规范
- FlinkSQL ClickHouse表开发规则
- FlinkSQL ClickHouse表开发建议
- FlinkSQL Doris数据表开发规则
- FlinkSQL Kafka表开发规则
- FlinkSQL Kafka表开发建议
- FlinkSQL HBase数据表开发规则
- FlinkSQL HBase数据表开发建议
- FlinkSQL Elasticsearch表开发规则
- FlinkSQL Elasticsearch表开发建议
- FlinkSQL JDBC表开发规则
- FlinkSQL JDBC表开发建议
- FlinkSQL DWS表开发规则
- FlinkSQL DWS表开发建议
- FlinkSQL Redis表开发规则
- FlinkSQL Redis表开发建议
- FlinkSQL Hive表开发规则
- FlinkSQL Hive表开发建议
- Flink on Hudi开发规范
- Flink任务开发规范
- Flink SQL逻辑开发规范
- Flink性能调优开发规范
- Flink开发样例
- Flink常见开发问题
- HBase应用开发规范
- HDFS应用开发规范
- Hive应用开发规范
- Hudi应用开发规范
- Impala应用开发规范
- IoTDB应用开发规范
- Kafka应用开发规范
- Mapreduce应用开发规范
- Spark应用开发规范
-
开发指南(LTS版)
- API参考
- SDK参考
-
常见问题
- 产品咨询类
- 计费类
- 集群创建类
- Web页面访问类
- 用户认证及权限类
- 客户端使用类
-
组件配置类
- MRS是否支持Hive on Kudu?
- MRS集群是否支持Hive on Spark?
- 如何修改DBService的IP地址?
- Kafka支持的访问协议类型有哪些?
- MRS集群中Spark任务支持哪些Python版本?
- MRS 2.1.0版本集群对Storm日志的大小有什么限制?
- 如何修改现有集群的HDFS fs.defaultFS?
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错如何处理?
- Hue连接HiveServer报错“over max user connections”如何处理?
- 如何查看MRS Hive元数据?
- 如何重置MRS Kafka数据?
- 消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常如何处理?
- Presto如何配置其他数据源?
- MRS 1.9.3 Ranger证书如何更新?
- MRS的Storm集群提交任务时如何指定日志路径?
- 如何检查Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- ClickHouse系统表日志过大时如何添加定期删除策略?
- 如何修改ClickHouse服务时区?
-
集群管理类
- 如何查看所有MRS集群?
- 如何查看MRS服务的操作日志信息?
- 如何查看MRS集群配置信息?
- 如何在MRS集群中手动添加组件?
- 如何取消MRS集群风险告警的消息通知?
- 为什么MRS集群显示的资源池内存小于实际集群内存?
- MRS集群安装的Python版本是多少?
- 如何上传本地文件到集群内节点?
- MRS集群节点时间信息不正确如何处理?
- MRS管理控制台和集群Manager页面功能区别有哪些?
- MRS集群如何解绑已绑定至Manager的EIP?
- 如何关闭MRS集群内节点的防火墙服务?
- MRS集群内节点的登录方式如何切换?
- 如何通过集群外的节点访问MRS集群?
- MRS集群中Kafka Topic监控是否支持发送告警?
- 产生Yarn队列资源不足告警时正在运行的资源队列如何查看?
- HBase操作请求次数指标中的多级图表统计如何理解?
- 节点管理类
- 组件管理类
-
作业管理类
- MRS集群支持提交哪些形式的Spark作业?
- MRS节点访问OBS报错408如何处理?
- 如何让不同的业务程序分别用不同的Yarn队列?
- 提交作业失败,报错与OBS相关如何处理?
- MRS集群租户资源最小值为0时只能同时运行一个任务吗?
- 作业提交参数间用空格隔开导致参数信息不被识别如何处理?
- Spark作业的Client模式和Cluster模式有什么区别?
- 如何查看MRS作业的日志?
- 提交作业时系统提示当前用户在Manager不存在如何处理?
- LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
- 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
- SparkStreaming作业运行后报OBS访问403如何处理?
- Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
- Spark作业访问OBS报错“requestId=XXX”如何处理?
- Spark作业报错“UnknownScannerExeception”如何处理?
- DataArts Studio调度Spark作业偶现失败如何处理?
- 运行Flink任务报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
- 提交的Yarn作业在界面上查看不到如何处理?
- 提交Flink任务时launcher-job被Yarn终止如何处理?
- 提交Flink作业时报错slot request timeout如何处理?
- DistCP作业导入导出数据常见问题
- 如何通过Yarn WebUI查看Hive作业对应的SQL语句?
- 如何查看指定Yarn任务的日志?
- 添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
- Spark Job对应的运行日志保存在哪里?
- 执行Spark任务报内存不足告警如何处理?
- 修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
- SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
- MRS集群用户绑定多个队列时系统如何选择队列?
- 性能优化类
- 应用开发类
-
周边生态对接类
- MRS是否支持对DLI服务的业务表进行读写操作?
- OBS是否支持ListObjectsV2协议?
- MRS集群内的节点中可以部署爬虫服务吗?
- MRS服务是否支持安全删除的能力?
- 如何使用PySpark连接MRS Spark?
- HBase同步数据到CSS为什么没有映射字段?
- MRS集群是否支持对接外部KDC?
- 开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
- MRS导出数据到OBS加密桶失败如何处理?
- MRS服务如何对接云日志服务?
- MRS集群的节点如何安装主机安全服务?
- 如何通过happybase连接到MRS服务的HBase?
- Hive Driver是否支持对接dbcp2?
- 升级补丁类
-
故障排除
- 账号密码类
- 账号权限类
-
Web页面访问类
- 无法访问MRS集群Manager页面如何处理?
-
登录集群Manager常见异常问题
- 访问MRS Manager页面报错“502 Bad Gateway”
- 访问Manager页面报错“请求VPC错误”
- 通过专线访问Manager页面方式出现503报错
- 登录Manager集群页面时报错“You have no right to access the page”
- 登录Manager时界面报错“认证信息无效”
- Manager界面超时退出后无法正常登录
- 升级Python后无法登录Manager页面
- 修改集群域名后无法登录Manager页面
- 登录Manager界面后页面空白无内容
- 集群节点内安装了原生Kerberos导致登录集群失败
- macOS使用浏览器访问MRS Manager
- Manager界面登录用户被锁如何解锁
- Manager页面加载卡顿
-
访问MRS组件Web UI界面常见异常问题
- 使用admin用户访问组件的WebUI界面报错或部分功能不可用
- 访问组件WebUI页面报500异常
- 【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
- 【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
- 【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
- 【Hue WebUI】登录Hue WebUI报错无权限
- 【Hue WebUI】Hue WebUI页面无法访问
- 【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
- 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
- 【Hue WedUI】Hue(主)无法打开web网页
- 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
- 【Tez WebUI】访问Tez WebUI界面报错404
- 【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
- 【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
- 【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
- 【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
- 【Yarn WebUI】无法访问Yarn WebUI
- API使用类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份任务执行失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除网络ACL的关联子网
- 修改节点主机名后导致MRS集群状态异常
- 进程被终止如何定位原因
- MRS配置跨集群互信失败
- MRS集群节点使用pip3安装Python时提示网络不可达
- 开源confluent-kafka-go连接MRS安全集群
- MRS集群周期备份任务执行失败
- MRS集群客户端无法下载
- 开启Kerberos认证的MRS集群提交Flink作业报错
- 通过Hive beeline命令行执行插入命令的时候报错
- MRS集群节点如何进行操作系统漏洞升级
- 使用CDM服务迁移数据至MRS HDFS时任务运行失败
- MRS集群频繁产生节点间心跳中断告警
- PMS进程占用内存高
- Knox进程占用内存高
- 安全集群外的客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- HDFS日志文件过大导致OS盘空间不足
- MRS集群节点规格升级异常
- Manager页面新建的租户删除失败
- MRS集群切换VPC后集群状态异常不可用
- MRS管理控制台上提交作业异常处理
- 生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
- MRS集群Core节点扩容成功后部分实例启动失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
- Flink客户端执行命令报错“Could not connect to the leading JobManager”
- 使用不同用户执行yarn-session创建Flink集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别不生效
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示“FileNotFoundException”
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
- 集群扩容之后新节点HRegionServer启动失败
- HBase文件丢失导致Region状态长时间为RIT
-
使用HDFS
- 修改RPC端口后HDFS NameNode实例都变为备状态
- 通过公网IP连接使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量达到100%导致上层服务HBase、Spark等不可用
- 启动HDFS和Yarn服务报错“Permission denied”
- HDFS用户可在其他用户目录下创建或删除文件
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS NameNode启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%导致节点丢失
- 单NameNode长期故障时如何使用客户端手动checkpoint
- HDFS文件读写时报错“Failed to place enough replicas”
- 文件最大打开句柄数设置太小导致读写文件异常
- HDFS客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后上传数据,block大小未改变
- 读取HDFS文件失败,报错“FileNotFoundException”
- HDFS写文件失败,报错“item limit of xxx is exceeded”
- 调整HDFS SHDFShell客户端日志级别
- HDFS读文件失败报错“No common protection layer”
- HDFS目录配额不足导致写文件失败
- 执行balance失败报错“Source and target differ in block-size”
- 查询或者删除HDFS文件失败
- 非HDFS数据残留导致数据分布不均衡
- HDFS客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
- 集群外节点安装客户端上传HDFS文件失败
- HDFS写并发较大时报副本不足
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
- NameNode节点存在ALM-12027主机PID使用率超过阈值告警
- 集群出现ALM-14012 Journalnode数据不同步告警
- 由于HDFS块丢失导致DataNode退服失败
- 使用distcp命令拷贝空文件夹报错
-
使用Hive
- Hive常见日志说明
- Hive服务启动失败
- 安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
- 提交Hive任务时如何指定队列?
- 怎么通过客户端设置Map/Reduce内存?
- 如何在导入Hive表时指定输出的文件压缩格式?
- Hive表desc描述过长导致无法完整显示
- Hive表中增加分区列后再插入数据显示为NULL
- 集群中创建的新用户执行查询Hive操作时无权限
- 执行SQL提交任务到指定队列时报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table命令报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin命令报无权限
- 在beeline客户端创建UDF时报错
- Hive服务状态为故障如何处理
- Hive服务健康状态和Hive实例健康状态的区别
- Shell客户端连接提示“authentication failed”
- 客户端提示访问ZooKeeper失败
- 使用UDF函数时提示“Invalid function”
- Hive服务状态为Unknown
- HiveServer或者MetaStore实例的健康状态为unknown
- HiveServer或者MetaStore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时查询结果乱码
- Hive任务运行过程中失败,重试成功
- 执行select语句时报错“Execution Error return code 2”
- 有大量分区时执行drop partition操作失败
- 执行join操作时localtask启动失败
- 修改hostname后导致WebHCat启动失败
- 集群修改域名后Hive样例程序运行报错
- DBService超过最大连接数后导致Hive MetaStore异常
- beeline客户端报错“Failed to execute session hooks: over max connections”
- beeline客户端报错“OutOfMemoryError”
- 输入文件数超出设置限制导致任务执行失败
- Hive任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- 参考Hive JDBC代码用例开发的业务应用运行失败
- HiveServer和HiveHCat进程故障
- MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
- Hive执行insert into语句报错
- 增加Hive表字段超时
- 重启Hive服务失败
- Hive分区数过多导致删除表失败
- Hive执行msck repair table命令时报错
- Hive执行insert into命令报用户权限不足
- 在Hive中drop表后如何完全释放磁盘空间
- JSON表中有破损数据导致Hive查询异常
- Hive客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- MetaStore动态分区数超出阈值导致SQL报错
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka客户端获取Topic时报错
- 安全集群中使用Python3.x对接Kafka
- Flume正常连接Kafka后发送消息失败
- Producer发送数据失败,报错“NullPointerException”
- Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
- Producer偶现发送数据失败,日志提示“Too many open files in system”
- Consumer初始化成功但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
- 新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
- SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
- Consumer消费数据失败,提示“SchemaException: Error reading field”
- Kafka Consumer消费数据丢失
- 账号锁定导致启动Kafka组件失败
- Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
- 执行Kafka Topic删除操作时发现无法删除
- 执行Kafka Topic删除操作时提示“AdminOperationException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
- 执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
- 执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
- Consumer消费数据时存在重复消费现象
- 执行Kafka Topic创建操作时发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置Kafka客户端shell命令日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- 使用Kafka Shell命令无法操作Kafka集群
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高
- Kafka连接ZooKeeper客户端时发生断链
- 使用Oozie
- 使用Presto
-
使用Spark
- 运行Spark应用时修改split值报错
- 提交Spark任务时提示参数格式错误
- 磁盘容量不足导致Spark、Hive和Yarn服务不可用
- 引入jar包不正确导致Spark任务无法运行
- Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
- 提交Spark任务时报错“ClassNotFoundException”
- 提交Spark任务时Driver端提示运行内存超限
- Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
- JDK版本不匹配导致启动spark-sql和spark-shell失败
- Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
- 提交Spark任务时连接ResourceManager异常
- DataArts Studio调度Spark作业失败
- 通过API提交Spark作业后作业状态为error
- MRS集群反复上报43006告警
- 在spark-beeline中创建或删除表失败
- 集群外节点提交Spark作业时报错无法连接Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行SQL跨文件系统load数据到Hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark Streaming任务提交问题
- Spark连接其他服务认证问题
- Spark连接Kafka认证错误
- SparkSQL读取ORC表报错
- Spark WebUI页面上stderr和stdout无法跳转到日志页面
- spark-beeline查询Hive视图报错
- Spark Streaming任务失败但是Yarn WebUI中显示状态为成功
- 使用Sqoop
- 使用Storm
- 使用Ranger
-
使用Yarn
- 集群启动Yarn后产生大量作业占用资源
- 通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
- Yarn汇聚日志过大导致节点磁盘被占满
- MapReduce任务异常,临时文件未删除
- Yarn客户端的端口信息错误导致提交任务后报错connection refused
- 通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
- 通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
- 通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
- 使用Yarn客户端命令查询历史作业报错
- TimelineServer目录文件数量到达上限
- 使用ZooKeeper
- 存算分离类
- 视频帮助
- 产品术语
-
更多文档
-
用户指南(阿布扎比区域)
- 简介
- IAM权限管理
- 入门
- 配置集群
- 管理现有集群
- 管理历史集群
- 查看操作日志
- 元数据
- 连接集群
- 使用MRS客户端
- MRS Manager操作指导(适用于2.x及之前)
- FusionInsight Manager操作指导(适用于3.x)
- 数据备份与恢复
- 存算分离操作指导
- 安全性
- 高危操作一览表
-
FAQ
-
产品咨询类
- MRS可以做什么?
- MRS支持什么类型的分布式存储?
- 如何使用自定义安全组创建MRS集群?
- 如何使用MRS?
- 如何保证数据和业务运行安全?
- 如何配置Phoenix连接池?
- MRS是否支持更换网段?
- MRS服务集群节点是否执行降配操作?
- Hive与其他组件有什么关系?
- MRS集群是否支持Hive on Spark?
- Hive版本之间是否兼容?
- MRS集群哪个版本支持建立Hive连接且有用户同步功能?
- 数据存储在OBS和HDFS有什么区别?
- Hadoop压力测试工具如何获取?
- Impala与其他组件有什么关系?
- 关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
- Kudu和HBase间的关系?
- MRS是否支持Hive on Kudu?
- 10亿级数据量场景的解决方案
- 如何修改DBService的IP?
- MRS sudo log能否清理?
- MRS 2.1.0集群版本对Storm日志也有20G的限制么
- Spark ThriftServer是什么
- Kafka目前支持的访问协议类型
- MRS节点访问OBS报错408
- zstd的压缩比怎么样
- 创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
- 创建MRS集群时,找不到ZooKeeper组件
- MRS 3.1.0集群版本,Spark任务支持python哪些版本?
- 如何让不同的业务程序分别用不同的Yarn队列?
- MRS管理控制台和集群Manager页面区别与联系
- MRS如何解绑EIP?
- 帐号密码类
- 帐号权限类
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- Spark运行作业报错:java.io.IOException: Connection reset by peer
- Spark作业访问OBS报错:requestId=4971883851071737250
- DataArts Studio调度spark作业,偶现失败,重跑失败
- Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- Flink作业提交时报错slot request timeout
- DistCP类型作业导入导出数据问题
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何使用Python远程连接HDFS的端口?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- 用户A如何查看用户B创建的Hive表?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- Hue下载excel无法打开
- Hue连接hiveserver,不释放session,报错over max user connections如何处理?
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常处理
- OpenTSDB是否支持python的接口?
- Presto如何配置其他数据源?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- 执行Spark任务报内存不足告警
- ClickHouse占用大量CPU,一直不下降
- ClickHouse如何开启Map类型?
- SparkSQL访问hive分区表大量调用OBS接口
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
产品咨询类
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 帐号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
-
组件操作指南(阿布扎比区域)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive复杂类型字段名称中包含特殊字符导致建表失败
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用Mapreduce
- 使用OpenTSDB
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
- API参考(阿布扎比区域)
-
用户指南(巴黎区域)
- 简介
- 准备用户
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- Jupyter Notebook采用自定义Python对接MRS
- 访问集群Manager
- FusionInsight Manager操作指导(适用于3.x)
- MRS Manager操作指导(适用于2.x及之前)
- 安全性说明
- 高危操作一览表
- 入门
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 账号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
- 修订记录
-
组件操作指南(普通版)(巴黎区域)
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅Hive管理员用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用Mapreduce
- 使用OpenTSDB
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
组件操作指南(LTS版)(巴黎区域)
-
使用CarbonData
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 创建HBase角色
- 使用HBase客户端
- 配置HBase备份
- 启用集群间拷贝功能
- 支持全文索引
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- HBase容灾业务切换
- 配置HBase数据压缩和编码
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS DiskBalancer
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- 多个NameService环境下,运行MapReduce任务失败
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
- 使用HetuEngine
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive对接外置RDS
- HiveMetaStore支持基于Redis的CacheStore
- Hive物化视图
- Hive支持读取Hudi表
- Hive支持分区元数据冷热存储
- Hive支持ZSTD压缩格式
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive配置类问题
- 使用Hudi
- 使用Hue
- 使用Kafka
-
使用Loader
- Loader常用参数
- 创建Loader角色
- 管理Loader连接
-
数据导入
- 概述
- 使用Loader导入数据
- 典型场景:从SFTP服务器导入数据到HDFS/OBS
- 典型场景:从SFTP服务器导入数据到HBase
- 典型场景:从SFTP服务器导入数据到Hive
- 典型场景:从SFTP服务器导入数据到Spark
- 典型场景:从FTP服务器导入数据到HBase
- 典型场景:从关系型数据库导入数据到HDFS/OBS
- 典型场景:从关系型数据库导入数据到HBase
- 典型场景:从关系型数据库导入数据到Hive
- 典型场景:从关系型数据库导入数据到Spark
- 典型场景:从HDFS/OBS导入数据到HBase
- 典型场景:从关系型数据库导入数据到ClickHouse
- 典型场景:从HDFS导入数据到ClickHouse
- 数据导出
- 作业管理
- 算子帮助
- 客户端工具说明
- Loader日志介绍
- Loader常见问题
-
使用Mapreduce
- Mapreduce如何从单实例转换为HA
- 配置日志归档和清理机制
- 降低客户端应用的失败率
- 将MR任务从Windows上提交到Linux上运行
- 配置使用分布式缓存
- 配置MapReduce shuffle address
- 配置集群管理员列表
- MapReduce日志介绍
- MapReduce性能调优
-
MapReduce常见问题
- ResourceManager进行主备切换后,任务中断后运行时间过长
- MapReduce任务长时间无进展
- 运行任务时,客户端不可用
- 在缓存中找不到HDFS_DELEGATION_TOKEN
- 如何在提交MapReduce任务时设置任务优先级
- MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
- MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
- 多个NameService环境下,运行MapReduce任务失败
- 基于分区的任务黑名单
- 使用Oozie
- 使用Ranger
-
使用Spark2x
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置是否显示包含敏感词的Spark SQL语句
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- Spark shuffle异常处理
-
Spark Core
-
基本操作
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- 队列替换策略
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
- API参考(巴黎区域)
-
用户指南(吉隆坡区域)
- 简介
- 入门
- 准备用户
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- 访问集群Manager
-
FusionInsight Manager操作指导(适用于3.x)
- 从这里开始
- 主页
- 集群
- 主机
- 运维
- 审计
- 租户资源
- 系统设置
- 集群管理
- 日志管理
- 备份恢复管理
- 安全管理
-
告警参考(适用于MRS 3.x版本)
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12110 获取ECS临时ak/sk失败
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-20002 Hue服务不可用
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙
- ALM-38010 存在单副本的Topic
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45736 Guardian服务不可用
- MRS Manager操作指导(适用于2.x及之前)
-
MRS集群组件操作指导
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Kudu
- 使用Loader
-
使用Mapreduce
- 配置日志归档和清理机制
- 降低客户端应用的失败率
- 将MR任务从Windows上提交到Linux上运行
- 配置使用分布式缓存
- 配置MapReduce shuffle address
- 配置集群管理员列表
- MapReduce日志介绍
- MapReduce性能调优
-
MapReduce常见问题
- ResourceManager进行主备切换后,任务中断后运行时间过长
- MapReduce任务长时间无进展
- 运行任务时,客户端不可用
- 在缓存中找不到HDFS_DELEGATION_TOKEN
- 如何在提交MapReduce任务时设置任务优先级
- MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
- MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
- 多个NameService环境下,运行MapReduce任务失败
- 基于分区的任务黑名单
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
- 安全性说明
- 高危操作一览表
-
常见问题
-
产品咨询类
- MRS可以做什么?
- MRS支持什么类型的分布式存储?
- 如何使用自定义安全组创建MRS集群?
- 如何使用MRS?
- 如何保证数据和业务运行安全?
- 如何配置Phoenix连接池?
- MRS是否支持更换网段?
- MRS服务集群节点是否执行降配操作?
- Hive与其他组件有什么关系?
- MRS集群是否支持Hive on Spark?
- Hive版本之间是否兼容?
- MRS集群哪个版本支持建立Hive连接且有用户同步功能?
- 数据存储在OBS和HDFS有什么区别?
- Hadoop压力测试工具如何获取?
- Impala与其他组件有什么关系?
- 关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
- Kudu和HBase间的关系?
- MRS是否支持Hive on Kudu?
- 10亿级数据量场景的解决方案
- 如何修改DBService的IP?
- MRS sudo log能否清理?
- MRS 2.1.0集群版本对Storm日志也有20G的限制么
- Spark ThriftServer是什么
- Kafka目前支持的访问协议类型
- zstd的压缩比怎么样
- 创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
- 创建MRS集群时,找不到ZooKeeper组件
- MRS 3.1.0集群版本,Spark任务支持python哪些版本?
- 如何让不同的业务程序分别用不同的Yarn队列?
- MRS管理控制台和集群Manager页面区别与联系
- MRS如何解绑EIP?
- 帐号密码类
- 帐号权限类
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- Spark运行作业报错:java.io.IOException: Connection reset by peer
- Spark作业访问OBS报错:requestId=4971883851071737250
- DataArts Studio调度spark作业,偶现失败,重跑失败
- Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- Flink作业提交时报错slot request timeout
- DistCP类型作业导入导出数据问题
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何使用Python远程连接HDFS的端口?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- 用户A如何查看用户B创建的Hive表?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- Hue下载excel无法打开
- Hue连接hiveserver,不释放session,报错over max user connections如何处理?
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常处理
- OpenTSDB是否支持python的接口?
- Presto如何配置其他数据源?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- 执行Spark任务报内存不足告警
- ClickHouse占用大量CPU,一直不下降
- ClickHouse如何开启Map类型?
- SparkSQL访问hive分区表大量调用OBS接口
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
产品咨询类
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 帐号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
- API参考(吉隆坡区域)
-
用户指南(安卡拉区域)
- 简介
- 准备用户
- 快速入门
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- 访问FusionInsight Manager
- FusionInsight Manager操作指导
-
告警参考
- ALM-12001 审计日志转储失败
- ALM-12004 Manager Oldap资源异常
- ALM-12005 Manager OKerberos资源异常
- ALM-12006 NodeAgent进程异常
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 操作系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 Manager tomcat资源异常
- ALM-12068 Manager acs资源异常
- ALM-12069 Manager aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12099 集群业务进程发生core dump
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12180 磁盘卡IO
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-33004 Containers服务BLU实例健康状态异常
- ALM-33005 Containers服务最大并发数超过阈值
- ALM-33006 Containers服务调用失败率超过阈值
- ALM-33007 Containers服务ALB TPS超过门限
- ALM-33008 Containers服务平均时延超过阈值
- ALM-33009 Containers服务堆内存使用率超过阈值
- ALM-33010 Containers服务非堆内存使用率超过阈值
- ALM-33011 Containers服务元空间使用率超过阈值
- ALM-33012 Containers服务ZooKeeper客户端连接丢失
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-41007 RTDService服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory进程GC时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer进程GC时间超出阈值
- ALM-43017 JDBCServer进程Full GC次数超出阈值
- ALM-43018 JobHistory进程Full GC次数超出阈值
- ALM-43019 IndexServer进程堆内存使用超出阈值
- ALM-43020 IndexServer进程非堆内存使用超出阈值
- ALM-43021 IndexServer进程直接内存使用超出阈值
- ALM-43022 IndexServer进程GC时间超出阈值
- ALM-43023 IndexServer进程Full GC次数超出阈值
- ALM-43200 Elasticsearch服务不可用
- ALM-43201 Elasticsearch堆内存使用率超过阈值
- ALM-43202 Elasticsearch服务存在yellow状态的索引
- ALM-43203 Elasticsearch服务存在red状态的索引
- ALM-43204 Elasticsearch实例进程垃圾回收(GC)时间超过阈值
- ALM-43205 Elasticsearch分片数据存储量超过阈值
- ALM-43206 Elasticsearch分片文档数超过阈值
- ALM-43207 Elasticsearch存在未设置副本的索引
- ALM-43208 Elasticsearch数据目录使用率超过阈值
- ALM-43209 Elasticsearch实例总分片数超过阈值
- ALM-43210 Elasticsearch集群总分片数超过阈值
- ALM-43600 GraphBase服务不可用
- ALM-43605 GraphBase节点实时请求数量超过阈值
- ALM-43607 GraphBase服务Nginx故障
- ALM-43608 GraphBase服务FloatIp故障
- ALM-43609 GraphBase服务TaskManager故障
- ALM-43610 GraphServer进程老年代GC时间超出阈值
- ALM-43611 GraphServer进程老年代GC次数超出阈值
- ALM-43612 GraphServer进程年轻代GC时间超出阈值
- ALM-43613 GraphServer进程年轻代GC次数超出阈值
- ALM-43614 GraphBase路径查询请求时间超出阈值
- ALM-43615 GraphBase扩线查询请求时间超出阈值
- ALM-43616 GraphBase相关Yarn作业异常
- ALM-43617 GraphBase实时导入等待队列超出阈值
- ALM-43618 GraphServer堆内存使用率超过阈值
- ALM-43619 GraphBase HA证书文件失效
- ALM-43620 GraphBase HA证书文件即将过期
- ALM-43621 GraphBase HA证书文件已过期
- ALM-43850 KMS服务不可用
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45191 获取ECS Metadata失败
- ALM-45192 获取IAM securitytoken失败
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 Flink作业task持续背压时间超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 Guardian TokenServer堆内存使用率超过阈值
- ALM-45738 Guardian TokenServer直接内存使用率超过阈值
- ALM-45739 Guardian TokenServer非堆内存使用率超过阈值
- ALM-45740 Guardian TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 Guardian请求ECS securitykey接口失败
- ALM-45742 Guardian请求ECS metadata接口失败
- ALM-45743 Guardian请求IAM接口失败
- ALM-46001 MOTService服务不可用
- ALM-46003 MOTService主备节点间心跳中断
- ALM-46004 MOTService主备数据不同步
- ALM-46005 MOTService数据库连接数使用率超过阈值
- ALM-46006 MOTService数据目录磁盘空间使用率超过阈值
- ALM-46007 MOTService数据库进入只读模式
- ALM-46008 MOTService的内存使用超过阈值
- ALM-46009 MOTService的CPU使用超过阈值
- ALM-46010 MOTService证书文件即将过期
- ALM-46011 MOTService证书文件已过期
- ALM-46012 MOTService服务Nginx状态异常
- ALM-47000 MemArtsCC实例不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例不可用
- ALM-50226 BE实例不可用
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50401 JobServer等待任务数量超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-51201 LakeSearch服务不可用
- ALM-51202 LakeSearch堆内存使用率超过阈值
- ALM-51203 LakeSearch实例进程垃圾回收(GC)时间超过阈值
- 安全性说明
- 高危操作一览表
- Jupyter Notebook采用自定义Python对接MRS
-
FAQ
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- MapReduce服务中的样例工程构建和应用开发有什么区别?是否支持python代码?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
故障排除
- Web页面访问类
- 集群管理类
- 使用ClickHouse
- 使用DBservice
- 使用Flink
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 使用Hue
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
-
组件操作指南(安卡拉区域)
-
使用CarbonData
- 概述
- CarbonData常用参数
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
- 使用ClickHouse
- 使用DBService
-
使用Doris
- 安装MySQL客户端
- 从零开始使用Doris
- 权限管理
- Doris多租户
- 访问Doris原生Web页面
- Doris数据模型介绍
- Doris冷热分离
- 数据操作
- Doris常用SQL语法
- 备份恢复Doris数据
- Hive数据源分析
- 生态扩展
-
Doris常见问题
- 数据目录SSD和HDD的配置导致建表时偶现报错Failed to find enough host with storage medium and tag
- 多副本场景下,如果有部分副本丢失损坏,查询时如果运行在副本丢失的Be节点,查询报错
- 使用Stream Load时报RPC超时错误
- FE服务故障恢复
- 使用MySQL客户端连接Doris数据库时报错“plugin not enabled”如何处理
- FE启动失败
- BE匹配错误IP导致启动失败
- MySQL客户端连接Doris报错“Read timed out”
- BE运行数据导入或查询任务报错
- Broker Load导入数据时报超时错误
- Broker Load导入任务的数据量超过阈值
- 使用Broker Load导入数据报错
- Spark Load导入数据时报错序列化异常
- Spark Load导入数据时报错获取不到appid
- Doris日志介绍
- 使用Flink
- 使用Flume
- 使用Guardian
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- GeoMesa命令行简介
- 使用HIndex
- 使用全局二级索引
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 开启HBase分时Compaction功能
- 使用二级索引
- HBase冷热分离
- 配置HBase表级别过载控制
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会发生“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HBase如何关闭HDFS多路读功能
- 使用HetuEngine
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置HDFS DataNode数据均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并发生异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅Hive管理员用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持MetaStore根据组件隔离
- 切换Hive执行引擎为Tez
- Hive支持读取Hudi表
- Hive支持分区元数据冷热存储
- Hive支持ZSTD压缩格式
- Hive异常文件定位定界工具
- 使用ZSTD_JNI压缩算法压缩Hive ORC表
- HiveMetaStore客户端连接支持负载均衡
- Hive数据导入导出
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- Hive客户端设置hive.exec.stagingdir异常
- 使用Hudi
- 使用IoTDB
- 使用JobGateway
-
使用Kafka
- 从零开始使用Kafka
- 管理Kafka主题
- 查看Kafka主题
- 管理Kafka用户权限
- 管理Kafka主题中的消息
- 基于binlog的MySQL数据同步到MRS集群中
- 创建Kafka角色
- Kafka常用参数
- Kafka安全使用说明
- Kafka业务规格说明
- 使用Kafka客户端
- 配置Kafka高可用和高可靠参数
- 更改Broker的存储目录
- 查看Consumer Group消费情况
- Kafka均衡工具使用说明
- Kafka Token认证机制工具使用说明
- Kafka加解密特性使用说明
- 使用KafkaUI
- Kafka日志介绍
- 性能调优
- Kafka 特性说明
- Kafka节点内数据迁移
- Kafka常见问题
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
- 使用Oozie
-
使用Ranger
- 登录Ranger管理界面
- 启用Ranger鉴权
- 配置组件权限策略
- 查看Ranger审计信息
- 配置Ranger安全区
- 普通集群修改Ranger数据源为Ldap
- 查看Ranger权限信息
- 添加CDL的Ranger访问权限策略
- 添加HDFS的Ranger访问权限策略
- 添加HBase的Ranger访问权限策略
- 添加Hive的Ranger访问权限策略
- 添加Yarn的Ranger访问权限策略
- 添加Spark的Ranger访问权限策略
- 添加Kafka的Ranger访问权限策略
- 添加HetuEngine的Ranger访问权限策略
- 添加Storm的Ranger访问权限策略
- 添加Elasticsearch的Ranger访问权限策略
- 添加OBS的Ranger访问权限策略
- Hive表支持级联授权功能
- 配置RangerKMS多实例
- 使用RangerKMS原生UI管理权限及密钥
- Ranger日志介绍
- Ranger常见问题
-
使用Spark
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 配置Spark Native引擎
- 配置小文件自动合并
- 使用Ranger时适配第三方JDK
- Spark日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark性能调优
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark使用Ranger场景常见问题
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark原生UI界面失败,无法显示此页或者页面显示错误
- Spark如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
基本操作
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
- API参考(安卡拉区域)
-
用户指南(阿布扎比区域)
- 通用参考
文档首页/
MapReduce服务 MRS/
用户指南(巴黎区域)/
故障排除/
使用Hive/
beeline报Failed to execute session hooks: over max connections错误
链接复制成功!
beeline报Failed to execute session hooks: over max connections错误
问题背景与现象
HiveServer连接的最大连接数默认为200,当超过200时,beeline会报Failed to execute session hooks: over max connections
beeline> [root@172-27-16-38 c70client]# beeline Connecting to jdbc:hive2://129.188.82.38:24002,129.188.82.36:24002,129.188.82.35:24002/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2;sasl.qop=auth-conf;auth=KERBEROS;principal=hive/hadoop.hadoop.com@HADOOP.COM Debug is true storeKey false useTicketCache true useKeyTab false doNotPrompt false ticketCache is null isInitiator true KeyTab is null refreshKrb5Config is false principal is null tryFirstPass is false useFirstPass is false storePass is false clearPass is false Acquire TGT from Cache Principal is xxx@HADOOP.COM Commit Succeeded Error: Failed to execute session hooks: over max connections. (state=,code=0) Beeline version 1.2.1 by Apache Hive
查看hiveserver日志(/var/log/Bigdata/hive/hiveserver/hive.log)报over max connections错误
2018-05-03 04:31:56,728 | WARN | HiveServer2-Handler-Pool: Thread-137 | Error opening session: | org.apache.hive.service.cli.thrift.ThriftCLIService.OpenSession(ThriftCLIService.java:542) org.apache.hive.service.cli.HiveSQLException: Failed to execute session hooks: over max connections. at org.apache.hive.service.cli.session.SessionManager.openSession(SessionManager.java:322) at org.apache.hive.service.cli.CLIService.openSessionWithImpersonation(CLIService.java:189) at org.apache.hive.service.cli.thrift.ThriftCLIService.getSessionHandle(ThriftCLIService.java:663) at org.apache.hive.service.cli.thrift.ThriftCLIService.OpenSession(ThriftCLIService.java:527) at org.apache.hive.service.cli.thrift.TCLIService$Processor$OpenSession.getResult(TCLIService.java:1257) at org.apache.hive.service.cli.thrift.TCLIService$Processor$OpenSession.getResult(TCLIService.java:1242) at org.apache.thrift.ProcessFunction.process(ProcessFunction.java:39) at org.apache.thrift.TBaseProcessor.process(TBaseProcessor.java:39) at org.apache.hadoop.hive.thrift.HadoopThriftAuthBridge$Server$TUGIAssumingProcessor.process(HadoopThriftAuthBridge.java:710) at org.apache.thrift.server.TThreadPoolServer$WorkerProcess.run(TThreadPoolServer.java:286) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745) Caused by: org.apache.hive.service.cli.HiveSQLException: over max connections. at org.apache.hadoop.hive.transporthook.SessionControllerTsaslTransportHook.checkTotalSessionNumber(SessionControllerTsaslTransportHook.java:208) at org.apache.hadoop.hive.transporthook.SessionControllerTsaslTransportHook.postOpen(SessionControllerTsaslTransportHook.java:163) at org.apache.hadoop.hive.transporthook.SessionControllerTsaslTransportHook.run(SessionControllerTsaslTransportHook.java:134) at org.apache.hive.service.cli.session.SessionManager.executeSessionHooks(SessionManager.java:432) at org.apache.hive.service.cli.session.SessionManager.openSession(SessionManager.java:314) ... 12 more
原因分析
业务量大导致连接HiveServer单个节点最大连接数超过了200,需要调大连接HiveServer实例的最大连接数。
解决办法
- 进入Hive服务配置页面:
- MRS 2.0.1之前版本,登录MRS Manager,选择“服务管理 > Hive > 服务配置”,单击“基础配置”下拉菜单,选择“全部配置”。
- MRS 2.0.1及之后版本,在MRS控制台单击集群名称,选择“组件管理 > Hive > 服务配置”,单击“基础配置”下拉菜单,选择“全部配置”。
说明:
若集群详情页面没有“组件管理”页签,请先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
- MRS 3.x及后续版本,登录FusionInsight Manager,然后选择“集群 > 待操作的集群名称 > 服务 > Hive > 配置 > 全部配置”。
- 搜索hive.server.session.control.maxconnections配置项,并修改hive.server.session.control.maxconnections配置的值到合适值,不能超过1000。
- 保存配置并重启受影响的服务或者实例。
父主题: 使用Hive