- 最新动态
- 功能总览
- 服务公告
-
产品介绍
- 图解MapReduce服务
- 什么是MapReduce服务
- 产品优势
- 应用场景
- MRS集群版本说明
- MRS组件版本一览表
- 组件介绍
- 产品功能
- 安全
- 约束与限制
- 技术支持
- 计费说明
- 权限管理
- 与其他云服务的关系
- 配额说明
- 常见概念
- 发行版本
- 计费说明
- 快速入门
-
用户指南
- 准备工作
- MRS集群规划
- 购买MRS集群
- 安装MRS集群客户端
- 提交MRS作业
- 管理MRS集群
-
MRS集群运维
- MRS集群运维说明
- 登录MRS集群
- 查看MRS集群监控指标
- MRS集群健康检查
- MRS集群容量调整
- 备份恢复MRS集群数据
- 安装MRS集群补丁
-
MRS集群补丁说明
- MRS 3.0.5.1补丁说明
- MRS 2.1.0.11补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.1补丁说明
- MRS 1.9.3.3补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.2.2补丁说明
- MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.8.10.1补丁说明
- 查看MRS集群日志
- MRS集群安全配置
- 查看与配置MRS告警事件
-
MRS集群告警处理参考
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态和Z状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12091 disaster资源异常
- ALM-12099 发生core dump
- ALM-12100 AD服务器连接异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12103 executor资源异常
- ALM-12104 knox资源异常
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12172 指标上报CES失败
- ALM-12180 磁盘卡IO
- ALM-12186 用户CGroup任务数使用率超过阈值
- ALM-12187 磁盘分区扩容失败
- ALM-12188 diskmgt磁盘监控服务不可用
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-12207 慢盘处理超时
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-14036 NameNode进入安全模式
- ALM-14037 存在集群外的DataNode
- ALM-14038 Router堆内存使用率超过阈值
- ALM-14039 集群内存在慢DataNode
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
- ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-18027 JobHistoryServer进程状态异常
- ALM-18028 TimeLineServer进程状态异常
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19021 RegionSever handler 使用率超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-19036 HBase关键目录数据存在坏块
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25007 SlapdServer连接数超过阈值
- ALM-25008 SlapdServer CPU使用率超过阈值
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29010 Impalad 正在提交的查询总数超过阈值
- ALM-29011 Impalad 正在执行的查询总数超过阈值
- ALM-29012 Impalad 正在等待的查询总数超过阈值
- ALM-29013 Impalad FGCT超过阈值
- ALM-29014 Catalog FGCT超过阈值
- ALM-29015 Catalog进程内存占用率超过阈值
- ALM-29016 Impalad实例亚健康
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
- ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-38012 Broker的分区数量超过阈值
- ALM-38013 Produce请求在请求队列的时延超过阈值
- ALM-38014 Produce请求总体时延超过阈值
- ALM-38015 Fetch请求在请求队列的时延超过阈值
- ALM-38016 Fetch请求总体时延超过阈值
- ALM-38017 分区均衡时间超过阈值
- ALM-38018 Kafka消息积压
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-43028 JDBCServer Session过载
- ALM-43029 JDBCServer作业提交超时
- ALM-44000 Presto服务不可用
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45008 HetuEngine计算实例查询时延超过阈值
- ALM-45009 HetuEngine计算实例任务失败率超过阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45179 OBS readFully接口调用失败数高于阈值
- ALM-45180 OBS read接口调用失败数高于阈值
- ALM-45181 OBS write接口调用失败数高于阈值
- ALM-45182 OBS操作被流控次数高于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45294 RangerKMS进程状态异常
- ALM-45325 Presto服务不可用
- ALM-45326 Presto Coordinator线程数超过阈值
- ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-45328 Presto Worker进程垃圾收集时间超出阈值
- ALM-45329 Presto Coordinator资源组排队任务超过阈值
- ALM-45330 Presto Worker线程数超过阈值
- ALM-45331 Presto Worker1线程数超过阈值
- ALM-45332 Presto Worker2线程数超过阈值
- ALM-45333 Presto Worker3线程数超过阈值
- ALM-45334 Presto Worker4线程数超过阈值
- ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
- ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
- ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
- ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45431 ClickHouse 实例不满足拓扑分配
- ALM-45432 ClickHouse用户同步进程故障
- ALM-45433 ClickHouse AZ拓扑检查异常
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45435 ClickHouse表元数据不一致
- ALM-45436 ClickHouse表数据倾斜
- ALM-45437 ClickHouse表part数量过多
- ALM-45438 ClickHouse磁盘使用率超过80%
- ALM-45439 ClickHouse节点进入只读模式
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45447 ClickHouse表只读
- ALM-45448 ClickHouse使用Znode数量增长速率过快
- ALM-45449 ClickHouse使用zxid即将翻转
- ALM-45450 ClickHouse获取临时委托凭据失败
- ALM-45451 ClickHouse访问OBS失败
- ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 FlinkServer作业task持续背压
- ALM-45638 FlinkServer作业失败重启次数超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 TokenServer堆内存使用率超过阈值
- ALM-45738 TokenServer直接内存使用率超过阈值
- ALM-45739 TokenServer非堆内存使用率超过阈值
- ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 请求ECS securitykey接口失败
- ALM-45742 请求ECS metadata接口失败
- ALM-45743 请求IAM接口失败
- ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
- ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
- ALM-47001 MemArtsCC服务不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-47003 MemArtsCC Worker进程内存使用超过阈值
- ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例故障
- ALM-50226 BE实例故障
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50231 Doris中存在异常Tablet
- ALM-50232 Doris中存在较大的Tablet
- ALM-50401 JobServer中等待执行的任务数超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-50406 JobServer提交作业接口失败率超过阈值
- ALM-50407 JobServer查询作业接口失败率超过阈值
- ALM-50408 JobServer终止作业接口失败率超过阈值
- ALM-12001 审计日志转储失败(2.x及以前版本)
- ALM-12002 HA资源异常(2.x及以前版本)
- ALM-12004 OLdap资源异常(2.x及以前版本)
- ALM-12005 OKerberos资源异常(2.x及以前版本)
- ALM-12006 节点故障(2.x及以前版本)
- ALM-12007 进程故障(2.x及以前版本)
- ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
- ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
- ALM-12012 NTP服务异常(2.x及以前版本)
- ALM-12014 设备分区丢失(2.x及以前版本)
- ALM-12015 设备分区文件系统只读(2.x及以前版本)
- ALM-12016 CPU使用率超过阈值(2.x及以前版本)
- ALM-12017 磁盘容量不足(2.x及以前版本)
- ALM-12018 内存使用率超过阈值(2.x及以前版本)
- ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
- ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
- ALM-12031 omm用户或密码即将过期(2.x及以前版本)
- ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
- ALM-12033 慢盘故障(2.x及以前版本)
- ALM-12034 周期备份任务失败(2.x及以前版本)
- ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
- ALM-12037 NTP服务器异常(2.x及以前版本)
- ALM-12038 监控指标转储失败(2.x及以前版本)
- ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
- ALM-12040 系统熵值不足(2.x及以前版本)
- ALM-12041关键文件权限异常(2.x及以前版本)
- ALM-12042 关键文件配置异常(2.x及以前版本)
- ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
- ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
- ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
- ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
- ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
- ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
- ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
- ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
- ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
- ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
- ALM-12054 证书文件失效(2.x及以前版本)
- ALM-12055 证书文件即将过期(2.x及以前版本)
- ALM-12180 磁盘卡IO(2.x及以前版本)
- ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
- ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
- ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
- ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
- ALM-14000 HDFS服务不可用(2.x及以前版本)
- ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
- ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
- ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
- ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
- ALM-14010 NameService服务异常(2.x及以前版本)
- ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
- ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
- ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
- ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
- ALM-16004 Hive服务不可用(2.x及以前版本)
- ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
- ALM-18000 Yarn服务不可用(2.x及以前版本)
- ALM-18002 NodeManager心跳丢失(2.x及以前版本)
- ALM-18003 NodeManager不健康(2.x及以前版本)
- ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
- ALM-18006 执行MapReduce任务超时(2.x及以前版本)
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
- ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
- ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
- ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
- ALM-19000 HBase服务不可用(2.x及以前版本)
- ALM-19006 HBase容灾同步失败(2.x及以前版本)
- ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
- ALM-20002 Hue服务不可用(2.x及以前版本)
- ALM-23001 Loader服务不可用(2.x及以前版本)
- ALM-24000 Flume服务不可用(2.x及以前版本)
- ALM-24001 Flume Agent异常(2.x及以前版本)
- ALM-24003 Flume Client连接中断(2.x及以前版本)
- ALM-24004 Flume读取数据异常(2.x及以前版本)
- ALM-24005 Flume传输数据异常(2.x及以前版本)
- ALM-25000 LdapServer服务不可用(2.x及以前版本)
- ALM-25004 LdapServer数据同步异常(2.x及以前版本)
- ALM-25500 KrbServer服务不可用(2.x及以前版本)
- ALM-26051 Storm服务不可用(2.x及以前版本)
- ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
- ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
- ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
- ALM-27001 DBService服务不可用(2.x及以前版本)
- ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
- ALM-27004 DBService主备数据不同步(2.x及以前版本)
- ALM-28001 Spark服务不可用(2.x及以前版本)
- ALM-38000 Kafka服务不可用(2.x及以前版本)
- ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
- ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
- ALM-43001 Spark服务不可用(2.x及以前版本)
- ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
- ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
- ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-45325 Presto服务不可用(2.x及以前版本)
- 配置MRS集群远程运维
- MRS集群服务常用端口列表
- 配置MRS集群存算分离
-
组件操作指南(LTS版)
-
使用CarbonData
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
-
CarbonData语法参考
- CREATE TABLE
- CREATE TABLE As SELECT
- DROP TABLE
- SHOW TABLES
- ALTER TABLE COMPACTION
- TABLE RENAME
- ADD COLUMNS
- DROP COLUMNS
- CHANGE DATA TYPE
- REFRESH TABLE
- REGISTER INDEX TABLE
- LOAD DATA
- UPDATE CARBON TABLE
- DELETE RECORDS from CARBON TABLE
- INSERT INTO CARBON TABLE
- DELETE SEGMENT by ID
- DELETE SEGMENT by DATE
- SHOW SEGMENTS
- CREATE SECONDARY INDEX
- SHOW SECONDARY INDEXES
- DROP SECONDARY INDEX
- CLEAN FILES
- SET/RESET
- CarbonData表操作并发语法说明
- CarbonData Segment API语法说明
- CarbonData表空间索引语法说明
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
- CarbonData故障排除
- 使用CDL
-
使用ClickHouse
- ClickHouse概述
- ClickHouse用户权限管理
- ClickHouse客户端使用实践
- ClickHouse数据导入
- ClickHouse企业级能力增强
- ClickHouse性能调优
- ClickHouse运维管理
- ClickHouse常用SQL语法
- ClickHouse常见问题
- 使用DBService
- 使用Doris
-
使用Flink
- Flink作业引擎概述
- Flink用户权限管理
- Flink客户端使用实践
- 创建FlinkServer作业前准备
- 创建FlinkServer作业
- 管理FlinkServer作业
-
Flink企业级能力增强
- Flink SQL语法增强
- 多流Join场景支持配置表级别的TTL时间
- 配置Flink SQL Client支持SQL校验功能
- Flink作业大小表Join能力增强
- FlinkSQL OVER窗口支持超期退窗
- FlinkSQL Kafka和upsert-kafka Connector支持限流读
- FlinkSQL Kafka Connector支持消费drs-json格式数据
- FlinkSQL写入JDBC数据支持ignoreDelete
- Join-To-Live
- FlinkSQL行级过滤
- FlinkSQL算子并行度
- FlinkSQL JSON_VALUE函数性能优化
- FlinkSQL Lookup算子复用
- FlinkSQL Function增强
- FlinkSQL支持MultiJoin算子
- Flink运维管理
- Flink性能调优
- Flink客户端常见命令说明
- Flink常见SQL语法说明
- Flink常见问题
- Flink故障排除
- 使用Flume
- 使用Guardian
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序,导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件,提示权限不足
- HBase全局二级索引API介绍说明
- HBase如何关闭HDFS多路读功能
-
HBase故障排除
- HBase客户端连接服务端时长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果
- HBase恢复数据任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HDFS进入安全模式导致HBase服务异常,退出安全模式后HBase如何快速恢复
- 使用HDFS
-
使用HetuEngine
- HetuEngine交互查询引擎概述
- HetuEngine用户权限管理
- 快速使用HetuEngine访问Hive数据源
- 创建HetuEngine计算实例
- 添加HetuEngine数据源
- 配置HetuEngine物化视图
- 配置HetuEngine SQL诊断功能
- 开发和部署HetuEngine UDF
- 管理HetuEngine数据源
- 管理HetuEngine计算实例
- HetuEngine性能调优
- HetuEngine日志介绍
-
HetuEngine常见SQL语法说明
- HetuEngine数据类型说明
-
HetuEngine DDL SQL语法说明
- CREATE SCHEMA
- CREATE VIRTUAL SCHEMA
- CREATE TABLE
- CREATE TABLE AS
- CREATE TABLE LIKE
- CREATE VIEW
- CREATE FUNCTION
- CREATE MATERIALIZED VIEW
- ALTER MATERIALIZED VIEW STATUS
- ALTER MATERIALIZED VIEW
- ALTER TABLE
- ALTER VIEW
- ALTER SCHEMA
- DROP SCHEMA
- DROP TABLE
- DROP VIEW
- DROP FUNCTION
- DROP MATERIALIZED VIEW
- REFRESH MATERIALIZED VIEW
- TRUNCATE TABLE
- COMMENT
- VALUES
- SHOW语法使用概要
- SHOW CATALOGS
- SHOW SCHEMAS(DATABASES)
- SHOW TABLES
- SHOW TBLPROPERTIES TABLE|VIEW
- SHOW TABLE/PARTITION EXTENDED
- SHOW STATS
- SHOW FUNCTIONS
- SHOW SESSION
- SHOW PARTITIONS
- SHOW COLUMNS
- SHOW CREATE TABLE
- SHOW VIEWS
- SHOW CREATE VIEW
- SHOW MATERIALIZED VIEWS
- SHOW CREATE MATERIALIZED VIEW
- HetuEngine DML SQL语法说明
- HetuEngine TCL SQL语法说明
- HetuEngine DQL SQL语法说明
- HetuEngine SQL函数和操作符说明
- HetuEngine辅助命令语法
- HetuEngine预留关键字
- HetuEngine数据类型隐式转换
- HetuEngine样例表数据准备
- HetuEngine常用数据源语法兼容性说明
- HetuEngine常见问题
- HetuEngine故障排除
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库
- 配置Hive读取Hudi表
-
Hive企业级能力增强
- 配置Hive表不同分区分别存储至OBS和HDFS
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- 配置Hive自读自写SQL防御规则
- 配置Hive动态脱敏
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
-
使用Hudi
- Hudi表概述
- 使用Spark Shell创建Hudi表
- 使用spark-sql操作Hudi表
- 使用Hudi-Cli.sh操作Hudi表
- Hudi写操作
- Hudi读操作
- Hudi数据管理维护
- Hudi SQL语法参考
- Hudi Schema演进
- 配置Hudi数据列默认值
- Hudi支持Partial Update
- Hudi支持聚合函数
- Hudi常见配置参数
- Hudi性能调优
-
Hudi常见问题
- 写入更新数据时报错Parquet/Avro schema
- 写入更新数据时报错UnsupportedOperationException
- 写入更新数据时报错SchemaCompatabilityException
- Hudi在upsert时占用了临时文件夹中大量空间
- Hudi写入小精度Decimal数据失败
- 使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
- 使用kafka采集数据时报错IllegalArgumentException
- Hive同步数据报错SQLException
- Hive同步数据报错HoodieHiveSyncException
- Hive同步数据报错SemanticException
- 使用Hue
- 使用Impala
- 使用IoTDB
- 使用JobGateway
- 使用Kafka
- 使用Kudu
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- Oozie企业级能力增强
- Oozie日志介绍
- Oozie常见问题
- 使用Ranger
-
使用Spark/Spark2x
- Spark使用说明
- Spark用户权限管理
- Spark客户端使用实践
- 访问Spark WebUI界面
- 使用代理用户提交Spark作业
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark on OBS性能调优
- Spark运维管理
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
Spark故障排除
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- 使用Sqoop
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- 配置TimelineServer支持HA
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
-
组件操作指南(普通版)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删后为什么Carbon表没有执行drop命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 租户使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件提示权限不足
-
HBase故障排除
- HBase客户端连接服务端时,长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果
- HBase数据恢复任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 使用HDFS
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库数据
-
Hive企业级能力增强
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问Beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用MapReduce
- 使用OpenTSDB
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- 开启Oozie HA机制
- Oozie日志介绍
- Oozie常见问题
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark(MRS 3.x之前版本)
-
使用Spark2x(MRS 3.x及之后版本)
- Spark用户权限管理
- Spark客户端使用实践
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark运维管理
-
Spark2x常见问题
-
Spark Core
- 日志聚合下如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- 在ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 常见操作
- 最佳实践
-
开发指南
-
开发指南(LTS版)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS组件应用安全认证说明
- 准备MRS应用开发用户
- 快速开发MRS组件应用
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- HetuEngine开发指南(安全模式)
- HetuEngine开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- IoTDB开发指南(安全模式)
- IoTDB开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
- Manager管理开发指南
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
-
开发指南(普通版_3.x)
- MRS应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
- MRS应用开发安全认证说明
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- Impala开发指南(安全模式)
- Impala开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- Kudu开发指南(安全模式)
- Kudu开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- Storm开发指南(安全模式)
- Storm开发指南(普通模式)
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
-
开发指南(普通版_2.x及之前)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- Alluxio开发指南
-
Flink开发指南
- Flink应用开发概述
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink Savepoints CLI介绍
- Flink Client CLI介绍
- Flink应用性能调优建议
- Savepoints相关问题解决方案
- 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
- 如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
- 为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
- 为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
- 为什么Flink Web页面无法直接连接?
- HBase开发指南
- HDFS开发指南
- Hive开发指南
- Impala开发指南
- Kafka开发指南
- MapReduce开发指南
- OpenTSDB开发指南
- Presto开发指南
-
Spark开发指南
- Spark应用开发概述
- 准备Spark应用开发环境
- 开发Spark应用
- 调测Spark应用
-
Spark应用开发常见问题
- Spark接口介绍
- Spark应用调优
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 本地运行Spark程序连接MRS集群的Hive、HDFS
- Storm开发指南
-
组件开发规范
- ClickHouse应用开发规范
- Doris应用开发规范
- Flink应用开发规范
- HBase应用开发规范
- HDFS应用开发规范
- Hive应用开发规范
- Hudi应用开发规范
- Impala应用开发规范
- IoTDB应用开发规范
- Kafka应用开发规范
- Mapreduce应用开发规范
- Spark应用开发规范
-
开发指南(LTS版)
- API参考
- SDK参考
-
常见问题
- 产品咨询类
- 计费类
- 集群创建类
- Web页面访问类
- 用户认证及权限类
- 客户端使用类
-
组件配置类
- MRS是否支持Hive on Kudu?
- MRS集群是否支持Hive on Spark?
- 如何修改DBService的IP地址?
- Kafka支持的访问协议类型有哪些?
- MRS集群中Spark任务支持哪些Python版本?
- MRS 2.1.0版本集群对Storm日志的大小有什么限制?
- 如何修改现有集群的HDFS fs.defaultFS?
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错如何处理?
- Hue连接HiveServer报错“over max user connections”如何处理?
- 如何查看MRS Hive元数据?
- 如何重置MRS Kafka数据?
- 消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常如何处理?
- Presto如何配置其他数据源?
- MRS 1.9.3 Ranger证书如何更新?
- MRS的Storm集群提交任务时如何指定日志路径?
- 如何检查Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- ClickHouse系统表日志过大时如何添加定期删除策略?
- 如何修改ClickHouse服务时区?
-
集群管理类
- 如何查看所有MRS集群?
- 如何查看MRS服务的操作日志信息?
- 如何查看MRS集群配置信息?
- 如何在MRS集群中手动添加组件?
- 如何取消MRS集群风险告警的消息通知?
- 为什么MRS集群显示的资源池内存小于实际集群内存?
- MRS集群安装的Python版本是多少?
- 如何上传本地文件到集群内节点?
- MRS集群节点时间信息不正确如何处理?
- MRS管理控制台和集群Manager页面功能区别有哪些?
- MRS集群如何解绑已绑定至Manager的EIP?
- 如何关闭MRS集群内节点的防火墙服务?
- MRS集群内节点的登录方式如何切换?
- 如何通过集群外的节点访问MRS集群?
- MRS集群中Kafka Topic监控是否支持发送告警?
- 产生Yarn队列资源不足告警时正在运行的资源队列如何查看?
- HBase操作请求次数指标中的多级图表统计如何理解?
- 节点管理类
- 组件管理类
-
作业管理类
- MRS集群支持提交哪些形式的Spark作业?
- MRS节点访问OBS报错408如何处理?
- 如何让不同的业务程序分别用不同的Yarn队列?
- 提交作业失败,报错与OBS相关如何处理?
- MRS集群租户资源最小值为0时只能同时运行一个任务吗?
- 作业提交参数间用空格隔开导致参数信息不被识别如何处理?
- Spark作业的Client模式和Cluster模式有什么区别?
- 如何查看MRS作业的日志?
- 提交作业时系统提示当前用户在Manager不存在如何处理?
- LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
- 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
- SparkStreaming作业运行后报OBS访问403如何处理?
- Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
- Spark作业访问OBS报错“requestId=XXX”如何处理?
- Spark作业报错“UnknownScannerExeception”如何处理?
- DataArts Studio调度Spark作业偶现失败如何处理?
- 运行Flink任务报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
- 提交的Yarn作业在界面上查看不到如何处理?
- 提交Flink任务时launcher-job被Yarn终止如何处理?
- 提交Flink作业时报错slot request timeout如何处理?
- DistCP作业导入导出数据常见问题
- 如何通过Yarn WebUI查看Hive作业对应的SQL语句?
- 如何查看指定Yarn任务的日志?
- 添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
- Spark Job对应的运行日志保存在哪里?
- 执行Spark任务报内存不足告警如何处理?
- 修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
- SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
- MRS集群用户绑定多个队列时系统如何选择队列?
- 性能优化类
- 应用开发类
-
周边生态对接类
- MRS是否支持对DLI服务的业务表进行读写操作?
- OBS是否支持ListObjectsV2协议?
- MRS集群内的节点中可以部署爬虫服务吗?
- MRS服务是否支持安全删除的能力?
- 如何使用PySpark连接MRS Spark?
- HBase同步数据到CSS为什么没有映射字段?
- MRS集群是否支持对接外部KDC?
- 开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
- MRS导出数据到OBS加密桶失败如何处理?
- MRS服务如何对接云日志服务?
- MRS集群的节点如何安装主机安全服务?
- 如何通过happybase连接到MRS服务的HBase?
- Hive Driver是否支持对接dbcp2?
- 升级补丁类
-
故障排除
- 账号密码类
- 账号权限类
-
Web页面访问类
- 无法访问MRS集群Manager页面如何处理?
-
登录集群Manager常见异常问题
- 访问MRS Manager页面报错“502 Bad Gateway”
- 访问Manager页面报错“请求VPC错误”
- 通过专线访问Manager页面方式出现503报错
- 登录Manager集群页面时报错“You have no right to access the page”
- 登录Manager时界面报错“认证信息无效”
- Manager界面超时退出后无法正常登录
- 升级Python后无法登录Manager页面
- 修改集群域名后无法登录Manager页面
- 登录Manager界面后页面空白无内容
- 集群节点内安装了原生Kerberos导致登录集群失败
- macOS使用浏览器访问MRS Manager
- Manager界面登录用户被锁如何解锁
- Manager页面加载卡顿
-
访问MRS组件Web UI界面常见异常问题
- 使用admin用户访问组件的WebUI界面报错或部分功能不可用
- 访问组件WebUI页面报500异常
- 【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
- 【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
- 【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
- 【Hue WebUI】登录Hue WebUI报错无权限
- 【Hue WebUI】Hue WebUI页面无法访问
- 【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
- 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
- 【Hue WedUI】Hue(主)无法打开web网页
- 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
- 【Tez WebUI】访问Tez WebUI界面报错404
- 【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
- 【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
- 【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
- 【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
- 【Yarn WebUI】无法访问Yarn WebUI
- API使用类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份任务执行失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除网络ACL的关联子网
- 修改节点主机名后导致MRS集群状态异常
- 进程被终止如何定位原因
- MRS配置跨集群互信失败
- MRS集群节点使用pip3安装Python时提示网络不可达
- 开源confluent-kafka-go连接MRS安全集群
- MRS集群周期备份任务执行失败
- MRS集群客户端无法下载
- 开启Kerberos认证的MRS集群提交Flink作业报错
- 通过Hive beeline命令行执行插入命令的时候报错
- MRS集群节点如何进行操作系统漏洞升级
- 使用CDM服务迁移数据至MRS HDFS时任务运行失败
- MRS集群频繁产生节点间心跳中断告警
- PMS进程占用内存高
- Knox进程占用内存高
- 安全集群外的客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- HDFS日志文件过大导致OS盘空间不足
- MRS集群节点规格升级异常
- Manager页面新建的租户删除失败
- MRS集群切换VPC后集群状态异常不可用
- MRS管理控制台上提交作业异常处理
- 生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
- MRS集群Core节点扩容成功后部分实例启动失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
- Flink客户端执行命令报错“Could not connect to the leading JobManager”
- 使用不同用户执行yarn-session创建Flink集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别不生效
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示“FileNotFoundException”
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
- 集群扩容之后新节点HRegionServer启动失败
- HBase文件丢失导致Region状态长时间为RIT
-
使用HDFS
- 修改RPC端口后HDFS NameNode实例都变为备状态
- 通过公网IP连接使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量达到100%导致上层服务HBase、Spark等不可用
- 启动HDFS和Yarn服务报错“Permission denied”
- HDFS用户可在其他用户目录下创建或删除文件
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS NameNode启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%导致节点丢失
- 单NameNode长期故障时如何使用客户端手动checkpoint
- HDFS文件读写时报错“Failed to place enough replicas”
- 文件最大打开句柄数设置太小导致读写文件异常
- HDFS客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后上传数据,block大小未改变
- 读取HDFS文件失败,报错“FileNotFoundException”
- HDFS写文件失败,报错“item limit of xxx is exceeded”
- 调整HDFS SHDFShell客户端日志级别
- HDFS读文件失败报错“No common protection layer”
- HDFS目录配额不足导致写文件失败
- 执行balance失败报错“Source and target differ in block-size”
- 查询或者删除HDFS文件失败
- 非HDFS数据残留导致数据分布不均衡
- HDFS客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
- 集群外节点安装客户端上传HDFS文件失败
- HDFS写并发较大时报副本不足
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
- NameNode节点存在ALM-12027主机PID使用率超过阈值告警
- 集群出现ALM-14012 Journalnode数据不同步告警
- 由于HDFS块丢失导致DataNode退服失败
- 使用distcp命令拷贝空文件夹报错
-
使用Hive
- Hive常见日志说明
- Hive服务启动失败
- 安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
- 提交Hive任务时如何指定队列?
- 怎么通过客户端设置Map/Reduce内存?
- 如何在导入Hive表时指定输出的文件压缩格式?
- Hive表desc描述过长导致无法完整显示
- Hive表中增加分区列后再插入数据显示为NULL
- 集群中创建的新用户执行查询Hive操作时无权限
- 执行SQL提交任务到指定队列时报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table命令报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin命令报无权限
- 在beeline客户端创建UDF时报错
- Hive服务状态为故障如何处理
- Hive服务健康状态和Hive实例健康状态的区别
- Shell客户端连接提示“authentication failed”
- 客户端提示访问ZooKeeper失败
- 使用UDF函数时提示“Invalid function”
- Hive服务状态为Unknown
- HiveServer或者MetaStore实例的健康状态为unknown
- HiveServer或者MetaStore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时查询结果乱码
- Hive任务运行过程中失败,重试成功
- 执行select语句时报错“Execution Error return code 2”
- 有大量分区时执行drop partition操作失败
- 执行join操作时localtask启动失败
- 修改hostname后导致WebHCat启动失败
- 集群修改域名后Hive样例程序运行报错
- DBService超过最大连接数后导致Hive MetaStore异常
- beeline客户端报错“Failed to execute session hooks: over max connections”
- beeline客户端报错“OutOfMemoryError”
- 输入文件数超出设置限制导致任务执行失败
- Hive任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- 参考Hive JDBC代码用例开发的业务应用运行失败
- HiveServer和HiveHCat进程故障
- MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
- Hive执行insert into语句报错
- 增加Hive表字段超时
- 重启Hive服务失败
- Hive分区数过多导致删除表失败
- Hive执行msck repair table命令时报错
- Hive执行insert into命令报用户权限不足
- 在Hive中drop表后如何完全释放磁盘空间
- JSON表中有破损数据导致Hive查询异常
- Hive客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- MetaStore动态分区数超出阈值导致SQL报错
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka客户端获取Topic时报错
- 安全集群中使用Python3.x对接Kafka
- Flume正常连接Kafka后发送消息失败
- Producer发送数据失败,报错“NullPointerException”
- Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
- Producer偶现发送数据失败,日志提示“Too many open files in system”
- Consumer初始化成功但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
- 新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
- SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
- Consumer消费数据失败,提示“SchemaException: Error reading field”
- Kafka Consumer消费数据丢失
- 账号锁定导致启动Kafka组件失败
- Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
- 执行Kafka Topic删除操作时发现无法删除
- 执行Kafka Topic删除操作时提示“AdminOperationException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
- 执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
- 执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
- Consumer消费数据时存在重复消费现象
- 执行Kafka Topic创建操作时发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置Kafka客户端shell命令日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- 使用Kafka Shell命令无法操作Kafka集群
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高
- Kafka连接ZooKeeper客户端时发生断链
- 使用Oozie
- 使用Presto
-
使用Spark
- 运行Spark应用时修改split值报错
- 提交Spark任务时提示参数格式错误
- 磁盘容量不足导致Spark、Hive和Yarn服务不可用
- 引入jar包不正确导致Spark任务无法运行
- Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
- 提交Spark任务时报错“ClassNotFoundException”
- 提交Spark任务时Driver端提示运行内存超限
- Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
- JDK版本不匹配导致启动spark-sql和spark-shell失败
- Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
- 提交Spark任务时连接ResourceManager异常
- DataArts Studio调度Spark作业失败
- 通过API提交Spark作业后作业状态为error
- MRS集群反复上报43006告警
- 在spark-beeline中创建或删除表失败
- 集群外节点提交Spark作业时报错无法连接Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行SQL跨文件系统load数据到Hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark Streaming任务提交问题
- Spark连接其他服务认证问题
- Spark连接Kafka认证错误
- SparkSQL读取ORC表报错
- Spark WebUI页面上stderr和stdout无法跳转到日志页面
- spark-beeline查询Hive视图报错
- Spark Streaming任务失败但是Yarn WebUI中显示状态为成功
- 使用Sqoop
- 使用Storm
- 使用Ranger
-
使用Yarn
- 集群启动Yarn后产生大量作业占用资源
- 通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
- Yarn汇聚日志过大导致节点磁盘被占满
- MapReduce任务异常,临时文件未删除
- Yarn客户端的端口信息错误导致提交任务后报错connection refused
- 通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
- 通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
- 通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
- 使用Yarn客户端命令查询历史作业报错
- TimelineServer目录文件数量到达上限
- 使用ZooKeeper
- 存算分离类
- 视频帮助
- 产品术语
-
更多文档
-
用户指南(阿布扎比区域)
- 简介
- IAM权限管理
- 入门
- 配置集群
- 管理现有集群
- 管理历史集群
- 查看操作日志
- 元数据
- 连接集群
- 使用MRS客户端
- MRS Manager操作指导(适用于2.x及之前)
- FusionInsight Manager操作指导(适用于3.x)
- 数据备份与恢复
- 存算分离操作指导
- 安全性
- 高危操作一览表
-
FAQ
-
产品咨询类
- MRS可以做什么?
- MRS支持什么类型的分布式存储?
- 如何使用自定义安全组创建MRS集群?
- 如何使用MRS?
- 如何保证数据和业务运行安全?
- 如何配置Phoenix连接池?
- MRS是否支持更换网段?
- MRS服务集群节点是否执行降配操作?
- Hive与其他组件有什么关系?
- MRS集群是否支持Hive on Spark?
- Hive版本之间是否兼容?
- MRS集群哪个版本支持建立Hive连接且有用户同步功能?
- 数据存储在OBS和HDFS有什么区别?
- Hadoop压力测试工具如何获取?
- Impala与其他组件有什么关系?
- 关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
- Kudu和HBase间的关系?
- MRS是否支持Hive on Kudu?
- 10亿级数据量场景的解决方案
- 如何修改DBService的IP?
- MRS sudo log能否清理?
- MRS 2.1.0集群版本对Storm日志也有20G的限制么
- Spark ThriftServer是什么
- Kafka目前支持的访问协议类型
- MRS节点访问OBS报错408
- zstd的压缩比怎么样
- 创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
- 创建MRS集群时,找不到ZooKeeper组件
- MRS 3.1.0集群版本,Spark任务支持python哪些版本?
- 如何让不同的业务程序分别用不同的Yarn队列?
- MRS管理控制台和集群Manager页面区别与联系
- MRS如何解绑EIP?
- 帐号密码类
- 帐号权限类
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- Spark运行作业报错:java.io.IOException: Connection reset by peer
- Spark作业访问OBS报错:requestId=4971883851071737250
- DataArts Studio调度spark作业,偶现失败,重跑失败
- Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- Flink作业提交时报错slot request timeout
- DistCP类型作业导入导出数据问题
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何使用Python远程连接HDFS的端口?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- 用户A如何查看用户B创建的Hive表?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- Hue下载excel无法打开
- Hue连接hiveserver,不释放session,报错over max user connections如何处理?
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常处理
- OpenTSDB是否支持python的接口?
- Presto如何配置其他数据源?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- 执行Spark任务报内存不足告警
- ClickHouse占用大量CPU,一直不下降
- ClickHouse如何开启Map类型?
- SparkSQL访问hive分区表大量调用OBS接口
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
产品咨询类
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 帐号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
-
组件操作指南(阿布扎比区域)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive复杂类型字段名称中包含特殊字符导致建表失败
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用Mapreduce
- 使用OpenTSDB
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
- API参考(阿布扎比区域)
-
用户指南(巴黎区域)
- 简介
- 准备用户
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- Jupyter Notebook采用自定义Python对接MRS
- 访问集群Manager
- FusionInsight Manager操作指导(适用于3.x)
- MRS Manager操作指导(适用于2.x及之前)
- 安全性说明
- 高危操作一览表
- 入门
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 账号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
- 修订记录
-
组件操作指南(普通版)(巴黎区域)
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅Hive管理员用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用Mapreduce
- 使用OpenTSDB
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
组件操作指南(LTS版)(巴黎区域)
-
使用CarbonData
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 创建HBase角色
- 使用HBase客户端
- 配置HBase备份
- 启用集群间拷贝功能
- 支持全文索引
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- HBase容灾业务切换
- 配置HBase数据压缩和编码
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS DiskBalancer
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- 多个NameService环境下,运行MapReduce任务失败
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
- 使用HetuEngine
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive对接外置RDS
- HiveMetaStore支持基于Redis的CacheStore
- Hive物化视图
- Hive支持读取Hudi表
- Hive支持分区元数据冷热存储
- Hive支持ZSTD压缩格式
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive配置类问题
- 使用Hudi
- 使用Hue
- 使用Kafka
-
使用Loader
- Loader常用参数
- 创建Loader角色
- 管理Loader连接
-
数据导入
- 概述
- 使用Loader导入数据
- 典型场景:从SFTP服务器导入数据到HDFS/OBS
- 典型场景:从SFTP服务器导入数据到HBase
- 典型场景:从SFTP服务器导入数据到Hive
- 典型场景:从SFTP服务器导入数据到Spark
- 典型场景:从FTP服务器导入数据到HBase
- 典型场景:从关系型数据库导入数据到HDFS/OBS
- 典型场景:从关系型数据库导入数据到HBase
- 典型场景:从关系型数据库导入数据到Hive
- 典型场景:从关系型数据库导入数据到Spark
- 典型场景:从HDFS/OBS导入数据到HBase
- 典型场景:从关系型数据库导入数据到ClickHouse
- 典型场景:从HDFS导入数据到ClickHouse
- 数据导出
- 作业管理
- 算子帮助
- 客户端工具说明
- Loader日志介绍
- Loader常见问题
-
使用Mapreduce
- Mapreduce如何从单实例转换为HA
- 配置日志归档和清理机制
- 降低客户端应用的失败率
- 将MR任务从Windows上提交到Linux上运行
- 配置使用分布式缓存
- 配置MapReduce shuffle address
- 配置集群管理员列表
- MapReduce日志介绍
- MapReduce性能调优
-
MapReduce常见问题
- ResourceManager进行主备切换后,任务中断后运行时间过长
- MapReduce任务长时间无进展
- 运行任务时,客户端不可用
- 在缓存中找不到HDFS_DELEGATION_TOKEN
- 如何在提交MapReduce任务时设置任务优先级
- MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
- MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
- 多个NameService环境下,运行MapReduce任务失败
- 基于分区的任务黑名单
- 使用Oozie
- 使用Ranger
-
使用Spark2x
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置是否显示包含敏感词的Spark SQL语句
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- Spark shuffle异常处理
-
Spark Core
-
基本操作
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- 队列替换策略
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
- API参考(巴黎区域)
-
用户指南(吉隆坡区域)
- 简介
- 入门
- 准备用户
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- 访问集群Manager
-
FusionInsight Manager操作指导(适用于3.x)
- 从这里开始
- 主页
- 集群
- 主机
- 运维
- 审计
- 租户资源
- 系统设置
- 集群管理
- 日志管理
- 备份恢复管理
- 安全管理
-
告警参考(适用于MRS 3.x版本)
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12110 获取ECS临时ak/sk失败
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-20002 Hue服务不可用
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙
- ALM-38010 存在单副本的Topic
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45736 Guardian服务不可用
- MRS Manager操作指导(适用于2.x及之前)
-
MRS集群组件操作指导
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive物化视图
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Kudu
- 使用Loader
-
使用Mapreduce
- 配置日志归档和清理机制
- 降低客户端应用的失败率
- 将MR任务从Windows上提交到Linux上运行
- 配置使用分布式缓存
- 配置MapReduce shuffle address
- 配置集群管理员列表
- MapReduce日志介绍
- MapReduce性能调优
-
MapReduce常见问题
- ResourceManager进行主备切换后,任务中断后运行时间过长
- MapReduce任务长时间无进展
- 运行任务时,客户端不可用
- 在缓存中找不到HDFS_DELEGATION_TOKEN
- 如何在提交MapReduce任务时设置任务优先级
- MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
- MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
- 多个NameService环境下,运行MapReduce任务失败
- 基于分区的任务黑名单
- 使用Oozie
- 使用Presto
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
- 安全性说明
- 高危操作一览表
-
常见问题
-
产品咨询类
- MRS可以做什么?
- MRS支持什么类型的分布式存储?
- 如何使用自定义安全组创建MRS集群?
- 如何使用MRS?
- 如何保证数据和业务运行安全?
- 如何配置Phoenix连接池?
- MRS是否支持更换网段?
- MRS服务集群节点是否执行降配操作?
- Hive与其他组件有什么关系?
- MRS集群是否支持Hive on Spark?
- Hive版本之间是否兼容?
- MRS集群哪个版本支持建立Hive连接且有用户同步功能?
- 数据存储在OBS和HDFS有什么区别?
- Hadoop压力测试工具如何获取?
- Impala与其他组件有什么关系?
- 关于MRS服务集成的开源第三方SDK中包含的公网IP地址声明
- Kudu和HBase间的关系?
- MRS是否支持Hive on Kudu?
- 10亿级数据量场景的解决方案
- 如何修改DBService的IP?
- MRS sudo log能否清理?
- MRS 2.1.0集群版本对Storm日志也有20G的限制么
- Spark ThriftServer是什么
- Kafka目前支持的访问协议类型
- zstd的压缩比怎么样
- 创建MRS集群时,找不到HDFS、Yarn、MapReduce组件
- 创建MRS集群时,找不到ZooKeeper组件
- MRS 3.1.0集群版本,Spark任务支持python哪些版本?
- 如何让不同的业务程序分别用不同的Yarn队列?
- MRS管理控制台和集群Manager页面区别与联系
- MRS如何解绑EIP?
- 帐号密码类
- 帐号权限类
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- Spark运行作业报错:java.io.IOException: Connection reset by peer
- Spark作业访问OBS报错:requestId=4971883851071737250
- DataArts Studio调度spark作业,偶现失败,重跑失败
- Flink任务运行失败,报错:java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- Flink作业提交时报错slot request timeout
- DistCP类型作业导入导出数据问题
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何使用Python远程连接HDFS的端口?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- 用户A如何查看用户B创建的Hive表?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- Hue下载excel无法打开
- Hue连接hiveserver,不释放session,报错over max user connections如何处理?
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常处理
- OpenTSDB是否支持python的接口?
- Presto如何配置其他数据源?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- 执行Spark任务报内存不足告警
- ClickHouse占用大量CPU,一直不下降
- ClickHouse如何开启Map类型?
- SparkSQL访问hive分区表大量调用OBS接口
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
产品咨询类
-
故障排除
- Web页面访问类
-
集群管理类
- 缩容Task节点失败
- MRS集群添加新磁盘
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除关联子网
- 修改hostname,导致MRS状态异常
- 如何定位进程被kill
- MRS 集群使用pip3安装python包提示网络不可达
- MRS集群客户端无法下载
- 扩容失败
- MRS通过beeline执行插入命令的时候出错
- MRS集群如何进行Euleros系统漏洞升级?
- 使用CDM迁移数据至HDFS
- MRS集群频繁产生告警
- PMS进程占用内存高问题处理
- Knox进程占用内存高
- 安全集群外节点安装客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- Manager页面新建的租户删除失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- 安装客户端执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file :"security.kerberos.login.keytab"
- 安装客户端修改配置后执行命令错误,提示IllegalConfigurationException: Error while parsing YAML configuration file
- 创建Flink集群时执行yarn-session.sh命令失败
- 使用不同用户,执行yarn-session创建集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量使用达到100%,导致上层服务HBase、Spark等上报服务不可用
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 安全集群执行set命令的时候报Cannot modify xxx at runtime.
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 在Hive中drop表后,如何完全释放磁盘空间
- 客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示Error getting partition metadata
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- 帐号锁定导致启动组件失败
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,发现无法删除
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kafka Topic创建操作,发现无法创建提示NoNode for /brokers/ids
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
- 使用Presto
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- Spark任务由于内存不够,作业卡住
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- 提交Spark任务时,连接ResourceManager异常
- DataArts Studio调度spark作业失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- spark连接redis报错
- spark-beeline查询Hive视图报错
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
- API参考(吉隆坡区域)
-
用户指南(安卡拉区域)
-
简介
- 什么是MRS
- 应用场景
-
组件介绍
- CarbonData
- ClickHouse
- Containers
- CDL
- DBService
- Doris
- Elasticsearch
- Flink
- Flume
- FTP-Server
- GraphBase
- Guardian
- HBase
- HDFS
- HetuEngine
- Hive
- Hudi
- Hue
- IoTDB
- Kafka
- KafkaManager
- KMS
- KrbServer及LdapServer
- LakeSearch
- Loader
- Manager
- MapReduce
- MemArtsCC
- Metadata
- MOTService
- Oozie
- Ranger
- Redis
- RTDService
- Solr
- Spark
- Tez
- YARN
- ZooKeeper
- 产品功能
- 约束与限制
- 权限管理
- 与其他云服务的关系
- 准备用户
- 快速入门
- 配置集群
- 管理集群
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- 访问FusionInsight Manager
- FusionInsight Manager操作指导
-
告警参考
- ALM-12001 审计日志转储失败
- ALM-12004 Manager Oldap资源异常
- ALM-12005 Manager OKerberos资源异常
- ALM-12006 NodeAgent进程异常
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 操作系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 Manager tomcat资源异常
- ALM-12068 Manager acs资源异常
- ALM-12069 Manager aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12099 集群业务进程发生core dump
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12180 磁盘卡IO
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-33004 Containers服务BLU实例健康状态异常
- ALM-33005 Containers服务最大并发数超过阈值
- ALM-33006 Containers服务调用失败率超过阈值
- ALM-33007 Containers服务ALB TPS超过门限
- ALM-33008 Containers服务平均时延超过阈值
- ALM-33009 Containers服务堆内存使用率超过阈值
- ALM-33010 Containers服务非堆内存使用率超过阈值
- ALM-33011 Containers服务元空间使用率超过阈值
- ALM-33012 Containers服务ZooKeeper客户端连接丢失
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-41007 RTDService服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory进程GC时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer进程GC时间超出阈值
- ALM-43017 JDBCServer进程Full GC次数超出阈值
- ALM-43018 JobHistory进程Full GC次数超出阈值
- ALM-43019 IndexServer进程堆内存使用超出阈值
- ALM-43020 IndexServer进程非堆内存使用超出阈值
- ALM-43021 IndexServer进程直接内存使用超出阈值
- ALM-43022 IndexServer进程GC时间超出阈值
- ALM-43023 IndexServer进程Full GC次数超出阈值
- ALM-43200 Elasticsearch服务不可用
- ALM-43201 Elasticsearch堆内存使用率超过阈值
- ALM-43202 Elasticsearch服务存在yellow状态的索引
- ALM-43203 Elasticsearch服务存在red状态的索引
- ALM-43204 Elasticsearch实例进程垃圾回收(GC)时间超过阈值
- ALM-43205 Elasticsearch分片数据存储量超过阈值
- ALM-43206 Elasticsearch分片文档数超过阈值
- ALM-43207 Elasticsearch存在未设置副本的索引
- ALM-43208 Elasticsearch数据目录使用率超过阈值
- ALM-43209 Elasticsearch实例总分片数超过阈值
- ALM-43210 Elasticsearch集群总分片数超过阈值
- ALM-43600 GraphBase服务不可用
- ALM-43605 GraphBase节点实时请求数量超过阈值
- ALM-43607 GraphBase服务Nginx故障
- ALM-43608 GraphBase服务FloatIp故障
- ALM-43609 GraphBase服务TaskManager故障
- ALM-43610 GraphServer进程老年代GC时间超出阈值
- ALM-43611 GraphServer进程老年代GC次数超出阈值
- ALM-43612 GraphServer进程年轻代GC时间超出阈值
- ALM-43613 GraphServer进程年轻代GC次数超出阈值
- ALM-43614 GraphBase路径查询请求时间超出阈值
- ALM-43615 GraphBase扩线查询请求时间超出阈值
- ALM-43616 GraphBase相关Yarn作业异常
- ALM-43617 GraphBase实时导入等待队列超出阈值
- ALM-43618 GraphServer堆内存使用率超过阈值
- ALM-43619 GraphBase HA证书文件失效
- ALM-43620 GraphBase HA证书文件即将过期
- ALM-43621 GraphBase HA证书文件已过期
- ALM-43850 KMS服务不可用
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45191 获取ECS Metadata失败
- ALM-45192 获取IAM securitytoken失败
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 Flink作业task持续背压时间超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 Guardian TokenServer堆内存使用率超过阈值
- ALM-45738 Guardian TokenServer直接内存使用率超过阈值
- ALM-45739 Guardian TokenServer非堆内存使用率超过阈值
- ALM-45740 Guardian TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 Guardian请求ECS securitykey接口失败
- ALM-45742 Guardian请求ECS metadata接口失败
- ALM-45743 Guardian请求IAM接口失败
- ALM-46001 MOTService服务不可用
- ALM-46003 MOTService主备节点间心跳中断
- ALM-46004 MOTService主备数据不同步
- ALM-46005 MOTService数据库连接数使用率超过阈值
- ALM-46006 MOTService数据目录磁盘空间使用率超过阈值
- ALM-46007 MOTService数据库进入只读模式
- ALM-46008 MOTService的内存使用超过阈值
- ALM-46009 MOTService的CPU使用超过阈值
- ALM-46010 MOTService证书文件即将过期
- ALM-46011 MOTService证书文件已过期
- ALM-46012 MOTService服务Nginx状态异常
- ALM-47000 MemArtsCC实例不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例不可用
- ALM-50226 BE实例不可用
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50401 JobServer等待任务数量超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-51201 LakeSearch服务不可用
- ALM-51202 LakeSearch堆内存使用率超过阈值
- ALM-51203 LakeSearch实例进程垃圾回收(GC)时间超过阈值
- 安全性说明
- 高危操作一览表
- Jupyter Notebook采用自定义Python对接MRS
-
FAQ
- 客户端使用类
- Web页面访问类
- 监控告警类
- 性能优化类
-
作业开发类
- 如何准备MRS的数据源?
- 集群支持提交哪些形式的Spark作业?
- MRS集群的租户资源最小值改为0后,只能同时跑一个Spark任务吗?
- Spark作业Client模式和Cluster模式的区别
- 如何查看MRS作业日志?
- 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”
- LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null.
- MRS Console页面Flink作业状态与Yarn上的作业状态不一致
- 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403
- ClickHouse客户端执行SQL查询时报内存不足问题
- 提交的Yarn作业在界面上查看不到
- 如何修改现有集群的HDFS NameSpace(fs.defaultFS)
- 通过管控面提交Flink任务时launcher-job因heap size不够被Yarn结束
- 集群升级/补丁
- 集群访问类
-
大数据业务开发
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- HBase支持的压缩算法有哪些?
- MRS是否支持通过Hive的HBase外表将数据写入到HBase?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- HDFS如何进行数据均衡?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive Driver是否支持对接dbcp2?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错
- 添加Hive服务后,提交hivesql/hivescript作业失败
- 如何重置Kafka数据?
- MRS Kafka如何查看客户端版本信息?
- Kafka目前支持的访问协议类型有哪些?
- 消费kafka topic,报错:Not Authorized to access group xxx
- MapReduce服务中的样例工程构建和应用开发有什么区别?是否支持python代码?
- MRS如何连接spark-shell
- MRS如何连接spark-beeline
- spark job对应的执行日志保存在哪里?
- MRS的Storm集群提交任务时如何指定日志路径?
- Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- API使用类
- 集群管理类
- Kerberos使用
- 元数据管理
-
故障排除
- Web页面访问类
- 集群管理类
- 使用ClickHouse
- 使用DBservice
- 使用Flink
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示FileNotFoundException异常
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
-
使用HDFS
- 修改集群HDFS服务的NameNode RPC端口后,NameNode都变为备状态
- 通过公网IP连接主机,使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- 启动HDFS和Yarn报错
- HDFS权限设置问题
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)
- 单NameNode长期故障,如何使用客户端手动checkpoint
- 文件读写常见故障
- 文件最大打开句柄数设置太小导致读写文件异常
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后put数据,block大小还是原来的大小
- 读取文件失败,FileNotFoundException
- HDFS写文件失败,item limit of / is exceeded
- 调整shell客户端日志级别
- 读文件失败No common protection layer
- HDFS目录配额(quota)不足导致写文件失败
- 执行balance失败,Source and target differ in block-size
- 查询或者删除文件失败,父目录可以看见此文件(不可见字符)
- 非HDFS数据残留导致数据分布不均衡
- 客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡处理指导
- 执行balance常见问题定位方法
- 普通集群在Core节点安装hdfs客户端,使用时报错
- 集群外节点安装客户端使用hdfs上传文件失败
- HDFS写并发较大时,报副本不足的问题
-
使用Hive
- Hive各个日志里都存放了什么信息?
- Hive启动失败问题的原因有哪些?
- 怎样在Hive提交任务的时候指定队列?
- 客户端怎么设置Map/Reduce内存?
- 如何在导入表时指定输出的文件压缩格式
- desc描述表过长时,无法显示完整
- 增加分区列后再insert数据显示为NULL
- 创建新用户,执行查询时报无权限
- 执行SQL提交任务到指定队列报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin报无权限
- 通过beeline创建UDF时候报错
- Hive服务健康状态和Hive实例健康状态的区别
- Hive中的告警有哪些以及触发的场景
- Shell客户端连接提示"authentication failed"
- 客户端提示访问ZooKeeper失败
- 使用udf函数提示"Invalid function"
- Hive服务状态为Unknown总结
- Hiveserver或者Metastore实例的健康状态为unknown
- Hiveserver或者Metastore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时select结果乱码
- hive任务运行过程中失败,重试成功
- 执行select语句报错
- drop partition操作,有大量分区时操作失败
- localtask启动失败
- WebHCat启动失败
- 切域后Hive二次开发样例代码报错
- DBService超过最大连接数,导致metastore异常
- beeline报Failed to execute session hooks: over max connections错误
- beeline报OutOfMemoryError错误
- 输入文件数超出设置限制导致任务执行失败
- 任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Load数据到Hive表失败
- HiveServer和HiveHCat进程故障
- Hive执行insert into语句报错,命令界面报错信息不明
- 增加Hive表字段超时
- Hive服务重启失败
- hive执行删除表失败
- Hive执行msck repair table table_name报错
- 使用Hue
-
使用Kafka
- 运行Kafka获取topic报错
- Flume可以正常连接Kafka,但是发送消息失败。
- Producer发送数据失败,抛出NullPointerException
- Producer发送数据失败,抛出TOPIC_AUTHORIZATION_FAILED
- Producer偶现发送数据失败,日志提示Too many open files in system
- Consumer初始化成功,但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- 新建集群Consumer消费数据失败,提示GROUP_COORDINATOR_NOT_AVAILABLE
- SparkStreaming消费Kafka消息失败,提示Couldn't find leader offsets
- Consumer消费数据失败,提示SchemaException: Error reading field 'brokers'
- Consumer消费数据是否丢失排查
- Kafka Broker上报进程异常,日志提示IllegalArgumentException
- 执行Kafka Topic删除操作,提示AdminOperationException
- 执行Kafka Topic创建操作,发现无法创建提示NoAuthException
- 执行Kafka Topic设置ACL操作失败,提示NoAuthException
- 执行Kakfa Topic创建操作,发现无法创建提示replication factor larger than available brokers
- Consumer消费数据存在重复消费现象
- 执行Kafka Topic创建操作,发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置客户端shell命令的日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- Kafka集群节点内多磁盘数据量占用高处理办法
- 使用Oozie
-
使用Spark
- Spark应用下修改split值时报错
- 使用Spark时报错
- 引入jar包不正确,导致Spark任务无法运行
- 运行Spark报错
- Driver端提示executor memory超限
- Yarn-cluster模式下,Can't get the Kerberos realm异常
- JDK版本不匹配启动spark-sql,spark-shell失败
- Yarn-client模式提交ApplicationMaster尝试启动两次失败
- Spark作业api提交状态为error
- 集群反复出现43006告警
- 在spark-beeline中创建/删除表失败
- 集群外节点提交Spark作业到Yarn报错连不上Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行sql跨文件系统load数据到hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark连接其他服务认证问题
- 使用Sqoop
- 使用Storm
- 使用Ranger
- 使用Yarn
- 使用ZooKeeper
- 访问OBS
- 附录
-
简介
-
组件操作指南(安卡拉区域)
-
使用CarbonData
- 概述
- CarbonData常用参数
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
-
使用CDL
- CDL使用说明
- CDL支持的数据格式
- 从零开始使用CDL
- 创建CDL用户
- CDL任务支持数据加密
- 创建CDL作业前准备
-
创建CDL作业
- 创建CDL数据同步任务作业
- 创建CDL数据比较任务作业
-
常见CDL作业示例
- 从MySQL抓取数据到HDFS
- 从Oracle抓取数据到HDFS
- 从PgSQL同步数据到Kafka
- 从Oracle同步数据到Hudi
- 从MySQL同步数据到Hudi
- 从PgSQL同步数据到Hudi
- 从Opengauss同步数据到Hudi
- 从ThirdKafka同步drs-opengauss-json数据库数据到Hudi
- 从ThirdKafka同步drs-oracle-json数据库数据到Hudi
- 从ThirdKafka同步drs-oracle-avro数据库数据到Hudi
- 从ThirdKafka同步开源debezium-json数据到Hudi
- 从Hudi同步数据到DWS
- 从Hudi同步数据到ClickHouse
- DDL变更
- 创建CDL任务
- CDL常用业务API
- CDL日志介绍
-
CDL常见问题
- Oracle任务启动后发生“ORA-01284”报错
- CDL任务执行后Hudi中没有接收到数据
- CDL任务运行一段时间后发生“104”或“143”报错
- 启动从PgSQL中抓取数据到Hudi任务报错
- 停止CDL任务时报“403”错误
- 启用Ranger鉴权场景下,删除用户所有权限后,该用户仍能够操作自己创建的任务
- MySQL链路任务启动时如何从指定位置抓取数据
- 从ogg同步数据到Hudi时,ogg Source配置的Task值与任务实际运行的Task数量不一致
- CDL同步任务名对应的Topic分区过多
- 执行CDL同步数据到Hudi任务,报错当前用户无权限在其他用户创建的数据库中创建表
- 在CDL任务中进行DDL操作可能会导致任务失败
- CDL数据同步任务失败后,对应的Yarn任务等待10多分钟后才会重新运行
- 使用ClickHouse
- 使用Containers
- 使用DBService
-
使用Doris
- 安装MySQL客户端
- 从零开始使用Doris
- 权限管理
- Doris多租户
- 访问Doris原生Web页面
- Doris数据模型介绍
- Doris冷热分离
- 数据操作
- Doris常用SQL语法
- 备份恢复Doris数据
- Hive数据源分析
- 生态扩展
-
Doris常见问题
- 数据目录SSD和HDD的配置导致建表时偶现报错Failed to find enough host with storage medium and tag
- 多副本场景下,如果有部分副本丢失损坏,查询时如果运行在副本丢失的Be节点,查询报错
- 使用Stream Load时报RPC超时错误
- FE服务故障恢复
- 使用MySQL客户端连接Doris数据库时报错“plugin not enabled”如何处理
- FE启动失败
- BE匹配错误IP导致启动失败
- MySQL客户端连接Doris报错“Read timed out”
- BE运行数据导入或查询任务报错
- Broker Load导入数据时报超时错误
- Broker Load导入任务的数据量超过阈值
- 使用Broker Load导入数据报错
- Spark Load导入数据时报错序列化异常
- Spark Load导入数据时报错获取不到appid
- Doris日志介绍
-
使用Elasticsearch
- 从零开始使用Elasticsearch
- Elasticsearch使用建议
- Elasticsearch鉴权模式
- 使用Elasticsearch客户端
- Linux下curl命令的使用
- 自研插件
- 接口鉴权白名单配置
- 配置SSL加密传输
- 自定义数据目录
- 流量控制
- 索引生命周期管理
- 在SQL中使用UDF
- Elasticsearch对接其他组件
- 切换Elasticsearch安全模式
- 同步索引属组信息
- 数据迁移
- Elasticsearch日志介绍
- Elasticsearch性能调优
-
Elasticsearch常见问题
- Reindex工具常见问题
- 全文检索场景下查询速度慢
- 写入数据达到一定量时,指定文档ID导致读IO很高
- 自定义Elasticsearch插件安装指导
- Elasticsearch分片down(unassigned shard)常用处理方式
- Elasticsearch的内存xms和xmx设置不一致导致启动失败
- Elasticsearch启动失败报错vm.max_map_count is too low问题
- Elasticsearch启动过程因配置文件导致实例启动失败问题
- Elasticsearch因目录权限问题导致实例故障
- Elasticsearch单节点机器故障导致整体写入慢问题
- Elasticsearch查询时出现hits.total不准确问题
- Elasticsearch运行过程中出现某EsNode实例堆内存溢出
- 写入数据和已有type不一致导致写入失败
- 访问索引数据鉴权失败
- Elasticsearch集群重启过程中EsMaster内存溢出
- 使用Flink
- 使用Flume
- 使用Guardian
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- GeoMesa命令行简介
- 使用HIndex
- 使用全局二级索引
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 开启HBase分时Compaction功能
- 使用二级索引
- HBase冷热分离
- 配置HBase表级别过载控制
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会发生“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 租户访问Phoenix提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HBase如何关闭HDFS多路读功能
- 使用HetuEngine
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置HDFS DataNode数据均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并发生异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅Hive管理员用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持MetaStore根据组件隔离
- 切换Hive执行引擎为Tez
- Hive支持读取Hudi表
- Hive支持分区元数据冷热存储
- Hive支持ZSTD压缩格式
- Hive异常文件定位定界工具
- 使用ZSTD_JNI压缩算法压缩Hive ORC表
- HiveMetaStore客户端连接支持负载均衡
- Hive数据导入导出
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- Hive客户端设置hive.exec.stagingdir异常
- 使用Hudi
- 使用Hue
- 使用IoTDB
- 使用JobGateway
-
使用Kafka
- 从零开始使用Kafka
- 管理Kafka主题
- 查看Kafka主题
- 管理Kafka用户权限
- 管理Kafka主题中的消息
- 基于binlog的MySQL数据同步到MRS集群中
- 创建Kafka角色
- Kafka常用参数
- Kafka安全使用说明
- Kafka业务规格说明
- 使用Kafka客户端
- 配置Kafka高可用和高可靠参数
- 更改Broker的存储目录
- 查看Consumer Group消费情况
- Kafka均衡工具使用说明
- Kafka Token认证机制工具使用说明
- Kafka加解密特性使用说明
- 使用KafkaUI
- Kafka日志介绍
- 性能调优
- Kafka 特性说明
- Kafka节点内数据迁移
- Kafka常见问题
- 使用KMS
- 使用LakeSearch
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
- 使用Metadata
- 使用MOTService
- 使用Oozie
-
使用Ranger
- 登录Ranger管理界面
- 启用Ranger鉴权
- 配置组件权限策略
- 查看Ranger审计信息
- 配置Ranger安全区
- 普通集群修改Ranger数据源为Ldap
- 查看Ranger权限信息
- 添加CDL的Ranger访问权限策略
- 添加HDFS的Ranger访问权限策略
- 添加HBase的Ranger访问权限策略
- 添加Hive的Ranger访问权限策略
- 添加Yarn的Ranger访问权限策略
- 添加Spark的Ranger访问权限策略
- 添加Kafka的Ranger访问权限策略
- 添加HetuEngine的Ranger访问权限策略
- 添加Storm的Ranger访问权限策略
- 添加Elasticsearch的Ranger访问权限策略
- 添加OBS的Ranger访问权限策略
- Hive表支持级联授权功能
- 配置RangerKMS多实例
- 使用RangerKMS原生UI管理权限及密钥
- Ranger日志介绍
- Ranger常见问题
- 使用Redis
- 使用RTDService
- 使用Solr
-
使用Spark
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 配置Spark Native引擎
- 配置小文件自动合并
- 使用Ranger时适配第三方JDK
- Spark日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark性能调优
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark使用Ranger场景常见问题
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark原生UI界面失败,无法显示此页或者页面显示错误
- Spark如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
基本操作
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
- API参考(安卡拉区域)
-
用户指南(阿布扎比区域)
- 通用参考
链接复制成功!
ALM-12015 设备分区文件系统只读
告警解释
系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。
系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
告警属性
告警ID |
告警级别 |
是否自动清除 |
---|---|---|
12015 |
重要 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
角色名 |
产生告警的角色名称。 |
主机名 |
产生告警的主机名。 |
挂载目录名 |
产生告警的挂载目录名。 |
设备分区名 |
产生告警的设备分区名。 |
对系统的影响
- 业务失败:如果运行的作业需要修改这个只读的设备分区上的数据,可能会导致作业运行失败。
- 业务延迟:如果有些组件需要给这个只读的设备分区上同步数据,可能会导致数据同步异常或者超时,导致业务延迟。
可能原因
硬盘存在坏道等故障。
处理步骤
- 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的。
- 从“定位信息”中获取“主机名”和“设备分区名”,其中“主机名”为故障告警的节点,“设备分区名”为故障磁盘的分区。
- 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。
- 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失进行处理,处理完成后,本告警即可自动消除。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
无。
父主题: MRS集群告警处理参考