全部文档
MapReduce服务 MRSMapReduce服务 MRS
- 最新动态
-
产品介绍
- 图解MapReduce服务
- 什么是MRS
- MRS与自建Hadoop对比优势
- 应用场景
- 组件介绍
- 产品功能
- 约束与限制
- 计费说明
- 权限管理
- 与其他云服务的关系
- 配额说明
- 常见概念
- 快速入门
-
用户指南
- 准备用户
- 配置集群
-
管理集群
- 登录集群
- 集群概览
- 集群运维
- 节点管理
- 作业管理
- 组件管理
- 告警管理
-
补丁管理
- MRS 1.9.2补丁操作指导
- 滚动补丁
- 修复隔离主机补丁
-
MRS补丁说明
- omm用户提权漏洞修复
- MRS 1.8.10.1补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.0.8补丁说明
- MRS 1.9.2.2补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.3.3补丁说明
- MRS 2.0.1.1补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.11补丁说明
- MRS 3.0.5.1补丁说明
- 租户管理
- 使用MRS客户端
- 配置存算分离
- 访问MRS集群上托管的开源组件Web页面
- Jupyter Notebook采用自定义Python对接MRS
- 访问集群Manager
-
FusionInsight Manager操作指导(适用于3.x)
- 从这里开始
- 主页
- 集群
- 主机
- 运维
- 审计
- 租户资源
- 系统设置
- 集群管理
- 日志管理
- 备份恢复管理
- 安全管理
-
告警参考(适用于MRS 3.x版本)
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12110 获取ECS临时ak/sk失败
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-20002 Hue服务不可用
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25500 KrbServer服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙
- ALM-38010 存在单副本的Topic
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45736 Guardian服务不可用
-
MRS Manager操作指导(适用于2.x及之前)
- MRS Manager简介
- 查看集群运行任务
- 监控管理
- 告警管理
-
告警参考(适用于MRS 3.x之前版本)
- ALM-12001 审计日志转储失败
- ALM-12002 HA资源异常
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态进程数超过阈值
- ALM-12031 omm用户或密码即将过期
- ALM-12032 ommdba用户或密码即将过期
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 GaussDB主备数据不同步
- ALM-12040 系统熵值不足
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper内存使用量超过阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14004 损坏的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 HDFS NameNode内存使用率超过阈值
- ALM-14008 HDFS DataNode内存使用率超过阈值
- ALM-14009 故障DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 HDFS DataNode数据目录配置不合理
- ALM-14012 HDFS Journalnode数据不同步
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16004 Hive服务不可用
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18004 NodeManager磁盘可用率低于阈值
- ALM-18006 执行MapReduce任务超时
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25500 KrbServer服务不可用
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-28001 Spark服务不可用
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Storm Nimbus堆内存使用率超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-12041关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-23001 Loader服务不可用
- ALM-12357 审计日志导出到OBS失败
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12043 DNS解析时长超过阈值
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值
- ALM-20002 Hue服务不可用
- ALM-43001 Spark服务不可用
- ALM-43006 JobHistory进程堆内存使用超出阈值
- ALM-43007 JobHistory进程非堆内存使用超出阈值
- ALM-43008 JobHistory进程直接内存使用超出阈值
- ALM-43009 JobHistory GC 时间超出阈值
- ALM-43010 JDBCServer进程堆内存使用超出阈值
- ALM-43011 JDBCServer进程非堆内存使用超出阈值
- ALM-43012 JDBCServer进程直接内存使用超出阈值
- ALM-43013 JDBCServer GC 时间超出阈值
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-18010 Yarn任务挂起数超过阈值
- ALM-18011 Yarn任务挂起内存超过阈值
- ALM-18012 上个周期被终止的Yarn任务数超过阈值
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值
- ALM-16005 上个周期Hive SQL执行失败超过阈值
- 对象管理
- 日志管理
- 健康检查管理
- 静态服务池管理
- 租户管理
- 备份与恢复
- 安全管理
- 权限管理
- MRS多用户权限管理
- 补丁操作指导
- 修复隔离主机补丁
- 支持滚动重启
- 安全性说明
- 高危操作一览表
- 附录
-
组件操作指南
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- 概述
- 配置参考
- CarbonData操作指导
- CarbonData性能调优
- CarbonData访问控制
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData FAQ
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 为什么在V100R002C50RC1版本中创建的CarbonData表不具有Hive特权为非所有者提供的特权?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么drop数据库抛出Missing Privileges异常?
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且抛出“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 从零开始使用HBase
- 使用HBase客户端
- 创建HBase角色
- 配置HBase备份
- 配置HBase参数
- 启用集群间拷贝功能
- 使用ReplicationSyncUp工具
- GeoMesa命令行简介
- 使用HIndex
- 配置HBase容灾
- 配置HBase数据压缩和编码
- HBase容灾业务切换
- HBase容灾主备集群倒换
- 社区BulkLoad Tool
- 自研增强BulkLoad Tool
- 配置MOB
- 配置安全的HBase Replication
- 配置Region Transition恢复线程
- 使用二级索引
- HBase日志介绍
- HBase性能调优
-
HBase常见问题
- 客户端连接服务端时,长时间无法连接成功
- 结束BulkLoad客户端程序,导致作业执行失败
- 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- HBase bulkload任务(单个表有26T数据)有210000个map和10000个reduce,任务失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待namespace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 在启动HBase shell时,为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常
- 在HMaster Web UI中显示处于“Dead Region Servers”状态的RegionServer什么时候会被清除掉
- 使用HBase bulkload导入数据成功,执行相同的查询时却可能返回不同的结果
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中/hbase/table-lock目录下的表名
- 为什么给HDFS上的HBase使用的目录设置quota会造成HBase故障
- 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败
- 为什么splitWAL期间HMaster日志中频繁打印出FileNotFoundException及no lease信息
- 当使用与Region Server相同的Linux用户但不同的kerberos用户时,为什么ImportTsv工具执行失败报“Permission denied”的异常
- 租户访问Phoenix提示权限不足
- 租户使用HBase bulkload功能提示权限不足
- 如何解决HBase恢复数据任务失败后错误详情中提示:Rollback recovery failed的回滚失败问题
- 如何修复Region Overlap
- HBase RegionServer GC 参数Xms,Xmx配置31G,导致RegionServer启动失败
- 使用集群内节点执行批量导入,为什么LoadIncrementalHFiles工具执行失败报“Permission denied”的异常
- Phoenix sqlline脚本使用,报import argparse错误
- Phoenix BulkLoad Tool限制
- CTBase对接Ranger权限插件,提示权限不足
-
使用HDFS
- 从零开始使用Hadoop
- 配置内存管理
- 创建HDFS角色
- 使用HDFS客户端
- 使用distcp命令
- HDFS文件系统目录简介
- 更改DataNode的存储目录
- 配置HDFS目录权限
- 配置NFS
- 规划HDFS容量
- 设置HBase和HDFS的ulimit
- 配置DataNode容量均衡
- 配置DataNode节点间容量异构时的副本放置策略
- 配置HDFS单目录文件数量
- 配置回收站机制
- 配置文件和目录的权限
- 配置token的最大存活时间和时间间隔
- 配置磁盘坏卷
- 使用安全加密通道
- 在网络不稳定的情况下,降低客户端运行异常概率
- 配置NameNode blacklist
- 优化HDFS NameNode RPC的服务质量
- 优化HDFS DataNode RPC的服务质量
- 配置LZC压缩
- 配置DataNode预留磁盘百分比
- 配置HDFS NodeLabel
- 配置HDFS Mover
- 使用HDFS AZ Mover
- 配置HDFS DiskBalancer
- 配置从NameNode支持读
- 使用HDFS文件并发操作命令
- HDFS日志介绍
- HDFS性能调优
-
HDFS常见问题
- NameNode启动慢
- DataNode状态正常,但无法正常上报数据块
- HDFS Web UI无法正常刷新损坏数据的信息
- distcp命令在安全集群上失败并抛出异常
- 当dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败
- 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错
- 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败
- 在存储小文件过程中,系统断电,缓存中的数据丢失
- FileInputFormat split的时候出现数组越界
- 当分级存储策略为LAZY_PERSIST时,为什么文件的副本的存储类型都是DISK
- NameNode节点长时间满负载,HDFS客户端无响应
- DataNode禁止手动删除或修改数据存储目录
- 成功回滚后,为什么NameNode UI上显示有一些块缺失
- 为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常
- 为什么主NameNode重启后系统出现双备现象
- HDFS执行Balance时被异常停止,再次执行Balance会失败
- IE浏览器访问HDFS原生UI界面失败,显示无法显示此页
- EditLog不连续导致NameNode启动失败
-
使用Hive
- 从零开始使用Hive
- 配置Hive常用参数
- Hive SQL
- 权限管理
- 使用Hive客户端
- 使用HDFS Colocation存储Hive表
- 使用Hive列加密功能
- 自定义行分隔符
- 配置跨集群互信下Hive on HBase
- 删除Hive on HBase表中的单行记录
- 配置基于HTTPS/HTTP协议的REST接口
- 配置是否禁用Transform功能
- Hive支持创建单表动态视图授权访问控制
- 配置创建临时函数是否需要ADMIN权限
- 使用Hive读取关系型数据库数据
- Hive支持的传统关系型数据库语法
- 创建Hive用户自定义函数
- beeline可靠性增强特性介绍
- 具备表select权限可用show create table查看表结构
- Hive写目录旧数据进回收站
- Hive能给一个不存在的目录插入数据
- 限定仅admin用户能创建库和在default库建表
- 限定创建Hive内部表不能指定location
- 允许在只读权限的目录建外表
- Hive支持授权超过32个角色
- Hive任务支持限定最大map数
- HiveServer租约隔离使用
- Hive支持事务
- 切换Hive执行引擎为Tez
- Hive对接外置自建关系型数据库
- Hive物化视图
- Hive对接外部LDAP
- Hive日志介绍
- Hive性能调优
-
Hive常见问题
- 如何在多个HiveServer之间同步删除UDF
- 已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive复杂类型字段名称中包含特殊字符导致建表失败
- 如何对Hive表大小数据进行监控
- 如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿处理
- FusionInsight Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的jdk访问Beeline客户端出现连接hiveserver失败
- 关于Hive表的location支持跨OBS和HDFS路径的说明
- 通过Tez引擎执行union相关语句写入的数据,切换MR引擎后查询不出来。
- Hive不支持对同一张表或分区进行并发写数据
- Hive不支持向量化查询
- Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错处理
- 如何关闭Hive客户端日志
- Hive快删目录配置类问题
- Hive配置类问题
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Kudu
- 使用Loader
-
使用Mapreduce
- 配置日志归档和清理机制
- 降低客户端应用的失败率
- 将MR任务从Windows上提交到Linux上运行
- 配置使用分布式缓存
- 配置MapReduce shuffle address
- 配置集群管理员列表
- MapReduce日志介绍
- MapReduce性能调优
-
MapReduce常见问题
- ResourceManager进行主备切换后,任务中断后运行时间过长
- MapReduce任务长时间无进展
- 运行任务时,客户端不可用
- 在缓存中找不到HDFS_DELEGATION_TOKEN
- 如何在提交MapReduce任务时设置任务优先级
- MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常
- MapReduce JobHistoryServer服务地址变更后,为什么运行完的MapReduce作业信息无法通过ResourceManager Web UI页面的Tracking URL打开
- 多个NameService环境下,运行MapReduce任务失败
- 基于分区的任务黑名单
- 使用Oozie
- 使用OpenTSDB
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark
-
使用Spark2x
- 使用前须知
-
基本操作
- 快速入门
- 快速配置参数
- 常用参数
- SparkOnHBase概述及基本应用
- SparkOnHBasev2概述及基本应用
- SparkSQL权限管理(安全模式)
-
场景化参数
- 配置多主实例模式
- 配置多租户模式
- 配置多主实例与多租户模式切换
- 配置事件队列的大小
- 配置executor堆外内存大小
- 增强有限内存下的稳定性
- 配置WebUI上查看聚合后的container日志
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- 配置SparkSQL的分块个数
- 配置parquet表的压缩格式
- 配置WebUI上显示的Lost Executor信息的个数
- 动态设置日志级别
- 配置Spark是否获取HBase Token
- 配置Kafka后进先出
- 配置对接Kafka可靠性
- 配置流式读取driver执行结果
- 配置过滤掉分区表中路径不存在的分区
- 配置Spark2x Web UI ACL
- 配置矢量化读取ORC数据
- Hive分区修剪的谓词下推增强
- 支持Hive动态分区覆盖语义
- 配置列统计值直方图Histogram用以增强CBO准确度
- 配置JobHistory本地磁盘缓存
- 配置Spark SQL开启Adaptive Execution特性
- 配置eventlog日志回滚
- 使用Ranger时适配第三方JDK
- Spark2x日志介绍
- 获取运行中Spark应用的Container日志
- 小文件合并工具
- CarbonData首查优化工具
- Spark2x性能调优
-
Spark2x常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- 执行Hive命令修改元数据时失败或不生效
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 在spark-beeline中创建临时表/视图时,报HDFS目录无权限操作的错误
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- 为什么spark-beeline运行失败报“Failed to create ThriftService instance”的错误
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn常用参数
- 创建Yarn角色
- 使用Yarn客户端
- 配置NodeManager角色实例使用的资源
- 更改NodeManager的存储目录
- 配置YARN严格权限控制
- 配置Container日志聚合功能
- 启用CGroups功能
- 配置AM失败重试次数
- 配置AM自动调整分配内存
- 配置访问通道协议
- 检测内存使用情况
- 配置自定义调度器的WebUI
- 配置YARN Restart特性
- 配置AM作业保留
- 配置本地化日志级别
- 配置运行任务的用户
- Yarn日志介绍
- Yarn性能调优
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会抛出HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 为什么执行任务时AppAttempts重试次数超过2次还没有运行失败
- 为什么在ResourceManager重启后,应用程序会移回原来的队列
- 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
- 最佳实践
-
开发指南(适用于2.x及之前)
- 简介
- MapReduce服务样例工程构建方式
- HBase应用开发
- Hive应用开发
- MapReduce应用开发
- HDFS应用开发
-
Spark应用开发
- 概述
- 环境准备
- 开发程序
- 调测程序
- 调优程序
- Spark接口
-
FAQ
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 本地运行Spark程序连接MRS集群的Hive、HDFS
- 开发规范
- Storm应用开发
- Kafka应用开发
- Presto应用开发
- OpenTSDB应用开发
- Flink应用开发