- 最新动态
- 功能总览
- 服务公告
-
产品介绍
- 图解MapReduce服务
- 什么是MapReduce服务
- 产品优势
- 应用场景
- MRS集群版本说明
- MRS组件版本一览表
- 组件介绍
- 产品功能
- 安全
- 约束与限制
- 技术支持
- 计费说明
- 权限管理
- 与其他云服务的关系
- 配额说明
- 常见概念
- 发行版本
- 计费说明
- 快速入门
-
用户指南
- 准备工作
- MRS集群规划
- 购买MRS集群
- 安装MRS集群客户端
- 提交MRS作业
- 管理MRS集群
-
MRS集群运维
- MRS集群运维说明
- 登录MRS集群
- 查看MRS集群监控指标
- MRS集群健康检查
- MRS集群容量调整
- 备份恢复MRS集群数据
- 安装MRS集群补丁
-
MRS集群补丁说明
- EulerOS补丁说明
- MRS 3.3.1-LTS.1.2补丁说明
- MRS 3.3.1-LTS.1.1补丁说明
- MRS 3.3.0-LTS.1.1补丁说明
- MRS 3.3.0.3.1补丁说明
- MRS 3.2.0-LTS.1.10补丁说明
- MRS 3.2.0-LTS.1.9补丁说明
- MRS 3.2.0-LTS.1.8补丁说明
- MRS 3.2.0-LTS.1补丁说明
- MRS 3.1.5补丁说明
- MRS 3.1.2-LTS.2补丁说明
- MRS 3.1.2-LTS补丁说明
- MRS 3.1.0.0.16补丁说明
- MRS 3.1.0补丁说明
- MRS 3.1.0 运维通道补丁说明
- MRS 3.0.5.1补丁说明
- MRS 2.1.1.1补丁说明
- MRS 2.1.0.11补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.5补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.1补丁说明
- MRS 1.9.3.9及之后版本补丁说明
- MRS 1.9.3.3补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.2.3及之后版本补丁说明
- MRS 1.9.2.2补丁说明
- MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.8.10.6补丁说明
- MRS 1.8.10.1补丁说明
- MRS 1.8.7.1补丁说明
- MRS 1.7.1.6补丁说明
- MRS 1.7.1.5补丁说明
- MRS 1.7.1.3补丁说明
- MRS 1.5.1.4补丁说明
- 查看MRS集群日志
- MRS集群安全配置
- 查看与配置MRS告警事件
-
MRS集群告警处理参考
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态和Z状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12091 disaster资源异常
- ALM-12099 发生core dump
- ALM-12100 AD服务器连接异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12103 executor资源异常
- ALM-12104 knox资源异常
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12172 指标上报CES失败
- ALM-12180 磁盘卡IO
- ALM-12186 用户CGroup任务数使用率超过阈值
- ALM-12187 磁盘分区扩容失败
- ALM-12188 diskmgt磁盘监控服务不可用
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-12207 慢盘处理超时
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-14036 NameNode进入安全模式
- ALM-14037 存在集群外的DataNode
- ALM-14038 Router堆内存使用率超过阈值
- ALM-14039 集群内存在慢DataNode
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
- ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-18027 JobHistoryServer进程状态异常
- ALM-18028 TimeLineServer进程状态异常
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19021 RegionSever handler 使用率超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-19036 HBase关键目录数据存在坏块
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25007 SlapdServer连接数超过阈值
- ALM-25008 SlapdServer CPU使用率超过阈值
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29010 Impalad 正在提交的查询总数超过阈值
- ALM-29011 Impalad 正在执行的查询总数超过阈值
- ALM-29012 Impalad 正在等待的查询总数超过阈值
- ALM-29013 Impalad FGCT超过阈值
- ALM-29014 Catalog FGCT超过阈值
- ALM-29015 Catalog进程内存占用率超过阈值
- ALM-29016 Impalad实例亚健康
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
- ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-38012 Broker的分区数量超过阈值
- ALM-38013 Produce请求在请求队列的时延超过阈值
- ALM-38014 Produce请求总体时延超过阈值
- ALM-38015 Fetch请求在请求队列的时延超过阈值
- ALM-38016 Fetch请求总体时延超过阈值
- ALM-38017 分区均衡时间超过阈值
- ALM-38018 Kafka消息积压
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-43028 JDBCServer Session过载
- ALM-43029 JDBCServer作业提交超时
- ALM-44000 Presto服务不可用
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45008 HetuEngine计算实例查询时延超过阈值
- ALM-45009 HetuEngine计算实例任务失败率超过阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45179 OBS readFully接口调用失败数高于阈值
- ALM-45180 OBS read接口调用失败数高于阈值
- ALM-45181 OBS write接口调用失败数高于阈值
- ALM-45182 OBS操作被流控次数高于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45294 RangerKMS进程状态异常
- ALM-45325 Presto服务不可用
- ALM-45326 Presto Coordinator线程数超过阈值
- ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-45328 Presto Worker进程垃圾收集时间超出阈值
- ALM-45329 Presto Coordinator资源组排队任务超过阈值
- ALM-45330 Presto Worker线程数超过阈值
- ALM-45331 Presto Worker1线程数超过阈值
- ALM-45332 Presto Worker2线程数超过阈值
- ALM-45333 Presto Worker3线程数超过阈值
- ALM-45334 Presto Worker4线程数超过阈值
- ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
- ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
- ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
- ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45431 ClickHouse 实例不满足拓扑分配
- ALM-45432 ClickHouse用户同步进程故障
- ALM-45433 ClickHouse AZ拓扑检查异常
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45435 ClickHouse表元数据不一致
- ALM-45436 ClickHouse表数据倾斜
- ALM-45437 ClickHouse表part数量过多
- ALM-45438 ClickHouse磁盘使用率超过80%
- ALM-45439 ClickHouse节点进入只读模式
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45447 ClickHouse表只读
- ALM-45448 ClickHouse使用Znode数量增长速率过快
- ALM-45449 ClickHouse使用zxid即将翻转
- ALM-45450 ClickHouse获取临时委托凭据失败
- ALM-45451 ClickHouse访问OBS失败
- ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 FlinkServer作业task持续背压
- ALM-45638 FlinkServer作业失败重启次数超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 TokenServer堆内存使用率超过阈值
- ALM-45738 TokenServer直接内存使用率超过阈值
- ALM-45739 TokenServer非堆内存使用率超过阈值
- ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 请求ECS securitykey接口失败
- ALM-45742 请求ECS metadata接口失败
- ALM-45743 请求IAM接口失败
- ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
- ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
- ALM-47001 MemArtsCC服务不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-47003 MemArtsCC Worker进程内存使用超过阈值
- ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例故障
- ALM-50226 BE实例故障
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50231 Doris中存在异常Tablet
- ALM-50232 Doris中存在较大的Tablet
- ALM-50401 JobServer中等待执行的任务数超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-50406 JobServer提交作业接口失败率超过阈值
- ALM-50407 JobServer查询作业接口失败率超过阈值
- ALM-50408 JobServer终止作业接口失败率超过阈值
- ALM-12001 审计日志转储失败(2.x及以前版本)
- ALM-12002 HA资源异常(2.x及以前版本)
- ALM-12004 OLdap资源异常(2.x及以前版本)
- ALM-12005 OKerberos资源异常(2.x及以前版本)
- ALM-12006 节点故障(2.x及以前版本)
- ALM-12007 进程故障(2.x及以前版本)
- ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
- ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
- ALM-12012 NTP服务异常(2.x及以前版本)
- ALM-12014 设备分区丢失(2.x及以前版本)
- ALM-12015 设备分区文件系统只读(2.x及以前版本)
- ALM-12016 CPU使用率超过阈值(2.x及以前版本)
- ALM-12017 磁盘容量不足(2.x及以前版本)
- ALM-12018 内存使用率超过阈值(2.x及以前版本)
- ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
- ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
- ALM-12031 omm用户或密码即将过期(2.x及以前版本)
- ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
- ALM-12033 慢盘故障(2.x及以前版本)
- ALM-12034 周期备份任务失败(2.x及以前版本)
- ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
- ALM-12037 NTP服务器异常(2.x及以前版本)
- ALM-12038 监控指标转储失败(2.x及以前版本)
- ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
- ALM-12040 系统熵值不足(2.x及以前版本)
- ALM-12041关键文件权限异常(2.x及以前版本)
- ALM-12042 关键文件配置异常(2.x及以前版本)
- ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
- ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
- ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
- ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
- ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
- ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
- ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
- ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
- ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
- ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
- ALM-12054 证书文件失效(2.x及以前版本)
- ALM-12055 证书文件即将过期(2.x及以前版本)
- ALM-12180 磁盘卡IO(2.x及以前版本)
- ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
- ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
- ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
- ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
- ALM-14000 HDFS服务不可用(2.x及以前版本)
- ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
- ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
- ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
- ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
- ALM-14010 NameService服务异常(2.x及以前版本)
- ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
- ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
- ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
- ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
- ALM-16004 Hive服务不可用(2.x及以前版本)
- ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
- ALM-18000 Yarn服务不可用(2.x及以前版本)
- ALM-18002 NodeManager心跳丢失(2.x及以前版本)
- ALM-18003 NodeManager不健康(2.x及以前版本)
- ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
- ALM-18006 执行MapReduce任务超时(2.x及以前版本)
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
- ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
- ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
- ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
- ALM-19000 HBase服务不可用(2.x及以前版本)
- ALM-19006 HBase容灾同步失败(2.x及以前版本)
- ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
- ALM-20002 Hue服务不可用(2.x及以前版本)
- ALM-23001 Loader服务不可用(2.x及以前版本)
- ALM-24000 Flume服务不可用(2.x及以前版本)
- ALM-24001 Flume Agent异常(2.x及以前版本)
- ALM-24003 Flume Client连接中断(2.x及以前版本)
- ALM-24004 Flume读取数据异常(2.x及以前版本)
- ALM-24005 Flume传输数据异常(2.x及以前版本)
- ALM-25000 LdapServer服务不可用(2.x及以前版本)
- ALM-25004 LdapServer数据同步异常(2.x及以前版本)
- ALM-25500 KrbServer服务不可用(2.x及以前版本)
- ALM-26051 Storm服务不可用(2.x及以前版本)
- ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
- ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
- ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
- ALM-27001 DBService服务不可用(2.x及以前版本)
- ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
- ALM-27004 DBService主备数据不同步(2.x及以前版本)
- ALM-28001 Spark服务不可用(2.x及以前版本)
- ALM-38000 Kafka服务不可用(2.x及以前版本)
- ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
- ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
- ALM-43001 Spark服务不可用(2.x及以前版本)
- ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
- ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
- ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-45325 Presto服务不可用(2.x及以前版本)
- 配置MRS集群远程运维
- MRS集群服务常用端口列表
- 配置MRS集群存算分离
-
组件操作指南(LTS版)
-
使用CarbonData
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
-
CarbonData语法参考
- CREATE TABLE
- CREATE TABLE As SELECT
- DROP TABLE
- SHOW TABLES
- ALTER TABLE COMPACTION
- TABLE RENAME
- ADD COLUMNS
- DROP COLUMNS
- CHANGE DATA TYPE
- REFRESH TABLE
- REGISTER INDEX TABLE
- LOAD DATA
- UPDATE CARBON TABLE
- DELETE RECORDS from CARBON TABLE
- INSERT INTO CARBON TABLE
- DELETE SEGMENT by ID
- DELETE SEGMENT by DATE
- SHOW SEGMENTS
- CREATE SECONDARY INDEX
- SHOW SECONDARY INDEXES
- DROP SECONDARY INDEX
- CLEAN FILES
- SET/RESET
- CarbonData表操作并发语法说明
- CarbonData Segment API语法说明
- CarbonData表空间索引语法说明
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
- CarbonData故障排除
- 使用CDL
-
使用ClickHouse
- ClickHouse概述
- ClickHouse用户权限管理
- ClickHouse客户端使用实践
- ClickHouse数据导入
- ClickHouse企业级能力增强
- ClickHouse性能调优
- ClickHouse运维管理
- ClickHouse常用SQL语法
- ClickHouse常见问题
- 使用DBService
- 使用Doris
-
使用Flink
- Flink作业引擎概述
- Flink用户权限管理
- Flink客户端使用实践
- 创建FlinkServer作业前准备
- 创建FlinkServer作业
- 管理FlinkServer作业
-
Flink企业级能力增强
- Flink SQL语法增强
- 多流Join场景支持配置表级别的TTL时间
- 配置Flink SQL Client支持SQL校验功能
- Flink作业大小表Join能力增强
- FlinkSQL OVER窗口支持超期退窗
- FlinkSQL Kafka和upsert-kafka Connector支持限流读
- FlinkSQL Kafka Connector支持消费drs-json格式数据
- FlinkSQL写入JDBC数据支持ignoreDelete
- Join-To-Live
- FlinkSQL行级过滤
- FlinkSQL算子并行度
- FlinkSQL JSON_VALUE函数性能优化
- FlinkSQL Lookup算子复用
- FlinkSQL Function增强
- FlinkSQL支持MultiJoin算子
- Flink运维管理
- Flink性能调优
- Flink客户端常见命令说明
- Flink常见SQL语法说明
- Flink常见问题
- Flink故障排除
- 使用Flume
- 使用Guardian
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序,导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件,提示权限不足
- HBase全局二级索引API介绍说明
- HBase如何关闭HDFS多路读功能
-
HBase故障排除
- HBase客户端连接服务端时长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果
- HBase恢复数据任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HDFS进入安全模式导致HBase服务异常,退出安全模式后HBase如何快速恢复
- 使用HDFS
-
使用HetuEngine
- HetuEngine交互查询引擎概述
- HetuEngine用户权限管理
- 快速使用HetuEngine访问Hive数据源
- 创建HetuEngine计算实例
- 添加HetuEngine数据源
- 配置HetuEngine物化视图
- 配置HetuEngine SQL诊断功能
- 开发和部署HetuEngine UDF
- 管理HetuEngine数据源
- 管理HetuEngine计算实例
- HetuEngine性能调优
- HetuEngine日志介绍
-
HetuEngine常见SQL语法说明
- HetuEngine数据类型说明
-
HetuEngine DDL SQL语法说明
- CREATE SCHEMA
- CREATE VIRTUAL SCHEMA
- CREATE TABLE
- CREATE TABLE AS
- CREATE TABLE LIKE
- CREATE VIEW
- CREATE FUNCTION
- CREATE MATERIALIZED VIEW
- ALTER MATERIALIZED VIEW STATUS
- ALTER MATERIALIZED VIEW
- ALTER TABLE
- ALTER VIEW
- ALTER SCHEMA
- DROP SCHEMA
- DROP TABLE
- DROP VIEW
- DROP FUNCTION
- DROP MATERIALIZED VIEW
- REFRESH MATERIALIZED VIEW
- TRUNCATE TABLE
- COMMENT
- VALUES
- SHOW语法使用概要
- SHOW CATALOGS
- SHOW SCHEMAS(DATABASES)
- SHOW TABLES
- SHOW TBLPROPERTIES TABLE|VIEW
- SHOW TABLE/PARTITION EXTENDED
- SHOW STATS
- SHOW FUNCTIONS
- SHOW SESSION
- SHOW PARTITIONS
- SHOW COLUMNS
- SHOW CREATE TABLE
- SHOW VIEWS
- SHOW CREATE VIEW
- SHOW MATERIALIZED VIEWS
- SHOW CREATE MATERIALIZED VIEW
- HetuEngine DML SQL语法说明
- HetuEngine TCL SQL语法说明
- HetuEngine DQL SQL语法说明
- HetuEngine SQL函数和操作符说明
- HetuEngine辅助命令语法
- HetuEngine预留关键字
- HetuEngine数据类型隐式转换
- HetuEngine样例表数据准备
- HetuEngine常用数据源语法兼容性说明
- HetuEngine常见问题
- HetuEngine故障排除
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库
- 配置Hive读取Hudi表
-
Hive企业级能力增强
- 配置Hive表不同分区分别存储至OBS和HDFS
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- 配置Hive自读自写SQL防御规则
- 配置Hive动态脱敏
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
-
使用Hudi
- Hudi表概述
- 使用Spark Shell创建Hudi表
- 使用spark-sql操作Hudi表
- 使用Hudi-Cli.sh操作Hudi表
- Hudi写操作
- Hudi读操作
- Hudi数据管理维护
- Hudi SQL语法参考
- Hudi Schema演进
- 配置Hudi数据列默认值
- Hudi支持Partial Update
- Hudi支持聚合函数
- Hudi常见配置参数
- Hudi性能调优
-
Hudi常见问题
- 写入更新数据时报错Parquet/Avro schema
- 写入更新数据时报错UnsupportedOperationException
- 写入更新数据时报错SchemaCompatabilityException
- Hudi在upsert时占用了临时文件夹中大量空间
- Hudi写入小精度Decimal数据失败
- 使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
- 使用kafka采集数据时报错IllegalArgumentException
- Hive同步数据报错SQLException
- Hive同步数据报错HoodieHiveSyncException
- Hive同步数据报错SemanticException
- 使用Hue
-
使用Impala
- Impala客户端使用实践
- 访问Impala WebUI界面
- 使用Impala操作Kudu表
- Impala对接外部LDAP
- Impala启用并配置动态资源池
- 使用Impala查询管理界面
- Impala常见配置参数
-
Impala常见问题
- Impala服务是否支持磁盘热插拔
- Impala对接低版本kudu后,无法执行join
- MRS集群外节点如何安装impala-shell客户端?
- Impala 4.3.0版本,开启Ranger后如何对接kudu外表?
- 通过impala-shell连接不上Impalad的21000端口
- Impala集群查询数据的时候出现bad version和invalid TType错误
- 如何关闭MRS集群Impalad角色的cas认证
- Impala查询parquet表的Schema和文件Schema不一致时报错
- Impalad的session连接长时间没使用,但连接没有自动断开
- Impala正常使用的udf突然报了找不到类路径,Hive中可用,但Impala报找不到类路径
- Impalad的xmx内存小于catalog的xmx内存,Impalad节点持续报Full GC,SQL一直处于created状态
- 使用Iceberg
- 使用IoTDB
- 使用JobGateway
- 使用Kafka
- 使用Kudu
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- Oozie企业级能力增强
- Oozie日志介绍
- Oozie常见问题
- 使用Ranger
-
使用Spark/Spark2x
- Spark使用说明
- Spark用户权限管理
- Spark客户端使用实践
- 访问Spark WebUI界面
- 使用代理用户提交Spark作业
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark on OBS性能调优
-
Spark运维管理
- 快速配置Spark参数
- Spark常用配置参数
- Spark日志介绍
- 获取运行中Spark应用的Container日志
- 调整Spark日志级别
- 配置WebUI上查看Container日志
- 配置WebUI上显示的Lost Executor信息的个数
- 配置JobHistory本地磁盘缓存
- 配置Spark Eventlog日志回滚
- 增强有限内存下的稳定性
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- Hive分区修剪的谓词下推增强
- 配置列统计值直方图Histogram用以增强CBO准确度
- CarbonData首查优化工具
- 消减Spark Insert Overwrite自读自写风险
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
Spark故障排除
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- 使用Sqoop
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- 配置TimelineServer支持HA
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
-
组件操作指南(普通版)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删后为什么Carbon表没有执行drop命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 租户使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件提示权限不足
-
HBase故障排除
- HBase客户端连接服务端时,长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果
- HBase数据恢复任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 使用HDFS
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库数据
-
Hive企业级能力增强
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问Beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用MapReduce
- 使用OpenTSDB
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- 开启Oozie HA机制
- Oozie日志介绍
- Oozie常见问题
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark(MRS 3.x之前版本)
-
使用Spark2x(MRS 3.x及之后版本)
- Spark用户权限管理
- Spark客户端使用实践
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark运维管理
-
Spark2x常见问题
-
Spark Core
- 日志聚合下如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- 在ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 常见操作
-
最佳实践
- MRS最佳实践汇总
-
数据分析
- 使用Spark2x实现车联网车主驾驶行为分析
- 使用Hive加载HDFS数据并分析图书评分情况
- 使用Hive加载OBS数据并分析企业雇员信息
- 通过Flink作业处理OBS数据
- 通过Spark Streaming作业消费Kafka数据
- 通过Flume采集指定目录日志系统文件至HDFS
- 基于Kafka的Word Count数据流统计案例
-
实时OLAP数据分析
- 实时OLAP场景介绍
- 离线数据加载:通过CDM将Hive外表数据迁移到Doris
- 离线数据加载:通过Doris Catalog读取Hive外表数据并写入Doris
- 离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris
- 离线数据加载:通过Spark视图读取Hive外表数据并写入Doris
- 离线数据加载:通过StreamLoad将本地CSV文件导入Doris
- 离线数据加载:通过Broker Load将ORC格式的Hive数据导入Doris
- 实时数据加载:通过FlinkSQL将订单表Kafka数据实时同步到Doris
- 实时OLAP数据查询:基于Unique表的单表检索查询和聚合查询
- 物联网时序数据分析
- 数据迁移
- 周边云服务对接
- 生态组件对接
- MRS集群管理
-
开发指南
-
开发指南(LTS版)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS组件应用安全认证说明
- 准备MRS应用开发用户
- 快速开发MRS组件应用
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
- Doris开发指南(安全模式)
- Doris开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- HetuEngine开发指南(安全模式)
- HetuEngine开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- IoTDB开发指南(安全模式)
- IoTDB开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
- Manager管理开发指南
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
-
开发指南(普通版_3.x)
- MRS应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
- MRS应用开发安全认证说明
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- Impala开发指南(安全模式)
- Impala开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- Kudu开发指南(安全模式)
- Kudu开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- Storm开发指南(安全模式)
- Storm开发指南(普通模式)
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
-
开发指南(普通版_2.x)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- Alluxio开发指南
-
Flink开发指南
- Flink应用开发概述
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink Savepoints CLI介绍
- Flink Client CLI介绍
- Flink应用性能调优建议
- Savepoints相关问题解决方案
- 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
- 如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
- 为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
- 为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
- 为什么Flink Web页面无法直接连接?
- HBase开发指南
- HDFS开发指南
- Hive开发指南
- Impala开发指南
- Kafka开发指南
- MapReduce开发指南
- OpenTSDB开发指南
- Presto开发指南
-
Spark开发指南
- Spark应用开发概述
- 准备Spark应用开发环境
- 开发Spark应用
- 调测Spark应用
-
Spark应用开发常见问题
- Spark接口介绍
- Spark应用调优
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 本地运行Spark程序连接MRS集群的Hive、HDFS
- Storm开发指南
-
组件应用开发规范
- ClickHouse应用开发规范
- Doris应用开发规范
-
Flink应用开发规范
- Flink开发规范概述
-
FlinkSQL Connector开发规范
- FlinkSQL ClickHouse表开发规则
- FlinkSQL ClickHouse表开发建议
- FlinkSQL Doris数据表开发规则
- FlinkSQL Kafka表开发规则
- FlinkSQL Kafka表开发建议
- FlinkSQL HBase数据表开发规则
- FlinkSQL HBase数据表开发建议
- FlinkSQL Elasticsearch表开发规则
- FlinkSQL Elasticsearch表开发建议
- FlinkSQL JDBC表开发规则
- FlinkSQL JDBC表开发建议
- FlinkSQL DWS表开发规则
- FlinkSQL DWS表开发建议
- FlinkSQL Redis表开发规则
- FlinkSQL Redis表开发建议
- FlinkSQL Hive表开发规则
- FlinkSQL Hive表开发建议
- Flink on Hudi开发规范
- Flink任务开发规范
- Flink SQL逻辑开发规范
- Flink性能调优开发规范
- Flink开发样例
- Flink常见开发问题
- HBase应用开发规范
- HDFS应用开发规范
- Hive应用开发规范
- Hudi应用开发规范
- Impala应用开发规范
- IoTDB应用开发规范
- Kafka应用开发规范
- Mapreduce应用开发规范
- Spark应用开发规范
-
开发指南(LTS版)
- API参考
- SDK参考
- 场景代码示例
-
常见问题
- 产品咨询类
- 计费类
- 集群创建类
- Web页面访问类
- 用户认证及权限类
- 客户端使用类
-
组件配置类
- MRS是否支持Hive on Kudu?
- MRS集群是否支持Hive on Spark?
- 如何修改DBService的IP地址?
- Kafka支持的访问协议类型有哪些?
- MRS集群中Spark任务支持哪些Python版本?
- MRS 2.1.0版本集群对Storm日志的大小有什么限制?
- 如何修改现有集群的HDFS fs.defaultFS?
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错如何处理?
- Hue连接HiveServer报错“over max user connections”如何处理?
- 如何查看MRS Hive元数据?
- 如何重置MRS Kafka数据?
- 消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常如何处理?
- Presto如何配置其他数据源?
- MRS 1.9.3 Ranger证书如何更新?
- MRS的Storm集群提交任务时如何指定日志路径?
- 如何检查Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- ClickHouse系统表日志过大时如何添加定期删除策略?
- 如何修改ClickHouse服务时区?
-
集群管理类
- 如何查看所有MRS集群?
- 如何查看MRS服务的操作日志信息?
- 如何查看MRS集群配置信息?
- 如何在MRS集群中手动添加组件?
- 如何取消MRS集群风险告警的消息通知?
- 为什么MRS集群显示的资源池内存小于实际集群内存?
- MRS集群安装的Python版本是多少?
- 如何上传本地文件到集群内节点?
- MRS集群节点时间信息不正确如何处理?
- MRS管理控制台和集群Manager页面功能区别有哪些?
- MRS集群如何解绑已绑定至Manager的EIP?
- 如何关闭MRS集群内节点的防火墙服务?
- MRS集群内节点的登录方式如何切换?
- 如何通过集群外的节点访问MRS集群?
- MRS集群中Kafka Topic监控是否支持发送告警?
- 产生Yarn队列资源不足告警时正在运行的资源队列如何查看?
- HBase操作请求次数指标中的多级图表统计如何理解?
- 节点管理类
- 组件管理类
-
作业管理类
- MRS集群支持提交哪些形式的Spark作业?
- MRS节点访问OBS报错408如何处理?
- 如何让不同的业务程序分别用不同的Yarn队列?
- 提交作业失败,报错与OBS相关如何处理?
- MRS集群租户资源最小值为0时只能同时运行一个任务吗?
- 作业提交参数间用空格隔开导致参数信息不被识别如何处理?
- Spark作业的Client模式和Cluster模式有什么区别?
- 如何查看MRS作业的日志?
- 提交作业时系统提示当前用户在Manager不存在如何处理?
- LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
- 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
- SparkStreaming作业运行后报OBS访问403如何处理?
- Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
- Spark作业访问OBS报错“requestId=XXX”如何处理?
- Spark作业报错“UnknownScannerExeception”如何处理?
- DataArts Studio调度Spark作业偶现失败如何处理?
- 运行Flink任务报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
- 提交的Yarn作业在界面上查看不到如何处理?
- 提交Flink任务时launcher-job被Yarn终止如何处理?
- 提交Flink作业时报错slot request timeout如何处理?
- DistCP作业导入导出数据常见问题
- 如何通过Yarn WebUI查看Hive作业对应的SQL语句?
- 如何查看指定Yarn任务的日志?
- 添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
- Spark Job对应的运行日志保存在哪里?
- 执行Spark任务报内存不足告警如何处理?
- 修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
- SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
- MRS集群用户绑定多个队列时系统如何选择队列?
- 性能优化类
- 应用开发类
-
周边生态对接类
- MRS是否支持对DLI服务的业务表进行读写操作?
- OBS是否支持ListObjectsV2协议?
- MRS集群内的节点中可以部署爬虫服务吗?
- MRS服务是否支持安全删除的能力?
- 如何使用PySpark连接MRS Spark?
- HBase同步数据到CSS为什么没有映射字段?
- MRS集群是否支持对接外部KDC?
- 开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
- MRS导出数据到OBS加密桶失败如何处理?
- MRS服务如何对接云日志服务?
- MRS集群的节点如何安装主机安全服务?
- 如何通过happybase连接到MRS服务的HBase?
- Hive Driver是否支持对接dbcp2?
- 升级补丁类
-
故障排除
- 账号密码类
- 账号权限类
-
Web页面访问类
- 无法访问MRS集群Manager页面如何处理?
-
登录集群Manager常见异常问题
- 访问MRS Manager页面报错“502 Bad Gateway”
- 访问Manager页面报错“请求VPC错误”
- 通过专线访问Manager页面方式出现503报错
- 登录Manager集群页面时报错“You have no right to access the page”
- 登录Manager时界面报错“认证信息无效”
- Manager界面超时退出后无法正常登录
- 升级Python后无法登录Manager页面
- 修改集群域名后无法登录Manager页面
- 登录Manager界面后页面空白无内容
- 集群节点内安装了原生Kerberos导致登录集群失败
- macOS使用浏览器访问MRS Manager
- Manager界面登录用户被锁如何解锁
- Manager页面加载卡顿
-
访问MRS组件Web UI界面常见异常问题
- 使用admin用户访问组件的WebUI界面报错或部分功能不可用
- 访问组件WebUI页面报500异常
- 【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
- 【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
- 【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
- 【Hue WebUI】登录Hue WebUI报错无权限
- 【Hue WebUI】Hue WebUI页面无法访问
- 【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
- 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
- 【Hue WedUI】Hue(主)无法打开web网页
- 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
- 【Tez WebUI】访问Tez WebUI界面报错404
- 【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
- 【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
- 【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
- 【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
- 【Yarn WebUI】无法访问Yarn WebUI
- API使用类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份任务执行失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除网络ACL的关联子网
- 修改节点主机名后导致MRS集群状态异常
- 进程被终止如何定位原因
- MRS配置跨集群互信失败
- MRS集群节点使用pip3安装Python时提示网络不可达
- 开源confluent-kafka-go连接MRS安全集群
- MRS集群周期备份任务执行失败
- MRS集群客户端无法下载
- 开启Kerberos认证的MRS集群提交Flink作业报错
- 通过Hive beeline命令行执行插入命令的时候报错
- MRS集群节点如何进行操作系统漏洞升级
- 使用CDM服务迁移数据至MRS HDFS时任务运行失败
- MRS集群频繁产生节点间心跳中断告警
- PMS进程占用内存高
- Knox进程占用内存高
- 安全集群外的客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- HDFS日志文件过大导致OS盘空间不足
- MRS集群节点规格升级异常
- Manager页面新建的租户删除失败
- MRS集群切换VPC后集群状态异常不可用
- MRS管理控制台上提交作业异常处理
- 生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
- MRS集群Core节点扩容成功后部分实例启动失败
- MRS集群所在VPC部署了VPCEP后集群补丁安装失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
- Flink客户端执行命令报错“Could not connect to the leading JobManager”
- 使用不同用户执行yarn-session创建Flink集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别不生效
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示“FileNotFoundException”
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
- 集群扩容之后新节点HRegionServer启动失败
- HBase文件丢失导致Region状态长时间为RIT
-
使用HDFS
- 修改RPC端口后HDFS NameNode实例都变为备状态
- 通过公网IP连接使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量达到100%导致上层服务HBase、Spark等不可用
- 启动HDFS和Yarn服务报错“Permission denied”
- HDFS用户可在其他用户目录下创建或删除文件
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS NameNode启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%导致节点丢失
- 单NameNode长期故障时如何使用客户端手动checkpoint
- HDFS文件读写时报错“Failed to place enough replicas”
- 文件最大打开句柄数设置太小导致读写文件异常
- HDFS客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后上传数据,block大小未改变
- 读取HDFS文件失败,报错“FileNotFoundException”
- HDFS写文件失败,报错“item limit of xxx is exceeded”
- 调整HDFS SHDFShell客户端日志级别
- HDFS读文件失败报错“No common protection layer”
- HDFS目录配额不足导致写文件失败
- 执行balance失败报错“Source and target differ in block-size”
- 查询或者删除HDFS文件失败
- 非HDFS数据残留导致数据分布不均衡
- HDFS客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
- 集群外节点安装客户端上传HDFS文件失败
- HDFS写并发较大时报副本不足
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
- NameNode节点存在ALM-12027主机PID使用率超过阈值告警
- 集群出现ALM-14012 Journalnode数据不同步告警
- 由于HDFS块丢失导致DataNode退服失败
- 使用distcp命令拷贝空文件夹报错
-
使用Hive
- Hive常见日志说明
- Hive服务启动失败
- 安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
- 提交Hive任务时如何指定队列?
- 怎么通过客户端设置Map/Reduce内存?
- 如何在导入Hive表时指定输出的文件压缩格式?
- Hive表desc描述过长导致无法完整显示
- Hive表中增加分区列后再插入数据显示为NULL
- 集群中创建的新用户执行查询Hive操作时无权限
- 执行SQL提交任务到指定队列时报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table命令报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin命令报无权限
- 在beeline客户端创建UDF时报错
- Hive服务状态为故障如何处理
- Hive服务健康状态和Hive实例健康状态的区别
- Shell客户端连接提示“authentication failed”
- 客户端提示访问ZooKeeper失败
- 使用UDF函数时提示“Invalid function”
- Hive服务状态为Unknown
- HiveServer或者MetaStore实例的健康状态为unknown
- HiveServer或者MetaStore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时查询结果乱码
- Hive任务运行过程中失败,重试成功
- 执行select语句时报错“Execution Error return code 2”
- 有大量分区时执行drop partition操作失败
- 执行join操作时localtask启动失败
- 修改hostname后导致WebHCat启动失败
- 集群修改域名后Hive样例程序运行报错
- DBService超过最大连接数后导致Hive MetaStore异常
- beeline客户端报错“Failed to execute session hooks: over max connections”
- beeline客户端报错“OutOfMemoryError”
- 输入文件数超出设置限制导致任务执行失败
- Hive任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- 参考Hive JDBC代码用例开发的业务应用运行失败
- HiveServer和HiveHCat进程故障
- MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
- Hive执行insert into语句报错
- 增加Hive表字段超时
- 重启Hive服务失败
- Hive分区数过多导致删除表失败
- Hive执行msck repair table命令时报错
- Hive执行insert into命令报用户权限不足
- 在Hive中drop表后如何完全释放磁盘空间
- JSON表中有破损数据导致Hive查询异常
- Hive客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- Hive元数据使用RDS时创建视图表中文乱码
- MetaStore动态分区数超出阈值导致SQL报错
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka客户端获取Topic时报错
- 安全集群中使用Python3.x对接Kafka
- Flume正常连接Kafka后发送消息失败
- Producer发送数据失败,报错“NullPointerException”
- Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
- Producer偶现发送数据失败,日志提示“Too many open files in system”
- Consumer初始化成功但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
- 新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
- SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
- Consumer消费数据失败,提示“SchemaException: Error reading field”
- Kafka Consumer消费数据丢失
- 账号锁定导致启动Kafka组件失败
- Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
- 执行Kafka Topic删除操作时发现无法删除
- 执行Kafka Topic删除操作时提示“AdminOperationException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
- 执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
- 执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
- Consumer消费数据时存在重复消费现象
- 执行Kafka Topic创建操作时发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置Kafka客户端shell命令日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- 使用Kafka Shell命令无法操作Kafka集群
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高
- Kafka连接ZooKeeper客户端时发生断链
- 使用Oozie
- 使用Presto
-
使用Spark
- 运行Spark应用时修改split值报错
- 提交Spark任务时提示参数格式错误
- 磁盘容量不足导致Spark、Hive和Yarn服务不可用
- 引入jar包不正确导致Spark任务无法运行
- Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
- 提交Spark任务时报错“ClassNotFoundException”
- 提交Spark任务时Driver端提示运行内存超限
- Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
- JDK版本不匹配导致启动spark-sql和spark-shell失败
- Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
- 提交Spark任务时连接ResourceManager异常
- DataArts Studio调度Spark作业失败
- 通过API提交Spark作业后作业状态为error
- MRS集群反复上报43006告警
- 在spark-beeline中创建或删除表失败
- 集群外节点提交Spark作业时报错无法连接Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行SQL跨文件系统load数据到Hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark Streaming任务提交问题
- Spark连接其他服务认证问题
- Spark连接Kafka认证错误
- SparkSQL读取ORC表报错
- Spark WebUI页面上stderr和stdout无法跳转到日志页面
- spark-beeline查询Hive视图报错
- Spark Streaming任务失败但是Yarn WebUI中显示状态为成功
- 使用Sqoop
-
使用Storm
- Storm WebUI页面中events超链接地址无效
- 提交Storm拓扑失败排查思路
- 提交Storm拓扑失败,提示Failed to check principle for keytab
- 提交Storm拓扑后Worker日志为空
- 提交Storm拓扑后Worker运行异常,日志提示Failed to bind to XXX
- 使用jstack命令查看进程堆栈提示“well-known file is not secure”
- 使用Storm-JDBC插件开发Oracle写入Bolt时发现数据无法写入
- Storm业务拓扑配置GC参数不生效
- Storm UI查看信息时显示Internal Server Error
- 使用Ranger
-
使用Yarn
- 集群启动Yarn后产生大量作业占用资源
- 通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
- Yarn汇聚日志过大导致节点磁盘被占满
- MapReduce任务异常,临时文件未删除
- Yarn客户端的端口信息错误导致提交任务后报错connection refused
- 通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
- 通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
- 通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
- 使用Yarn客户端命令查询历史作业报错
- TimelineServer目录文件数量到达上限
- 使用ZooKeeper
- 存算分离类
- 视频帮助
- 文档下载
- 通用参考
- 概述
- 配置Stage失败重试次数
- 配置是否使用笛卡尔积功能
- Spark长时间任务安全认证配置
- Python Spark
- Dynamic Allocation
- Spark Streaming
- Spark Streaming Kafka
- Netty/NIO及Hash/Sort配置
- 普通Shuffle配置
- Driver配置
- ExecutorLaucher配置
- Executor配置
- WebUI
- HistoryServer
- HistoryServer UI超时和最大访问数
- EventLog
- EventLog的周期清理
- Kryo
- Broadcast
- Storage
- PORT
- 随机端口范围
- TIMEOUT
- 加密
- 安全性
- 开启Spark进程间的认证机制
- Compression
- 在资源不足的情况下,降低客户端运行异常概率
展开导读
链接复制成功!
Spark常用配置参数
概述
本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置Spark参数。
配置Stage失败重试次数
Spark任务在遇到FetchFailedException时会触发Stage重试。为了防止Stage无限重试,对Stage重试次数进行限制。重试次数可以根据实际需要进行调整。
在Spark客户端的“spark-defaults.conf”文件中配置如下参数。
参数 |
说明 |
默认值 |
---|---|---|
spark.stage.maxConsecutiveAttempts |
Stage失败重试最大次数。 |
4 |
配置是否使用笛卡尔积功能
要启动使用笛卡尔积功能,需要在Spark的“spark-defaults.conf”配置文件中进行如下设置。
参数 |
说明 |
默认值 |
---|---|---|
spark.sql.crossJoin.enabled |
是否允许隐性执行笛卡尔积。
|
true |
- JDBC应用在服务端的“spark-defaults.conf”配置文件中设置该参数。
- Spark客户端提交的任务在客户端配的“spark-defaults.conf”配置文件中设置该参数。
Spark长时间任务安全认证配置
安全模式下,使用Spark CLI(如spark shell、spark sql、spark submit)时,如果使用kinit命令进行安全认证,当执行长时间运行任务时,会因为认证过期导致任务失败。
在客户端的“spark-defaults.conf”配置文件中设置如下参数,配置完成后,重新执行Spark CLI即可。
当参数值为“true”时,需要保证“spark-defaults.conf”和“hive-site.xml”中的Keytab和principal的值相同。
参数名称 |
含义 |
默认值 |
---|---|---|
spark.kerberos.principal |
具有Spark操作权限的principal。请联系MRS集群管理员获取对应principal。 |
- |
spark.kerberos.keytab |
具有Spark操作权限的Keytab文件名称和文件路径。请联系MRS集群管理员获取对应Keytab文件。 |
- |
spark.security.bigdata.loginOnce |
Principal用户是否只登录一次。true为单次登录;false为多次登录。 单次登录与多次登录的区别在于:Spark社区使用多次Kerberos用户登录多次的方案,但容易出现TGT过期或者Token过期异常导致应用无法长时间运行。DataSight修改了Kerberos登录方式,只允许用户登录一次,可以有效的解决过期问题。限制在于,Hive相关的principal与keytab的配置项必须与Spark配置相同。 当参数值为true时,需要保证“spark-defaults.conf”和“hive-site.xml”中的Keytab和principal的值相同。 |
true |
Python Spark
Python Spark是Spark除了Scala、Java两种API之外的第三种编程语言。不同于Java和Scala都是在JVM平台上运行,Python Spark不仅会有JVM进程,还会有自身的Python进程。以下配置项只适用于Python Spark场景,而其他配置项也同样可以在Python Spark中生效。
参数 |
描述 |
默认值 |
---|---|---|
spark.python.profile |
在Python worker中开启profiling。通过sc.show_profiles()展示分析结果。或者在driver退出前展示分析结果。可以通过sc.dump_profiles(path) 将结果转储到磁盘中。如果一些分析结果已经手动展示,那么在Driver退出前,它们将不会再自动展示。 默认使用pyspark.profiler.BasicProfiler,可以在初始化SparkContext时传入指定的profiler来覆盖默认的profiler。 |
false |
spark.python.worker.memory |
聚合过程中每个python worker进程所能使用的内存大小,其值格式同指定JVM内存一致,如512m,2g。如果进程在聚集期间所用的内存超过了该值,数据将会被写入磁盘。 |
512m |
spark.python.worker.reuse |
是否重用python worker。如是,它将使用固定数量的Python workers,那么下一批提交的task将重用这些Python workers,而不是为每个task重新fork一个Python进程。 该功能在大型广播下非常有用,因为此时对下一批提交的task不需要将数据从JVM再一次传输至Python worker。 |
true |
Dynamic Allocation
动态资源调度是On Yarn模式特有的特性,并且必须开启Yarn External Shuffle才能使用这个功能。在使用Spark作为一个常驻的服务时候,动态资源调度将大大的提高资源的利用率。例如JDBCServer服务,大多数时间该进程并不接受JDBC请求,因此将这段空闲时间的资源释放出来,将极大的节约集群的资源。
参数 |
描述 |
默认值 |
---|---|---|
spark.dynamicAllocation.enabled |
是否使用动态资源调度,用于根据规模调整注册于该应用的executor的数量。注意目前仅在YARN模式下有效。 启用动态资源调度必须将spark.shuffle.service.enabled设置为true。以下配置也与此相关:spark.dynamicAllocation.minExecutors、spark.dynamicAllocation.maxExecutors和spark.dynamicAllocation.initialExecutors。 |
|
spark.dynamicAllocation.minExecutors |
最小Executor个数。 |
0 |
spark.dynamicAllocation.initialExecutors |
初始Executor个数。 |
spark.dynamicAllocation.minExecutors |
spark.dynamicAllocation.maxExecutors |
最大executor个数。 |
2048 |
spark.dynamicAllocation.schedulerBacklogTimeout |
调度第一次超时时间。单位为秒。 |
1s |
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout |
调度第二次及之后超时时间。 |
1s |
spark.dynamicAllocation.executorIdleTimeout |
普通Executor空闲超时时间。单位为秒。 |
60 |
spark.dynamicAllocation.cachedExecutorIdleTimeout |
含有cached blocks的Executor空闲超时时间。 |
|
Spark Streaming
Spark Streaming是在Spark批处理平台提供的流式数据的处理能力,以“mini-batch”的方式处理从外部输入的数据。
在Spark客户端的“spark-defaults.conf”文件中配置如下参数。
参数 |
描述 |
默认值 |
---|---|---|
spark.streaming.receiver.writeAheadLog.enable |
启用预写日志(WAL)功能。所有通过Receiver接收的输入数据将被保存至预写日志,预写日志可以保证Driver程序出错后数据可以恢复。 |
false |
spark.streaming.unpersist |
由Spark Streaming产生和保存的RDDs自动从Spark的内存中强制移除。Spark Streaming接收的原始输入数据也将自动清除。设置为false时原始输入数据和存留的RDDs不会自动清除,因此在streaming应用外部依然可以访问,但是这会占用更多的Spark内存。 |
true |
Spark Streaming Kafka
Receiver是Spark Streaming一个重要的组成部分,它负责接收外部数据,并将数据封装为Block,提供给Streaming消费。最常见的数据源是Kafka,Spark Streaming对Kafka的集成也是最完善的,不仅有可靠性的保障,而且也支持从Kafka直接作为RDD输入。
参数 |
描述 |
默认值 |
---|---|---|
spark.streaming.kafka.maxRatePerPartition |
使用Kafka direct stream API时,从每个Kafka分区读取数据的最大速率(每秒记录数量)。 |
- |
spark.streaming.blockInterval |
在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 |
200ms |
spark.streaming.receiver.maxRate |
每个Receiver接收数据的最大速率(每秒记录数量)。配置设置为0或者负值将不会对速率设限。 |
- |
spark.streaming.receiver.writeAheadLog.enable |
是否使用ReliableKafkaReceiver。该Receiver支持流式数据不丢失。 |
false |
Netty/NIO及Hash/Sort配置
Shuffle是大数据处理中最重要的一个性能点,网络是整个Shuffle过程的性能点。目前Spark支持两种Shuffle方式,一种是Hash,另外一种是Sort。网络也有两种方式,Netty和NIO。
参数 |
描述 |
默认值 |
---|---|---|
spark.shuffle.manager |
处理数据的方式。有两种实现方式可用:sort和hash。sort shuffle对内存的使用率更高,是Spark 1.2及后续版本的默认选项。Spark2.x及后续版本不支持hash。 |
SORT |
spark.shuffle.consolidateFiles |
(仅hash方式)如果要合并在shuffle过程中创建的中间文件,需要将该值设置为“true”。文件创建的少可以提高文件系统处理性能,降低风险。使用ext4或者xfs文件系统时,建议设置为“true”。由于文件系统限制,在ext3上该设置可能会降低8核以上机器的处理性能。 |
false |
spark.shuffle.sort.bypassMergeThreshold |
该参数只适用于spark.shuffle.manager设置为sort时。在不做map端聚合并且reduce任务的partition数小于或等于该值时,避免对数据进行归并排序,防止系统处理不必要的排序引起性能下降。 |
200 |
spark.shuffle.io.maxRetries |
(仅Netty方式)如果设为非零值,由于IO相关的异常导致的fetch失败会自动重试。该重试逻辑有助于大型shuffle在发生长GC暂停或者网络闪断时保持稳定。 |
12 |
spark.shuffle.io.numConnectionsPerPeer |
(仅Netty方式)为了减少大型集群的连接创建,主机间的连接会被重新使用。对于拥有较多硬盘和少数主机的集群,此操作可能会导致并发性不足以占用所有磁盘,所以用户可以考虑增加此值。 |
1 |
spark.shuffle.io.preferDirectBufs |
(仅Netty方式)使用off-heap缓冲区减少shuffle和高速缓存块转移期间的垃圾回收。对于off-heap内存被严格限制的环境,用户可以将其关闭以强制所有来自Netty的申请使用堆内存。 |
true |
spark.shuffle.io.retryWait |
(仅Netty方式)等待fetch重试期间的时间(秒)。重试引起的最大延迟为maxRetries * retryWait,默认是15秒。 |
5 |
普通Shuffle配置
参数 |
描述 |
默认值 |
---|---|---|
spark.shuffle.spill |
如果设为“true”,通过将数据溢出至磁盘来限制reduce任务期间内存的使用量。 |
true |
spark.shuffle.spill.compress |
是否压缩shuffle期间溢出的数据。使用spark.io.compression.codec指定的算法进行数据压缩。 |
true |
spark.shuffle.file.buffer |
每个shuffle文件输出流的内存缓冲区大小(单位:KB)。这些缓冲区可以减少创建中间shuffle文件流过程中产生的磁盘寻道和系统调用次数。也可以通过配置项spark.shuffle.file.buffer.kb设置。 |
32KB |
spark.shuffle.compress |
是否压缩map任务输出文件。建议压缩。使用spark.io.compression.codec进行压缩。 |
true |
spark.reducer.maxSizeInFlight |
从每个reduce任务同时fetch的map任务输出最大值(单位:MB)。由于每个输出要求创建一个缓冲区进行接收,这代表了每个reduce任务固定的内存开销,所以除非拥有大量内存,否则保持低值。也可以通过配置项spark.reducer.maxMbInFlight设置。 |
48MB |
Driver配置
Spark Driver可以理解为Spark提交应用的客户端,所有的代码解析工作都在这个进程中完成,因此该进程的参数尤其重要。下面将以如下顺序介绍Spark中进程的参数设置:
- JavaOptions:Java命令中“-D”后面的参数,可以由System.getProperty获取。
- ClassPath:包括Java类和Native的Lib加载路径。
- Java Memory and Cores:Java进程的内存和CPU使用量。
- Spark Configuration:Spark内部参数,与Java进程无关。
参数 |
描述 |
默认值 |
---|---|---|
spark.driver.extraJavaOptions |
传递至driver(驱动程序)的一系列额外JVM选项。例如,GC设置或其他日志记录。 注意:在Client模式中,该配置禁止直接在应用程序中通过SparkConf设置,因为驱动程序JVM已经启动。请通过--driver-java-options命令行选项或默认property文件进行设置。 |
|
spark.driver.extraClassPath |
附加至driver的classpath的额外classpath条目。 注意:在Client模式中,该配置禁止直接在应用程序中通过SparkConf设置,因为驱动程序JVM已经启动。请通过--driver-java-options命令行选项或默认property文件进行设置。 |
|
spark.driver.userClassPathFirst |
(试验性)当在驱动程序中加载类时,是否授权用户添加的jar优先于Spark自身的jar。这种特性可用于减缓Spark依赖和用户依赖之间的冲突。目前该特性仍处于试验阶段,仅用于Cluster模式中。 |
false |
spark.driver.extraLibraryPath |
设置一个特殊的library path在启动驱动程序JVM时使用。 注意:在Client模式中,该配置禁止直接在应用程序中通过SparkConf设置,因为驱动程序JVM已经启动。请通过--driver-java-options命令行选项或默认property文件进行设置。 |
|
spark.driver.cores |
驱动程序进程使用的核数。仅适用于Cluster模式。 |
1 |
spark.driver.memory |
驱动程序进程使用的内存数量,即SparkContext初始化的进程(例如:512M, 2G)。 注意:在Client模式中,该配置禁止直接在应用程序中通过SparkConf设置,因为驱动程序JVM已经启动。请通过--driver-java-options命令行选项或默认property文件进行设置。 |
4G |
spark.driver.maxResultSize |
对每个Spark action操作(例如“collect”)的所有分区序列化结果的总量限制,至少1M,设置成0表示不限制。如果总量超过该限制,工作任务会中止。限制值设置过高可能会引起驱动程序的内存不足错误(取决于spark.driver.memory和JVM的对象内存开销)。设置合理的限制可以避免驱动程序出现内存不足的错误。 |
1G |
spark.driver.host |
Driver监测的主机名或IP地址,用于Driver与Executor进行通信。 |
(local hostname) |
spark.driver.port |
Driver监测的端口,用于Driver与Executor进行通信。 |
(random) |
ExecutorLaucher配置
ExecutorLauncher只有在Yarn-Client模式下才会存在的角色,Yarn-Client模式下,ExecutorLauncher和Driver不在同一个进程中,需要对ExecutorLauncher的参数进行特殊的配置。
参数 |
描述 |
默认值 |
---|---|---|
spark.yarn.am.extraJavaOptions |
在Client模式下传递至YARN Application Master的一系列额外JVM选项。在Cluster模式下使用spark.driver.extraJavaOptions。 |
|
spark.yarn.am.memory |
针对Client模式下YARN Application Master使用的内存数量,与JVM内存设置字符串格式一致(例如:512m,2g)。在集群模式下,使用spark.driver.memory。 |
1G |
spark.yarn.am.memoryOverhead |
和“spark.yarn.driver.memoryOverhead”一样,但只针对Client模式下的Application Master。 |
- |
spark.yarn.am.cores |
针对Client模式下YARN Application Master使用的核数。在Cluster模式下,使用spark.driver.cores。 |
1 |
Executor配置
Executor也是单独一个Java进程,但不像Driver和AM只有一个,Executor可以有多个进程,而目前Spark只支持相同的配置,即所有Executor的进程参数都必然是一样的。
参数 |
描述 |
默认值 |
---|---|---|
spark.executor.extraJavaOptions |
传递至Executor的额外JVM选项。例如,GC设置或其他日志记录。请注意不能通过此选项设置Spark属性或heap大小。Spark属性应该使用SparkConf对象或调用spark-submit脚本时指定的spark-defaults.conf文件来设置。Heap大小可以通过spark.executor.memory来设置。 |
|
spark.executor.extraClassPath |
附加至Executor classpath的额外的classpath。这主要是为了向后兼容Spark的历史版本。用户一般不用设置此选项。 |
- |
spark.executor.extraLibraryPath |
设置启动executor JVM时所使用的特殊的library path。 |
|
spark.executor.userClassPathFirst |
(试验性)与spark.driver.userClassPathFirst相同的功能,但应用于Executor实例。 |
false |
spark.executor.memory |
每个Executor进程使用的内存数量,与JVM内存设置字符串的格式相同(例如:512M,2G)。 |
4G |
spark.executorEnv.[EnvironmentVariableName] |
添加由EnvironmentVariableName指定的环境变量至executor进程。用户可以指定多个来设置多个环境变量。 |
- |
spark.executor.logs.rolling.maxRetainedFiles |
设置系统即将保留的最新滚动日志文件的数量。旧的日志文件将被删除。默认关闭。 |
- |
spark.executor.logs.rolling.size.maxBytes |
设置滚动Executor日志的文件的最大值。默认关闭。数值以字节为单位设置。如果要自动清除旧日志,请查看spark.executor.logs.rolling.maxRetainedFiles。 |
- |
spark.executor.logs.rolling.strategy |
设置executor日志的滚动策略。默认滚动关闭。可以设置为“time”(基于时间的滚动)或“size”(基于大小的滚动)。当设置为“time”,使用spark.executor.logs.rolling.time.interval属性的值作为日志滚动的间隔。当设置为“size”,使用spark.executor.logs.rolling.size.maxBytes设置滚动的最大文件大小滚动。 |
- |
spark.executor.logs.rolling.time.interval |
设置executor日志滚动的时间间隔。默认关闭。合法值为“daily”、“hourly”、“minutely”或任意秒。如果要自动清除旧日志,请查看spark.executor.logs.rolling.maxRetainedFiles。 |
daily |
WebUI
WebUI展示了Spark应用运行的过程和状态。
参数 |
描述 |
默认值 |
---|---|---|
spark.ui.killEnabled |
允许停止Web UI中的stage和相应的job。 出于安全考虑,将此配置项的默认值设置成false,以避免用户发生误操作。如果需要开启此功能,则可以在spark-defaults.conf配置文件中将此配置项的值设为true。请谨慎操作。 |
true |
spark.ui.port |
应用程序dashboard的端口,显示内存和工作量数据。 |
|
spark.ui.retainedJobs |
在垃圾回收之前Spark UI和状态API记住的job数。 |
1000 |
spark.ui.retainedStages |
在垃圾回收之前Spark UI和状态API记住的stage数。 |
1000 |
HistoryServer
HistoryServer读取文件系统中的EventLog文件,展示已经运行完成的Spark应用在运行时的状态信息。
参数 |
描述 |
默认值 |
---|---|---|
spark.history.fs.logDirectory |
History server的日志目录 |
- |
spark.history.ui.port |
JobHistory侦听连接的端口。 |
18080 |
spark.history.fs.updateInterval |
History server所显示信息的更新周期,单位为秒。每次更新检查持久存储中针对事件日志进行的更改。 |
10s |
spark.history.fs.update.interval.seconds |
每个事件日志更新检查的间隔。与spark.history.fs.updateInterval功能相同,推荐使用spark.history.fs.updateInterval。 |
10s |
spark.history.updateInterval |
该配置项与spark.history.fs.update.interval.seconds和spark.history.fs.updateInterval功能相同,推荐使用spark.history.fs.updateInterval。 |
10s |
HistoryServer UI超时和最大访问数
参数 |
描述 |
默认值 |
---|---|---|
spark.session.maxAge |
设置会话的超时时间,单位秒。此参数只适用于安全模式。普通模式下,无法设置此参数。 |
600 |
spark.connection.maxRequest |
设置客户端访问Jobhistory的最大并发数量。 |
5000 |
EventLog
Spark应用在运行过程中,实时将运行状态以JSON格式写入文件系统,用于HistoryServer服务读取并重现应用运行时状态。
参数 |
描述 |
默认值 |
---|---|---|
spark.eventLog.enabled |
是否记录Spark事件,用于应用程序在完成后重构webUI。 |
true |
spark.eventLog.dir |
如果spark.eventLog.enabled为true,记录Spark事件的目录。在此目录下,Spark为每个应用程序创建文件,并将应用程序的事件记录到文件中。用户也可设置为统一的与HDFS目录相似的地址,这样History server就可以读取历史文件。 |
hdfs://hacluster/spark2xJobHistory2x |
spark.eventLog.compress |
spark.eventLog.enabled为true时,是否压缩记录的事件。 |
false |
EventLog的周期清理
JobHistory上的Event log是随每次任务的提交而累积的,任务提交的次数多了之后会造成太多文件的存放。Spark提供了周期清理Evnet log的功能,用户可以通过配置开关和相应的清理周期参数来进行控制。
参数 |
描述 |
默认值 |
---|---|---|
spark.history.fs.cleaner.enabled |
是否打开清理功能。 |
true |
spark.history.fs.cleaner.interval |
清理功能的检查周期。 |
1d |
spark.history.fs.cleaner.maxAge |
日志的最长保留时间。 |
4d |
Kryo
Kryo是一个非常高效的Java序列化框架,Spark中也默认集成了该框架。几乎所有的Spark性能调优都离不开将Spark默认的序列化器转化为Kryo序列化器的过程。目前Kryo序列化只支持Spark数据层面的序列化,还不支持闭包的序列化。设置Kryo序列元,需要将配置项“spark.serializer”设置为“org.apache.spark.serializer.KryoSerializer”,同时也搭配设置以下的配置项,优化Kryo序列化的性能。
参数 |
描述 |
默认值 |
---|---|---|
spark.kryo.classesToRegister |
使用Kryo序列化时,需要注册到Kryo的类名,多个类之间用逗号分隔。 |
- |
spark.kryo.referenceTracking |
当使用Kryo序列化数据时,是否跟踪对同一个对象的引用情况。适用于对象图有循环引用或同一对象有多个副本的情况。否则可以设置为关闭以提升性能。 |
true |
spark.kryo.registrationRequired |
是否需要使用Kryo来注册对象。当设为“true”时,如果序列化一个未使用Kryo注册的对象则会发生异常。当设为“false”(默认值)时,Kryo会将未注册的类名称一同写到序列化对象中。该操作会带来大量性能开销,所以在用户还没有从注册队列中删除相应的类时应该开启该选项。 |
false |
spark.kryo.registrator |
如果使用Kryo序列化,使用Kryo将该类注册至定制类。如果需要以定制方式注册类,例如指定一个自定义字段序列化器,可使用该属性。否则spark.kryo.classesToRegister会更简单。它应该设置为一个扩展KryoRegistrator的类。 |
- |
spark.kryoserializer.buffer.max |
Kryo序列化缓冲区允许的最大值,单位为兆字节。这个值必须大于尝试序列化的对象。当在Kryo中遇到“buffer limit exceeded”异常时可以适当增大该值。也可以通过配置项spark.kryoserializer.buffer.max配置。 |
64MB |
spark.kryoserializer.buffer |
Kryo序列化缓冲区的初始值,单位为兆字节。每个worker的每个核心都会有一个缓冲区。如果有需要,缓冲区会增大到spark.kryoserializer.buffer.max设置的值。也可以通过配置项spark.kryoserializer.buffer配置。 |
64KB |
Broadcast
Broadcast用于Spark进程间数据块的传输。Spark中无论Jar包、文件还是闭包以及返回的结果都会使用Broadcast。目前的Broadcast支持两种方式,Torrent与HTTP。前者将会把数据切成小片,分布到集群中,有需要时从远程获取;后者将文件存入到本地磁盘,有需要时通过HTTP方式将整个文件传输到远端。前者稳定性优于后者,因此Torrent为默认的Broadcast方式。
参数 |
描述 |
默认值 |
---|---|---|
spark.broadcast.factory |
使用的广播方式。 |
org.apache.spark.broadcast.TorrentBroadcastFactory |
spark.broadcast.blockSize |
TorrentBroadcastFactory的块大小。该值过大会降低广播时的并行度(速度变慢),过小可能会影响BlockManager的性能。 |
4096 |
spark.broadcast.compress |
在发送广播变量之前是否压缩。建议压缩。 |
true |
Storage
内存计算是Spark的最大亮点,Spark的Storage主要管理内存资源。Storage中主要存储RDD在Cache过程中产生的数据块。JVM中堆内存是整体的,因此在Spark的Storage管理中,“Storage Memory Size”变成了一个非常重要的概念。
参数 |
描述 |
默认值 |
---|---|---|
spark.storage.memoryMapThreshold |
超过该块大小的Block,Spark会对该磁盘文件进行内存映射。这可以防止Spark在内存映射时映射过小的块。一般情况下,对接近或低于操作系统的页大小的块进行内存映射会有高开销。 |
2m |
PORT
随机端口范围
所有随机端口必须在一定端口范围内。
参数 |
描述 |
默认值 |
---|---|---|
spark.random.port.min |
设置随机端口的最小值。 |
22600 |
spark.random.port.max |
设置随机端口的最大值。 |
22899 |
TIMEOUT
Spark默认配置能很好的处理中等数据规模的计算任务,但一旦数据量过大,会经常出现超时导致任务失败的场景。在大数据量场景下,需调大Spark中的超时参数。
参数 |
描述 |
默认值 |
---|---|---|
spark.files.fetchTimeout |
获取通过驱动程序的SparkContext.addFile()添加的文件时的通信超时(秒)。 |
60s |
spark.network.timeout |
所有网络交互的默认超时(秒)。如未配置,则使用该配置代替spark.core.connection.ack.wait.timeout, spark.akka.timeout, spark.storage.blockManagerSlaveTimeoutMs或spark.shuffle.io.connectionTimeout。 |
360s |
spark.core.connection.ack.wait.timeout |
连接时应答的超时时间(单位:秒)。为了避免由于GC带来的长时间等待,可以设置更大的值。 |
60 |
加密
Spark支持Akka和HTTP(广播和文件服务器)协议的SSL,但WebUI和块转移服务仍不支持SSL。
SSL必须在每个节点上配置,并使用特殊协议为通信涉及到的每个组件进行配置。
参数 |
描述 |
默认值 |
---|---|---|
spark.ssl.enabled |
是否在所有被支持协议上开启SSL连接。 与spark.ssl.xxx类似的所有SSL设置指示了所有被支持协议的全局配置。为了覆盖特殊协议的全局配置,在协议指定的命名空间中必须重写属性。 使用“spark.ssl.YYY.XXX”设置覆盖由YYY指示的特殊协议的全局配置。目前YYY可以是基于Akka连接的akka或广播与文件服务器的fs。 |
false |
spark.ssl.enabledAlgorithms |
以逗号分隔的密码列表。指定的密码必须被JVM支持。 |
- |
spark.ssl.keyPassword |
key-store的私人密钥密码。 |
- |
spark.ssl.keyStore |
key-store文件的路径。该路径可以绝对或相对于开启组件的目录。 |
- |
spark.ssl.keyStorePassword |
key-store的密码。 |
- |
spark.ssl.protocol |
协议名。该协议必须被JVM支持。本页所有协议的参考表。 |
- |
spark.ssl.trustStore |
trust-store文件的路径。该路径可以绝对或相对于开启组件的目录。 |
- |
spark.ssl.trustStorePassword |
trust-store的密码。 |
- |
安全性
Spark目前支持通过共享密钥认证。可以通过spark.authenticate配置参数配置认证。该参数控制Spark通信协议是否使用共享密钥执行认证。该认证是确保双边都有相同的共享密钥并被允许通信的基本握手。如果共享密钥不同,通信将不被允许。共享密钥通过如下方式创建:
- 对于YARN部署的Spark,将spark.authenticate配置为真会自动处理生成和分发共享密钥。每个应用程序会独占一个共享密钥。
- 对于其他类型部署的Spark,应该在每个节点上配置Spark参数spark.authenticate.secret。所有Master/Workers和应用程序都将使用该密钥。
参数 |
描述 |
默认值 |
---|---|---|
spark.acls.enable |
是否开启Spark acls。如果开启,它将检查用户是否有访问和修改job的权限。请注意这要求用户可以被识别。如果用户被识别为无效,检查将不被执行。UI可以使用过滤器认证和设置用户。 |
true |
spark.admin.acls |
逗号分隔的有权限访问和修改所有Spark job的用户/管理员列表。如果在共享集群上运行并且工作时有MRS集群管理员或开发人员帮助调试,可以使用该列表。 |
admin |
spark.authenticate |
是否Spark认证其内部连接。如果不是运行在YARN上,请参见spark.authenticate.secret。 |
true |
spark.authenticate.secret |
设置Spark各组件之间验证的密钥。如果不是运行在YARN上且认证未开启,需要设置该项。 |
- |
spark.modify.acls |
逗号分隔的有权限修改Spark job的用户列表。默认情况下只有开启Spark job的用户才有修改列表的权限(例如删除列表)。 |
- |
spark.ui.view.acls |
逗号分隔的有权限访问Spark web ui的用户列表。默认情况下只有开启Spark job的用户才有访问权限。 |
- |
开启Spark进程间的认证机制
目前Spark进程间支持共享密钥方式的认证机制,通过配置spark.authenticate可以控制Spark在通信过程中是否做认证。这种认证方式只是通过简单的握手来确定通信双方享有共同的密钥。
在Spark客户端的“spark-defaults.conf”文件中配置如下参数。
参数 |
描述 |
默认值 |
---|---|---|
spark.authenticate |
在Spark on YARN模式下,将该参数配置成true即可。密钥的生成和分发过程是自动完成的,并且每个应用独占一个密钥。 |
true |
Compression
数据压缩是一个以CPU换内存的优化策略,因此当Spark内存严重不足的时候(由于内存计算的特质,这种情况非常常见),使用压缩可以大幅提高性能。目前Spark支持三种压缩算法:snappy,lz4,lzf。Snappy为默认压缩算法,并且调用native方法进行压缩与解压缩,在Yarn模式下需要注意堆外内存对Container进程的影响。
参数 |
描述 |
默认值 |
---|---|---|
spark.io.compression.codec |
用于压缩内部数据的codec,例如RDD分区、广播变量和shuffle输出。默认情况下,Spark支持三种压缩算法:lz4,lzf和snappy。可以使用完全合格的类名称指定算法,例如org.apache.spark.io.LZ4CompressionCodec、org.apache.spark.io.LZFCompressionCodec及org.apache.spark.io.SnappyCompressionCodec。 |
lz4 |
spark.io.compression.lz4.block.size |
当使用LZ4压缩算法时LZ4压缩中使用的块大小(字节)。当使用LZ4时降低块大小同样也会降低shuffle内存使用。 |
32768 |
spark.io.compression.snappy.block.size |
当使用Snappy压缩算法时Snappy压缩中使用的块大小(字节)。当使用Snappy时降低块大小同样也会降低shuffle内存使用。 |
32768 |
spark.shuffle.compress |
是否压缩map任务输出文件。建议压缩。使用spark.io.compression.codec进行压缩。 |
true |
spark.shuffle.spill.compress |
是否压缩在shuffle期间溢出的数据。使用spark.io.compression.codec进行压缩。 |
true |
spark.eventLog.compress |
设置当spark.eventLog.enabled设置为true时是否压缩记录的事件。 |
false |
spark.broadcast.compress |
在发送之前是否压缩广播变量。建议压缩。 |
true |
spark.rdd.compress |
是否压缩序列化的RDD分区(例如StorageLevel.MEMORY_ONLY_SER的分区)。牺牲部分额外CPU的时间可以节省大量空间。 |
false |
在资源不足的情况下,降低客户端运行异常概率
在资源不足的情况下,Application Master会因等待资源出现超时,导致任务被删除。调整如下参数,降低客户端应用运行异常概率。
在客户端的“spark-defaults.conf”配置文件中调整如下参数。
参数 |
说明 |
默认值 |
---|---|---|
spark.yarn.applicationMaster.waitTries |
设置Application Master等待Spark master的次数,同时也是等待SparkContext初始化的次数。增大该参数值,可以防止AM任务被删除,降低客户端应用运行异常的概率。 |
10 |
spark.yarn.am.memory |
调整AM的内存。增大该参数值,可以防止AM因内存不足而被RM删除任务,降低客户端应用运行异常的概率。 |
1G |