- 最新动态
- 功能总览
- 服务公告
-
产品介绍
- 图解MapReduce服务
- 什么是MapReduce服务
- 产品优势
- 应用场景
- MRS集群版本说明
- MRS组件版本一览表
- 组件介绍
- 产品功能
- 安全
- 约束与限制
- 技术支持
- 计费说明
- 权限管理
- 与其他云服务的关系
- 配额说明
- 常见概念
- 发行版本
- 计费说明
- 快速入门
-
用户指南
- 准备工作
- MRS集群规划
- 购买MRS集群
- 安装MRS集群客户端
- 提交MRS作业
- 管理MRS集群
-
MRS集群运维
- MRS集群运维说明
- 登录MRS集群
- 查看MRS集群监控指标
- MRS集群健康检查
- MRS集群容量调整
- 备份恢复MRS集群数据
- 安装MRS集群补丁
-
MRS集群补丁说明
- EulerOS补丁说明
- MRS 3.3.1-LTS.1.2补丁说明
- MRS 3.3.1-LTS.1.1补丁说明
- MRS 3.3.0-LTS.1.1补丁说明
- MRS 3.3.0.3.1补丁说明
- MRS 3.2.0-LTS.1.10补丁说明
- MRS 3.2.0-LTS.1.9补丁说明
- MRS 3.2.0-LTS.1.8补丁说明
- MRS 3.2.0-LTS.1补丁说明
- MRS 3.1.5补丁说明
- MRS 3.1.2-LTS.2补丁说明
- MRS 3.1.2-LTS补丁说明
- MRS 3.1.0.0.16补丁说明
- MRS 3.1.0补丁说明
- MRS 3.1.0 运维通道补丁说明
- MRS 3.0.5.1补丁说明
- MRS 2.1.1.1补丁说明
- MRS 2.1.0.11补丁说明
- MRS 2.1.0.10补丁说明
- MRS 2.1.0.9补丁说明
- MRS 2.1.0.8补丁说明
- MRS 2.1.0.7补丁说明
- MRS 2.1.0.6补丁说明
- MRS 2.1.0.5补丁说明
- MRS 2.1.0.3补丁说明
- MRS 2.1.0.2补丁说明
- MRS 2.1.0.1补丁说明
- MRS 2.0.6.1补丁说明
- MRS 2.0.1.3补丁说明
- MRS 2.0.1.2补丁说明
- MRS 2.0.1.1补丁说明
- MRS 1.9.3.9及之后版本补丁说明
- MRS 1.9.3.3补丁说明
- MRS 1.9.3.1补丁说明
- MRS 1.9.2.3及之后版本补丁说明
- MRS 1.9.2.2补丁说明
- MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明
- MRS 1.9.0.7补丁说明
- MRS 1.9.0.6补丁说明
- MRS 1.9.0.5补丁说明
- MRS 1.8.10.6补丁说明
- MRS 1.8.10.1补丁说明
- MRS 1.8.7.1补丁说明
- MRS 1.7.1.6补丁说明
- MRS 1.7.1.5补丁说明
- MRS 1.7.1.3补丁说明
- MRS 1.5.1.4补丁说明
- 查看MRS集群日志
- MRS集群安全配置
- 查看与配置MRS告警事件
-
MRS集群告警处理参考
- ALM-12001 审计日志转储失败
- ALM-12004 OLdap资源异常
- ALM-12005 OKerberos资源异常
- ALM-12006 节点故障
- ALM-12007 进程故障
- ALM-12010 Manager主备节点间心跳中断
- ALM-12011 Manager主备节点同步数据异常
- ALM-12012 NTP服务异常
- ALM-12014 设备分区丢失
- ALM-12015 设备分区文件系统只读
- ALM-12016 CPU使用率超过阈值
- ALM-12017 磁盘容量不足
- ALM-12018 内存使用率超过阈值
- ALM-12027 主机PID使用率超过阈值
- ALM-12028 主机D状态和Z状态进程数超过阈值
- ALM-12033 慢盘故障
- ALM-12034 周期备份任务失败
- ALM-12035 恢复任务失败后数据状态未知
- ALM-12037 NTP服务器异常
- ALM-12038 监控指标转储失败
- ALM-12039 OMS数据库主备不同步
- ALM-12040 系统熵值不足
- ALM-12041 关键文件权限异常
- ALM-12042 关键文件配置异常
- ALM-12045 网络读包丢包率超过阈值
- ALM-12046 网络写包丢包率超过阈值
- ALM-12047 网络读包错误率超过阈值
- ALM-12048 网络写包错误率超过阈值
- ALM-12049 网络读吞吐率超过阈值
- ALM-12050 网络写吞吐率超过阈值
- ALM-12051 磁盘Inode使用率超过阈值
- ALM-12052 TCP临时端口使用率超过阈值
- ALM-12053 主机文件句柄使用率超过阈值
- ALM-12054 证书文件失效
- ALM-12055 证书文件即将过期
- ALM-12057 元数据未配置周期备份到第三方服务器的任务
- ALM-12061 进程使用率超过阈值
- ALM-12062 OMS参数配置同集群规模不匹配
- ALM-12063 磁盘不可用
- ALM-12064 主机随机端口范围配置与集群使用端口冲突
- ALM-12066 节点间互信失效
- ALM-12067 tomcat资源异常
- ALM-12068 acs资源异常
- ALM-12069 aos资源异常
- ALM-12070 controller资源异常
- ALM-12071 httpd资源异常
- ALM-12072 floatip资源异常
- ALM-12073 cep资源异常
- ALM-12074 fms资源异常
- ALM-12075 pms资源异常
- ALM-12076 gaussDB资源异常
- ALM-12077 omm用户过期
- ALM-12078 omm密码过期
- ALM-12079 omm用户即将过期
- ALM-12080 omm密码即将过期
- ALM-12081 ommdba用户过期
- ALM-12082 ommdba用户即将过期
- ALM-12083 ommdba密码即将过期
- ALM-12084 ommdba密码过期
- ALM-12085 服务审计日志转储失败
- ALM-12087 系统处于升级观察期
- ALM-12089 节点间网络互通异常
- ALM-12091 disaster资源异常
- ALM-12099 发生core dump
- ALM-12100 AD服务器连接异常
- ALM-12101 AZ不健康
- ALM-12102 AZ高可用组件未按容灾需求部署
- ALM-12103 executor资源异常
- ALM-12104 knox资源异常
- ALM-12110 获取ECS临时ak/sk失败
- ALM-12172 指标上报CES失败
- ALM-12180 磁盘卡IO
- ALM-12186 用户CGroup任务数使用率超过阈值
- ALM-12187 磁盘分区扩容失败
- ALM-12188 diskmgt磁盘监控服务不可用
- ALM-12190 Knox连接数超过阈值
- ALM-12191 磁盘IO利用率超过阈值
- ALM-12192 主机负载超过阈值
- ALM-12200 密码即将过期
- ALM-12201 进程CPU使用率超过阈值
- ALM-12202 进程内存使用率超过阈值
- ALM-12203 进程Full GC时间超过阈值
- ALM-12204 磁盘IO读取等待时长超过阈值
- ALM-12205 磁盘IO写入等待时长超过阈值
- ALM-12206 密码已经过期
- ALM-12207 慢盘处理超时
- ALM-13000 ZooKeeper服务不可用
- ALM-13001 ZooKeeper可用连接数不足
- ALM-13002 ZooKeeper直接内存使用率超过阈值
- ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
- ALM-13004 ZooKeeper堆内存使用率超过阈值
- ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
- ALM-13006 Znode数量或容量超过阈值
- ALM-13007 ZooKeeper客户端可用连接数不足
- ALM-13008 ZooKeeper Znode数量使用率超出阈值
- ALM-13009 ZooKeeper Znode容量使用率超出阈值
- ALM-13010 配置quota的目录Znode使用率超出阈值
- ALM-14000 HDFS服务不可用
- ALM-14001 HDFS磁盘空间使用率超过阈值
- ALM-14002 DataNode磁盘空间使用率超过阈值
- ALM-14003 丢失的HDFS块数量超过阈值
- ALM-14006 HDFS文件数超过阈值
- ALM-14007 NameNode堆内存使用率超过阈值
- ALM-14008 DataNode堆内存使用率超过阈值
- ALM-14009 Dead DataNode数量超过阈值
- ALM-14010 NameService服务异常
- ALM-14011 DataNode数据目录配置不合理
- ALM-14012 Journalnode数据不同步
- ALM-14013 NameNode FsImage文件更新失败
- ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
- ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
- ALM-14016 DataNode直接内存使用率超过阈值
- ALM-14017 NameNode直接内存使用率超过阈值
- ALM-14018 NameNode非堆内存使用率超过阈值
- ALM-14019 DataNode非堆内存使用率超过阈值
- ALM-14020 HDFS目录条目数量超过阈值
- ALM-14021 NameNode RPC处理平均时间超过阈值
- ALM-14022 NameNode RPC队列平均时间超过阈值
- ALM-14023 总副本预留磁盘空间所占比率超过阈值
- ALM-14024 租户空间使用率超过阈值
- ALM-14025 租户文件对象使用率超过阈值
- ALM-14026 DataNode块数超过阈值
- ALM-14027 DataNode磁盘故障
- ALM-14028 待补齐的块数超过阈值
- ALM-14029 单副本的块数超过阈值
- ALM-14030 HDFS已开启允许写入单副本数据
- ALM-14031 DataNode进程状态异常
- ALM-14032 JournalNode进程状态异常
- ALM-14033 ZKFC进程状态异常
- ALM-14034 Router进程状态异常
- ALM-14035 HttpFS进程状态异常
- ALM-14036 NameNode进入安全模式
- ALM-14037 存在集群外的DataNode
- ALM-14038 Router堆内存使用率超过阈值
- ALM-14039 集群内存在慢DataNode
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
- ALM-16001 Hive数据仓库空间使用率超过阈值
- ALM-16002 Hive SQL执行成功率低于阈值
- ALM-16003 Background线程使用率超过阈值
- ALM-16004 Hive服务不可用
- ALM-16005 Hive服务进程堆内存使用超出阈值
- ALM-16006 Hive服务进程直接内存使用超出阈值
- ALM-16007 Hive GC 时间超出阈值
- ALM-16008 Hive服务进程非堆内存使用超出阈值
- ALM-16009 Map数超过阈值
- ALM-16045 Hive数据仓库被删除
- ALM-16046 Hive数据仓库权限被修改
- ALM-16047 HiveServer已从Zookeeper注销
- ALM-16048 Tez或者Spark库路径不存在
- ALM-16051 连接到MetaStore的session数占最大允许数的百分比超过阈值
- ALM-16052 MetaStore创建表时访问元数据库时延超过阈值
- ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值
- ALM-17003 Oozie服务不可用
- ALM-17004 Oozie堆内存使用率超过阈值
- ALM-17005 Oozie非堆内存使用率超过阈值
- ALM-17006 Oozie直接内存使用率超过阈值
- ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
- ALM-17008 Oozie连接ZooKeeper状态异常
- ALM-17009 Oozie连接DBService状态异常
- ALM-17010 Oozie连接HDFS状态异常
- ALM-17011 Oozie连接Yarn状态异常
- ALM-18000 Yarn服务不可用
- ALM-18002 NodeManager心跳丢失
- ALM-18003 NodeManager不健康
- ALM-18008 ResourceManager堆内存使用率超过阈值
- ALM-18009 JobHistoryServer堆内存使用率超过阈值
- ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
- ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
- ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
- ALM-18013 ResourceManager直接内存使用率超过阈值
- ALM-18014 NodeManager直接内存使用率超过阈值
- ALM-18015 JobHistoryServer直接内存使用率超过阈值
- ALM-18016 ResourceManager非堆内存使用率超过阈值
- ALM-18017 NodeManager非堆内存使用率超过阈值
- ALM-18018 NodeManager堆内存使用率超过阈值
- ALM-18019 JobHistoryServer非堆内存使用率超过阈值
- ALM-18020 Yarn任务执行超时
- ALM-18021 Mapreduce服务不可用
- ALM-18022 Yarn队列资源不足
- ALM-18023 Yarn任务挂起数超过阈值
- ALM-18024 Yarn任务挂起内存量超阈值
- ALM-18025 Yarn被终止的任务数超过阈值
- ALM-18026 Yarn上运行失败的任务数超过阈值
- ALM-18027 JobHistoryServer进程状态异常
- ALM-18028 TimeLineServer进程状态异常
- ALM-19000 HBase服务不可用
- ALM-19006 HBase容灾同步失败
- ALM-19007 HBase GC时间超出阈值
- ALM-19008 HBase服务进程堆内存使用率超出阈值
- ALM-19009 HBase服务进程直接内存使用率超出阈值
- ALM-19011 RegionServer的Region数量超出阈值
- ALM-19012 HBase系统表目录或文件丢失
- ALM-19013 region处在RIT状态的时长超过阈值
- ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
- ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
- ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
- ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
- ALM-19018 HBase合并队列超出阈值
- ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
- ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
- ALM-19021 RegionSever handler 使用率超过阈值
- ALM-19022 HBase热点检测功能不可用
- ALM-19023 HBase Region限流
- ALM-19024 RegionServer RPC响应时间的P99超过阈值
- ALM-19025 HBase存在损坏的StoreFile文件
- ALM-19026 HBase存在损坏的WAL文件
- ALM-19030 RegionServer的RPC请求处理时间的P99超过阈值
- ALM-19031 RegionServer的RPC连接数超过阈值
- ALM-19032 RegionServer的RPC写队列数超过阈值
- ALM-19033 RegionServer的RPC读队列数超过阈值
- ALM-19034 RegionServer WAL写入超时个数超过阈值
- ALM-19035 RegionServer Call队列大小超过阈值
- ALM-19036 HBase关键目录数据存在坏块
- ALM-20002 Hue服务不可用
- ALM-23001 Loader服务不可用
- ALM-23003 Loader任务执行失败
- ALM-23004 Loader堆内存使用率超过阈值
- ALM-23005 Loader非堆内存使用率超过阈值
- ALM-23006 Loader直接内存使用率超过阈值
- ALM-23007 Loader进程垃圾回收(GC)时间超过阈值
- ALM-24000 Flume服务不可用
- ALM-24001 Flume Agent异常
- ALM-24003 Flume Client连接中断
- ALM-24004 Flume读取数据异常
- ALM-24005 Flume传输数据异常
- ALM-24006 Flume Server堆内存使用率超过阈值
- ALM-24007 Flume Server直接内存使用率超过阈值
- ALM-24008 Flume Server非堆内存使用率超过阈值
- ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
- ALM-24010 Flume证书文件非法或已损坏
- ALM-24011 Flume证书文件即将过期
- ALM-24012 Flume证书文件已过期
- ALM-24013 Flume MonitorServer证书文件非法或已损坏
- ALM-24014 Flume MonitorServer证书文件即将过期
- ALM-24015 Flume MonitorServer证书文件已过期
- ALM-25000 LdapServer服务不可用
- ALM-25004 LdapServer数据同步异常
- ALM-25005 Nscd服务异常
- ALM-25006 Sssd服务异常
- ALM-25007 SlapdServer连接数超过阈值
- ALM-25008 SlapdServer CPU使用率超过阈值
- ALM-25500 KrbServer服务不可用
- ALM-25501 KerberosServer请求数高
- ALM-26051 Storm服务不可用
- ALM-26052 Storm服务可用Supervisor数量小于阈值
- ALM-26053 Storm Slot使用率超过阈值
- ALM-26054 Nimbus堆内存使用率超过阈值
- ALM-27001 DBService服务不可用
- ALM-27003 DBService主备节点间心跳中断
- ALM-27004 DBService主备数据不同步
- ALM-27005 数据库连接数使用率超过阈值
- ALM-27006 数据目录磁盘空间使用率超过阈值
- ALM-27007 数据库进入只读模式
- ALM-29000 Impala服务不可用
- ALM-29004 Impalad进程内存占用率超过阈值
- ALM-29005 Impalad JDBC连接数超过阈值
- ALM-29006 Impalad ODBC连接数超过阈值
- ALM-29010 Impalad 正在提交的查询总数超过阈值
- ALM-29011 Impalad 正在执行的查询总数超过阈值
- ALM-29012 Impalad 正在等待的查询总数超过阈值
- ALM-29013 Impalad FGCT超过阈值
- ALM-29014 Catalog FGCT超过阈值
- ALM-29015 Catalog进程内存占用率超过阈值
- ALM-29016 Impalad实例亚健康
- ALM-29100 Kudu服务不可用
- ALM-29104 Tserver进程内存占用率超过阈值
- ALM-29106 Tserver进程CPU占用率过高
- ALM-29107 Tserver进程内存使用百分比超过阈值
- ALM-38000 Kafka服务不可用
- ALM-38001 Kafka磁盘容量不足
- ALM-38002 Kafka堆内存使用率超过阈值
- ALM-38004 Kafka直接内存使用率超过阈值
- ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
- ALM-38006 Kafka未完全同步的Partition百分比超过阈值
- ALM-38007 Kafka默认用户状态异常
- ALM-38008 Kafka数据目录状态异常
- ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本)
- ALM-38009 Kafka Topic过载(适用于MRS 3.1.0及之前版本)
- ALM-38010 存在单副本的Topic
- ALM-38011 Broker上用户连接数使用率超过设定阈值
- ALM-38012 Broker的分区数量超过阈值
- ALM-38013 Produce请求在请求队列的时延超过阈值
- ALM-38014 Produce请求总体时延超过阈值
- ALM-38015 Fetch请求在请求队列的时延超过阈值
- ALM-38016 Fetch请求总体时延超过阈值
- ALM-38017 分区均衡时间超过阈值
- ALM-38018 Kafka消息积压
- ALM-43001 Spark2x服务不可用
- ALM-43006 JobHistory2x进程堆内存使用超出阈值
- ALM-43007 JobHistory2x进程非堆内存使用超出阈值
- ALM-43008 JobHistory2x进程直接内存使用超出阈值
- ALM-43009 JobHistory2x进程GC时间超出阈值
- ALM-43010 JDBCServer2x进程堆内存使用超出阈值
- ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
- ALM-43012 JDBCServer2x进程直接内存使用超出阈值
- ALM-43013 JDBCServer2x进程GC时间超出阈值
- ALM-43017 JDBCServer2x进程Full GC次数超出阈值
- ALM-43018 JobHistory2x进程Full GC次数超出阈值
- ALM-43019 IndexServer2x进程堆内存使用超出阈值
- ALM-43020 IndexServer2x进程非堆内存使用超出阈值
- ALM-43021 IndexServer2x进程直接内存使用超出阈值
- ALM-43022 IndexServer2x进程GC时间超出阈值
- ALM-43023 IndexServer2x进程Full GC次数超出阈值
- ALM-43028 JDBCServer Session过载
- ALM-43029 JDBCServer作业提交超时
- ALM-44000 Presto服务不可用
- ALM-44004 Presto Coordinator资源组排队任务超过阈值
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值
- ALM-45000 HetuEngine服务不可用
- ALM-45001 HetuEngine计算实例故障
- ALM-45003 HetuEngine QAS磁盘容量不足
- ALM-45004 HetuEngine计算实例任务积压
- ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值
- ALM-45006 HetuEngine计算实例内存负载使用率超过阈值
- ALM-45007 HetuEngine计算实例Worker个数小于阈值
- ALM-45008 HetuEngine计算实例查询时延超过阈值
- ALM-45009 HetuEngine计算实例任务失败率超过阈值
- ALM-45175 OBS元数据接口调用平均时间超过阈值
- ALM-45176 OBS元数据接口调用成功率低于阈值
- ALM-45177 OBS数据读操作接口调用成功率低于阈值
- ALM-45178 OBS数据写操作接口调用成功率低于阈值
- ALM-45179 OBS readFully接口调用失败数高于阈值
- ALM-45180 OBS read接口调用失败数高于阈值
- ALM-45181 OBS write接口调用失败数高于阈值
- ALM-45182 OBS操作被流控次数高于阈值
- ALM-45275 Ranger服务不可用
- ALM-45276 RangerAdmin状态异常
- ALM-45277 RangerAdmin堆内存使用率超过阈值
- ALM-45278 RangerAdmin直接内存使用率超过阈值
- ALM-45279 RangerAdmin非堆内存使用率超过阈值
- ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
- ALM-45281 UserSync堆内存使用率超过阈值
- ALM-45282 UserSync直接内存使用率超过阈值
- ALM-45283 UserSync非堆内存使用率超过阈值
- ALM-45284 UserSync垃圾回收(GC)时间超过阈值
- ALM-45285 TagSync堆内存使用率超过阈值
- ALM-45286 TagSync直接内存使用率超过阈值
- ALM-45287 TagSync非堆内存使用率超过阈值
- ALM-45288 TagSync垃圾回收(GC)时间超过阈值
- ALM-45289 PolicySync堆内存使用率超过阈值
- ALM-45290 PolicySync直接内存使用率超过阈值
- ALM-45291 PolicySync非堆内存使用率超过阈值
- ALM-45292 PolicySync垃圾回收(GC)时间超过阈值
- ALM-45293 Ranger用户同步异常
- ALM-45294 RangerKMS进程状态异常
- ALM-45325 Presto服务不可用
- ALM-45326 Presto Coordinator线程数超过阈值
- ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值
- ALM-45328 Presto Worker进程垃圾收集时间超出阈值
- ALM-45329 Presto Coordinator资源组排队任务超过阈值
- ALM-45330 Presto Worker线程数超过阈值
- ALM-45331 Presto Worker1线程数超过阈值
- ALM-45332 Presto Worker2线程数超过阈值
- ALM-45333 Presto Worker3线程数超过阈值
- ALM-45334 Presto Worker4线程数超过阈值
- ALM-45335 Presto Worker1进程垃圾收集时间超出阈值
- ALM-45336 Presto Worker2进程垃圾收集时间超出阈值
- ALM-45337 Presto Worker3进程垃圾收集时间超出阈值
- ALM-45338 Presto Worker4进程垃圾收集时间超出阈值
- ALM-45425 ClickHouse服务不可用
- ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
- ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
- ALM-45428 ClickHouse磁盘IO异常
- ALM-45429 ClickHouse扩容节点上同步表元数据失败
- ALM-45430 ClickHouse扩容节点上同步权限元数据失败
- ALM-45431 ClickHouse 实例不满足拓扑分配
- ALM-45432 ClickHouse用户同步进程故障
- ALM-45433 ClickHouse AZ拓扑检查异常
- ALM-45434 ClickHouse组件数据表中存在单副本
- ALM-45435 ClickHouse表元数据不一致
- ALM-45436 ClickHouse表数据倾斜
- ALM-45437 ClickHouse表part数量过多
- ALM-45438 ClickHouse磁盘使用率超过80%
- ALM-45439 ClickHouse节点进入只读模式
- ALM-45440 ClickHouse副本间不一致
- ALM-45441 ZooKeeper连接断开
- ALM-45442 SQL并发数过高
- ALM-45443 集群存在慢SQL查询
- ALM-45444 ClickHouse进程异常
- ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败
- ALM-45446 ClickHouse的mutation任务长时间未执行完成
- ALM-45447 ClickHouse表只读
- ALM-45448 ClickHouse使用Znode数量增长速率过快
- ALM-45449 ClickHouse使用zxid即将翻转
- ALM-45450 ClickHouse获取临时委托凭据失败
- ALM-45451 ClickHouse访问OBS失败
- ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值
- ALM-45585 IoTDB服务不可用
- ALM-45586 IoTDBServer堆内存使用率超过阈值
- ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值
- ALM-45588 IoTDBServer直接内存使用率超过阈值
- ALM-45589 ConfigNode堆内存使用率超过阈值
- ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值
- ALM-45591 ConfigNode直接内存使用率超过阈值
- ALM-45592 IoTDBServer RPC执行时长超过阈值
- ALM-45593 IoTDBServer Flush执行时长超过阈值
- ALM-45594 IoTDBServer空间内合并执行时长超过阈值
- ALM-45595 IoTDBServer跨空间合并执行时长超过阈值
- ALM-45596 Procedure执行失败
- ALM-45615 CDL服务不可用
- ALM-45616 CDL任务执行异常
- ALM-45617 CDL复制槽Slot积压数据量超过阈值
- ALM-45635 FlinkServer作业失败
- ALM-45636 Flink作业连续checkpoint失败
- ALM-45636 Flink作业连续checkpoint失败次数超阈值
- ALM-45637 FlinkServer作业task持续背压
- ALM-45638 FlinkServer作业失败重启次数超阈值
- ALM-45638 Flink作业失败重启次数超阈值
- ALM-45639 Flink作业checkpoint完成时间超过阈值
- ALM-45640 FlinkServer主备节点间心跳中断
- ALM-45641 FlinkServer主备节点同步数据异常
- ALM-45642 RocksDB持续触发写限流
- ALM-45643 RocksDB的MemTable大小持续超过阈值
- ALM-45644 RocksDB的Level0层SST文件数持续超过阈值
- ALM-45645 RocksDB的Pending Flush持续超过阈值
- ALM-45646 RocksDB的Pending Compaction持续超过阈值
- ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值
- ALM-45648 RocksDB持续发生Write-Stopped
- ALM-45649 RocksDB的Get P95耗时持续超过阈值
- ALM-45650 RocksDB的Write P95耗时持续超过阈值
- ALM-45652 Flink服务不可用
- ALM-45653 Flink HA证书文件失效
- ALM-45654 Flink HA证书文件即将过期
- ALM-45655 Flink HA证书文件已过期
- ALM-45736 Guardian服务不可用
- ALM-45737 TokenServer堆内存使用率超过阈值
- ALM-45738 TokenServer直接内存使用率超过阈值
- ALM-45739 TokenServer非堆内存使用率超过阈值
- ALM-45740 TokenServer垃圾回收(GC)时间超过阈值
- ALM-45741 请求ECS securitykey接口失败
- ALM-45742 请求ECS metadata接口失败
- ALM-45743 请求IAM接口失败
- ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值
- ALM-45745 Guardian TokenServer RPC队列平均时间超过阈值
- ALM-47001 MemArtsCC服务不可用
- ALM-47002 MemArtsCC磁盘故障
- ALM-47003 MemArtsCC Worker进程内存使用超过阈值
- ALM-47004 MemArtsCC Worker的read请求平均时延超过阈值
- ALM-50201 Doris服务不可用
- ALM-50202 FE CPU使用率超过阈值
- ALM-50203 FE内存使用率超过阈值
- ALM-50205 BE CPU使用率超过阈值
- ALM-50206 BE内存使用率超过阈值
- ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值
- ALM-50208 清理历史元数据镜像文件失败的次数超过阈值
- ALM-50209 生成元数据镜像文件失败的次数超过阈值
- ALM-50210 所有BE节点中最大的compaction score值超过阈值
- ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值
- ALM-50212 FE进程的老年代GC耗时累计值超过阈值
- ALM-50213 FE中和BE交互的线程池中正在排队的任务数超过阈值
- ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值
- ALM-50215 FE Thrift各个方法接收的RPC请求中最长的耗时超过阈值
- ALM-50216 FE节点使用的内存比率超过阈值
- ALM-50217 FE节点堆内存的使用率超过阈值
- ALM-50219 当前查询执行线程池等待队列的长度超过阈值
- ALM-50220 TCP包接收错误的次数的比率超过阈值
- ALM-50221 BE数据盘的使用率超过阈值
- ALM-50222 BE中指定数据目录的磁盘状态异常
- ALM-50223 BE所需最大内存大于机器剩余可用内存
- ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势
- ALM-50225 FE实例故障
- ALM-50226 BE实例故障
- ALM-50227 Doris租户查询并发数超过阈值
- ALM-50228 Doris租户内存使用率超过阈值
- ALM-50229 Doris FE连接OBS不可用
- ALM-50230 Doris BE连接OBS不可用
- ALM-50231 Doris中存在异常Tablet
- ALM-50232 Doris中存在较大的Tablet
- ALM-50401 JobServer中等待执行的任务数超过阈值
- ALM-50402 JobGateway服务不可用
- ALM-50406 JobServer提交作业接口失败率超过阈值
- ALM-50407 JobServer查询作业接口失败率超过阈值
- ALM-50408 JobServer终止作业接口失败率超过阈值
- ALM-12001 审计日志转储失败(2.x及以前版本)
- ALM-12002 HA资源异常(2.x及以前版本)
- ALM-12004 OLdap资源异常(2.x及以前版本)
- ALM-12005 OKerberos资源异常(2.x及以前版本)
- ALM-12006 节点故障(2.x及以前版本)
- ALM-12007 进程故障(2.x及以前版本)
- ALM-12010 Manager主备节点间心跳中断(2.x及以前版本)
- ALM-12011 Manager主备节点同步数据异常(2.x及以前版本)
- ALM-12012 NTP服务异常(2.x及以前版本)
- ALM-12014 设备分区丢失(2.x及以前版本)
- ALM-12015 设备分区文件系统只读(2.x及以前版本)
- ALM-12016 CPU使用率超过阈值(2.x及以前版本)
- ALM-12017 磁盘容量不足(2.x及以前版本)
- ALM-12018 内存使用率超过阈值(2.x及以前版本)
- ALM-12027 主机PID使用率超过阈值(2.x及以前版本)
- ALM-12028 主机D状态进程数超过阈值(2.x及以前版本)
- ALM-12031 omm用户或密码即将过期(2.x及以前版本)
- ALM-12032 ommdba用户或密码即将过期(2.x及以前版本)
- ALM-12033 慢盘故障(2.x及以前版本)
- ALM-12034 周期备份任务失败(2.x及以前版本)
- ALM-12035 恢复失败后数据状态未知(2.x及以前版本)
- ALM-12037 NTP服务器异常(2.x及以前版本)
- ALM-12038 监控指标转储失败(2.x及以前版本)
- ALM-12039 GaussDB主备数据不同步(2.x及以前版本)
- ALM-12040 系统熵值不足(2.x及以前版本)
- ALM-12041关键文件权限异常(2.x及以前版本)
- ALM-12042 关键文件配置异常(2.x及以前版本)
- ALM-12043 DNS解析时长超过阈值(2.x及以前版本)
- ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
- ALM-12046 网络写包丢包率超过阈值(2.x及以前版本)
- ALM-12047 网络读包错误率超过阈值(2.x及以前版本)
- ALM-12048 网络写包错误率超过阈值(2.x及以前版本)
- ALM-12049 网络读吞吐率超过阈值(2.x及以前版本)
- ALM-12050 网络写吞吐率超过阈值(2.x及以前版本)
- ALM-12051 磁盘Inode使用率超过阈值(2.x及以前版本)
- ALM-12052 TCP临时端口使用率超过阈值(2.x及以前版本)
- ALM-12053 文件句柄使用率超过阈值(2.x及以前版本)
- ALM-12054 证书文件失效(2.x及以前版本)
- ALM-12055 证书文件即将过期(2.x及以前版本)
- ALM-12180 磁盘卡IO(2.x及以前版本)
- ALM-12357 审计日志导出到OBS失败(2.x及以前版本)
- ALM-13000 ZooKeeper服务不可用(2.x及以前版本)
- ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本)
- ALM-13002 ZooKeeper内存使用量超过阈值(2.x及以前版本)
- ALM-14000 HDFS服务不可用(2.x及以前版本)
- ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14002 DataNode磁盘空间使用率超过阈值(2.x及以前版本)
- ALM-14003 丢失的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14004 损坏的HDFS块数量超过阈值(2.x及以前版本)
- ALM-14006 HDFS文件数超过阈值(2.x及以前版本)
- ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)
- ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)
- ALM-14009 故障DataNode数量超过阈值(2.x及以前版本)
- ALM-14010 NameService服务异常(2.x及以前版本)
- ALM-14011 HDFS DataNode数据目录配置不合理(2.x及以前版本)
- ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本)
- ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值(2.x及以前版本)
- ALM-16001 Hive数据仓库空间使用率超过阈值(2.x及以前版本)
- ALM-16002 Hive SQL执行成功率低于阈值(2.x及以前版本)
- ALM-16004 Hive服务不可用(2.x及以前版本)
- ALM-16005 上个周期Hive SQL执行失败超过阈值(2.x及以前版本)
- ALM-18000 Yarn服务不可用(2.x及以前版本)
- ALM-18002 NodeManager心跳丢失(2.x及以前版本)
- ALM-18003 NodeManager不健康(2.x及以前版本)
- ALM-18004 NodeManager磁盘可用率低于阈值(2.x及以前版本)
- ALM-18006 执行MapReduce任务超时(2.x及以前版本)
- ALM-18008 Yarn ResourceManager堆内存使用率超过阈值(2.x及以前版本)
- ALM-18009 MapReduce JobHistoryServer堆内存使用率超过阈值(2.x及以前版本)
- ALM-18010 Yarn任务挂起数超过阈值(2.x及以前版本)
- ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本)
- ALM-18012 上个周期被终止的Yarn任务数超过阈值(2.x及以前版本)
- ALM-18013 上个周期运行失败的Yarn任务数超过阈值(2.x及以前版本)
- ALM-19000 HBase服务不可用(2.x及以前版本)
- ALM-19006 HBase容灾同步失败(2.x及以前版本)
- ALM-19007 HBase合并队列超出阈值(2.x及以前版本)
- ALM-20002 Hue服务不可用(2.x及以前版本)
- ALM-23001 Loader服务不可用(2.x及以前版本)
- ALM-24000 Flume服务不可用(2.x及以前版本)
- ALM-24001 Flume Agent异常(2.x及以前版本)
- ALM-24003 Flume Client连接中断(2.x及以前版本)
- ALM-24004 Flume读取数据异常(2.x及以前版本)
- ALM-24005 Flume传输数据异常(2.x及以前版本)
- ALM-25000 LdapServer服务不可用(2.x及以前版本)
- ALM-25004 LdapServer数据同步异常(2.x及以前版本)
- ALM-25500 KrbServer服务不可用(2.x及以前版本)
- ALM-26051 Storm服务不可用(2.x及以前版本)
- ALM-26052 Storm服务可用Supervisor数量小于阈值(2.x及以前版本)
- ALM-26053 Storm Slot使用率超过阈值(2.x及以前版本)
- ALM-26054 Storm Nimbus堆内存使用率超过阈值(2.x及以前版本)
- ALM-27001 DBService服务不可用(2.x及以前版本)
- ALM-27003 DBService主备节点间心跳中断(2.x及以前版本)
- ALM-27004 DBService主备数据不同步(2.x及以前版本)
- ALM-28001 Spark服务不可用(2.x及以前版本)
- ALM-38000 Kafka服务不可用(2.x及以前版本)
- ALM-38001 Kafka磁盘容量不足(2.x及以前版本)
- ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本)
- ALM-43001 Spark服务不可用(2.x及以前版本)
- ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43007 JobHistory进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本)
- ALM-43010 JDBCServer进程堆内存使用超出阈值(2.x及以前版本)
- ALM-43011 JDBCServer进程非堆内存使用超出阈值(2.x及以前版本)
- ALM-43012 JDBCServer进程直接内存使用超出阈值(2.x及以前版本)
- ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本)
- ALM-44004 Presto Coordinator资源组排队任务超过阈值(2.x及以前版本)
- ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-44006 Presto Worker进程垃圾收集时间超出阈值(2.x及以前版本)
- ALM-45325 Presto服务不可用(2.x及以前版本)
- 配置MRS集群远程运维
- MRS集群服务常用端口列表
- 配置MRS集群存算分离
-
组件操作指南(LTS版)
-
使用CarbonData
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
-
CarbonData语法参考
- CREATE TABLE
- CREATE TABLE As SELECT
- DROP TABLE
- SHOW TABLES
- ALTER TABLE COMPACTION
- TABLE RENAME
- ADD COLUMNS
- DROP COLUMNS
- CHANGE DATA TYPE
- REFRESH TABLE
- REGISTER INDEX TABLE
- LOAD DATA
- UPDATE CARBON TABLE
- DELETE RECORDS from CARBON TABLE
- INSERT INTO CARBON TABLE
- DELETE SEGMENT by ID
- DELETE SEGMENT by DATE
- SHOW SEGMENTS
- CREATE SECONDARY INDEX
- SHOW SECONDARY INDEXES
- DROP SECONDARY INDEX
- CLEAN FILES
- SET/RESET
- CarbonData表操作并发语法说明
- CarbonData Segment API语法说明
- CarbonData表空间索引语法说明
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 为什么Bad Records导致数据加载性能降低?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 开启防误删下,为什么Carbon表没有执行drop table命令,回收站中也会存在该表的文件?
- 开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复
- CarbonData故障排除
- 使用CDL
-
使用ClickHouse
- ClickHouse概述
- ClickHouse用户权限管理
- ClickHouse客户端使用实践
- ClickHouse数据导入
- ClickHouse企业级能力增强
- ClickHouse性能调优
- ClickHouse运维管理
- ClickHouse常用SQL语法
- ClickHouse常见问题
- 使用DBService
- 使用Doris
-
使用Flink
- Flink作业引擎概述
- Flink用户权限管理
- Flink客户端使用实践
- 创建FlinkServer作业前准备
- 创建FlinkServer作业
- 管理FlinkServer作业
-
Flink企业级能力增强
- Flink SQL语法增强
- 多流Join场景支持配置表级别的TTL时间
- 配置Flink SQL Client支持SQL校验功能
- Flink作业大小表Join能力增强
- FlinkSQL OVER窗口支持超期退窗
- FlinkSQL Kafka和upsert-kafka Connector支持限流读
- FlinkSQL Kafka Connector支持消费drs-json格式数据
- FlinkSQL写入JDBC数据支持ignoreDelete
- Join-To-Live
- FlinkSQL行级过滤
- FlinkSQL算子并行度
- FlinkSQL JSON_VALUE函数性能优化
- FlinkSQL Lookup算子复用
- FlinkSQL Function增强
- FlinkSQL支持MultiJoin算子
- Flink运维管理
- Flink性能调优
- Flink客户端常见命令说明
- Flink常见SQL语法说明
- Flink常见问题
- Flink故障排除
- 使用Flume
- 使用Guardian
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序,导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件,提示权限不足
- HBase全局二级索引API介绍说明
- HBase如何关闭HDFS多路读功能
-
HBase故障排除
- HBase客户端连接服务端时长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果
- HBase恢复数据任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 如何查看ENABLED表的CLOSED状态的Region
- 集群异常掉电导致HBase文件损坏,如何快速自恢复?
- HDFS进入安全模式导致HBase服务异常,退出安全模式后HBase如何快速恢复
- 使用HDFS
-
使用HetuEngine
- HetuEngine交互查询引擎概述
- HetuEngine用户权限管理
- 快速使用HetuEngine访问Hive数据源
- 创建HetuEngine计算实例
- 添加HetuEngine数据源
- 配置HetuEngine物化视图
- 配置HetuEngine SQL诊断功能
- 开发和部署HetuEngine UDF
- 管理HetuEngine数据源
- 管理HetuEngine计算实例
- HetuEngine性能调优
- HetuEngine日志介绍
-
HetuEngine常见SQL语法说明
- HetuEngine数据类型说明
-
HetuEngine DDL SQL语法说明
- CREATE SCHEMA
- CREATE VIRTUAL SCHEMA
- CREATE TABLE
- CREATE TABLE AS
- CREATE TABLE LIKE
- CREATE VIEW
- CREATE FUNCTION
- CREATE MATERIALIZED VIEW
- ALTER MATERIALIZED VIEW STATUS
- ALTER MATERIALIZED VIEW
- ALTER TABLE
- ALTER VIEW
- ALTER SCHEMA
- DROP SCHEMA
- DROP TABLE
- DROP VIEW
- DROP FUNCTION
- DROP MATERIALIZED VIEW
- REFRESH MATERIALIZED VIEW
- TRUNCATE TABLE
- COMMENT
- VALUES
- SHOW语法使用概要
- SHOW CATALOGS
- SHOW SCHEMAS(DATABASES)
- SHOW TABLES
- SHOW TBLPROPERTIES TABLE|VIEW
- SHOW TABLE/PARTITION EXTENDED
- SHOW STATS
- SHOW FUNCTIONS
- SHOW SESSION
- SHOW PARTITIONS
- SHOW COLUMNS
- SHOW CREATE TABLE
- SHOW VIEWS
- SHOW CREATE VIEW
- SHOW MATERIALIZED VIEWS
- SHOW CREATE MATERIALIZED VIEW
- HetuEngine DML SQL语法说明
- HetuEngine TCL SQL语法说明
- HetuEngine DQL SQL语法说明
- HetuEngine SQL函数和操作符说明
- HetuEngine辅助命令语法
- HetuEngine预留关键字
- HetuEngine数据类型隐式转换
- HetuEngine样例表数据准备
- HetuEngine常用数据源语法兼容性说明
- HetuEngine常见问题
- HetuEngine故障排除
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库
- 配置Hive读取Hudi表
-
Hive企业级能力增强
- 配置Hive表不同分区分别存储至OBS和HDFS
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- 配置Hive自读自写SQL防御规则
- 配置Hive动态脱敏
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
-
使用Hudi
- Hudi表概述
- 使用Spark Shell创建Hudi表
- 使用spark-sql操作Hudi表
- 使用Hudi-Cli.sh操作Hudi表
- Hudi写操作
- Hudi读操作
- Hudi数据管理维护
- Hudi SQL语法参考
- Hudi Schema演进
- 配置Hudi数据列默认值
- Hudi支持Partial Update
- Hudi支持聚合函数
- Hudi常见配置参数
- Hudi性能调优
-
Hudi常见问题
- 写入更新数据时报错Parquet/Avro schema
- 写入更新数据时报错UnsupportedOperationException
- 写入更新数据时报错SchemaCompatabilityException
- Hudi在upsert时占用了临时文件夹中大量空间
- Hudi写入小精度Decimal数据失败
- 使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表
- 使用kafka采集数据时报错IllegalArgumentException
- Hive同步数据报错SQLException
- Hive同步数据报错HoodieHiveSyncException
- Hive同步数据报错SemanticException
- 使用Hue
-
使用Impala
- Impala客户端使用实践
- 访问Impala WebUI界面
- 使用Impala操作Kudu表
- Impala对接外部LDAP
- Impala启用并配置动态资源池
- 使用Impala查询管理界面
- Impala常见配置参数
-
Impala常见问题
- Impala服务是否支持磁盘热插拔
- Impala对接低版本kudu后,无法执行join
- MRS集群外节点如何安装impala-shell客户端?
- Impala 4.3.0版本,开启Ranger后如何对接kudu外表?
- 通过impala-shell连接不上Impalad的21000端口
- Impala集群查询数据的时候出现bad version和invalid TType错误
- 如何关闭MRS集群Impalad角色的cas认证
- Impala查询parquet表的Schema和文件Schema不一致时报错
- Impalad的session连接长时间没使用,但连接没有自动断开
- Impala正常使用的udf突然报了找不到类路径,Hive中可用,但Impala报找不到类路径
- Impalad的xmx内存小于catalog的xmx内存,Impalad节点持续报Full GC,SQL一直处于created状态
- 使用Iceberg
- 使用IoTDB
- 使用JobGateway
- 使用Kafka
- 使用Kudu
- 使用Loader
- 使用Mapreduce
- 使用MemArtsCC
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- Oozie企业级能力增强
- Oozie日志介绍
- Oozie常见问题
- 使用Ranger
-
使用Spark/Spark2x
- Spark使用说明
- Spark用户权限管理
- Spark客户端使用实践
- 访问Spark WebUI界面
- 使用代理用户提交Spark作业
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark on OBS性能调优
-
Spark运维管理
- 快速配置Spark参数
- Spark常用配置参数
- Spark日志介绍
- 获取运行中Spark应用的Container日志
- 调整Spark日志级别
- 配置WebUI上查看Container日志
- 配置WebUI上显示的Lost Executor信息的个数
- 配置JobHistory本地磁盘缓存
- 配置Spark Eventlog日志回滚
- 增强有限内存下的稳定性
- 配置YARN-Client和YARN-Cluster不同模式下的环境变量
- Hive分区修剪的谓词下推增强
- 配置列统计值直方图Histogram用以增强CBO准确度
- CarbonData首查优化工具
- 消减Spark Insert Overwrite自读自写风险
-
Spark常见问题
-
Spark Core
- 日志聚合下,如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- Spark客户端设置回收站version不生效
- Spark yarn-client模式下如何修改日志级别为INFO
-
Spark Core
-
Spark故障排除
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
- Spark多服务场景下,普通用户无法登录Spark客户端
- 安装使用集群外客户端时,连接集群端口失败
- Datasource Avro格式查询异常
- 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空
- 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败
- SQL语法兼容TIMESTAMP/DATE特殊字符
- 使用Sqoop
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- 配置TimelineServer支持HA
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 附录
-
使用CarbonData
-
组件操作指南(普通版)
- 使用Alluxio
- 使用CarbonData(MRS 3.x之前版本)
-
使用CarbonData(MRS 3.x及之后版本)
- CarbonData数据类型概述
- CarbonData表用户权限说明
- 使用Spark客户端创建CarbonData表
- CarbonData数据分析
- CarbonData性能调优
- CarbonData常见配置参数
- CarbonData语法参考
- CarbonData故障处理
-
CarbonData常见问题
- 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出?
- 如何避免对历史数据进行minor compaction?
- 如何在CarbonData数据加载时修改默认的组名?
- 为什么INSERT INTO CARBON TABLE失败?
- 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同?
- 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor?
- 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
- 为什么在off heap时数据加载失败?
- 为什么创建Hive表失败?
- 如何在不同的namespaces上逻辑地分割数据
- 为什么在Spark Shell中不能执行更新命令?
- 如何在CarbonData中配置非安全内存?
- 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常?
- 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException: Not enough memory”异常?
- 开启防误删后为什么Carbon表没有执行drop命令,回收站中也会存在该表的文件?
- 使用ClickHouse
- 使用DBService
- 使用Flink
- 使用Flume
-
使用HBase
- 创建HBase权限角色
- HBase客户端使用实践
- 快速使用HBase进行离线数据分析
- 使用BulkLoad工具向HBase迁移数据
- HBase数据操作
- HBase企业级能力增强
- HBase性能调优
- HBase运维管理
-
HBase常见问题
- 结束BulkLoad客户端程序导致作业执行失败
- 如何修复长时间处于RIT状态的Region
- HMaster等待NameSpace表上线时超时退出
- 客户端查询HBase出现SocketTimeoutException异常
- 在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied”
- 停止运行的RegionServer,在HMaster WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉
- 访问HBase Phoenix提示权限不足如何处理
- 租户使用HBase BulkLoad功能提示权限不足如何处理
- 如何修复Overlap状态的HBase Region
- Phoenix BulkLoad Tool使用限制说明
- CTBase对接Ranger权限插件提示权限不足
-
HBase故障排除
- HBase客户端连接服务端时,长时间无法连接成功
- 在HBase连续对同一个表名做删除创建操作时出现创建表异常
- HBase占用网络端口,连接数过大会导致其他服务不稳定
- 有210000个map和10000个reduce的HBase BulkLoad任务运行失败
- 使用scan命令仍然可以查询到已修改和已删除的数据
- 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常
- 如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名
- 为什么给HBase使用的HDFS目录设置quota会造成HBase故障
- 使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败
- HMaster日志中频繁打印出FileNotFoundException信息
- ImportTsv工具执行失败报“Permission denied”异常
- 使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果
- HBase数据恢复任务报错回滚失败
- HBase RegionServer GC参数Xms和Xmx的配置为31GB,导致RegionServer启动失败
- 在集群内节点使用LoadIncrementalHFiles批量导入数据,报错权限不足
- 使用Phoenix Sqlline脚本报import argparse错误
- 使用HDFS
-
使用Hive
- Hive用户权限管理
- Hive客户端使用实践
- 快速使用Hive进行数据分析
- Hive数据存储及加密配置
- Hive on HBase
- 配置Hive读取关系型数据库数据
-
Hive企业级能力增强
- 配置Hive目录旧数据自动移除至回收站
- 配置Hive插入数据到不存在的目录中
- 配置创建Hive内部表时不能指定Location
- 配置用户在具有读和执行权限的目录中创建外表
- 配置基于HTTPS/HTTP协议的REST接口
- 配置Hive Transform功能开关
- 切换Hive执行引擎为Tez
- Hive负载均衡
- 配置Hive单表动态视图的访问控制权限
- 配置创建临时函数的用户不需要具有ADMIN权限
- 配置具备表select权限的用户可查看表结构
- 配置仅Hive管理员用户能创建库和在default库建表
- 配置Hive支持创建超过32个角色
- 创建Hive用户自定义函数
- 配置Hive Beeline高可靠性
- Hive性能调优
- Hive运维管理
- Hive常见SQL语法说明
-
Hive常见问题
- 如何删除所有HiveServer中的永久函数
- 为什么已备份的Hive表无法执行drop操作
- 如何在Hive自定义函数中操作本地文件
- 如何强制停止Hive执行的MapReduce任务
- Hive不支持复杂类型字段名称中包含哪些特殊字符
- 如何对Hive表大小数据进行监控
- 如何防止insert overwrite语句误操作导致数据丢失
- 未安装HBase时Hive on Spark任务卡顿如何处理
- Hive使用WHERE条件查询超过3.2万分区的表报错
- 使用IBM的JDK访问Beeline客户端出现连接HiveServer失败
- Hive表的Location支持跨OBS和HDFS路径吗
- MapReduce引擎无法查询Tez引擎执行union语句写入的数据
- Hive是否支持对同一张表或分区进行并发写数据
- Hive是否支持向量化查询
- Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错
- 如何关闭Hive客户端日志
- 为什么在Hive自定义配置中添加OBS快删目录后不生效
- Hive配置类问题
- Hive故障排除
- 使用Hudi
- 使用Hue(MRS 3.x之前版本)
- 使用Hue(MRS 3.x及之后版本)
- 使用Impala
- 使用Kafka
- 使用KafkaManager
- 使用Loader
- 使用Kudu
- 使用MapReduce
- 使用OpenTSDB
-
使用Oozie
- 使用Oozie客户端提交作业
-
使用Hue提交Oozie作业
- 使用Hue创建工作流
- 使用Hue提交Oozie Hive2作业
- 使用Hue提交Oozie HQL脚本
- 使用Hue提交Oozie Spark2x作业
- 使用Hue提交Oozie Java作业
- 使用Hue提交Oozie Loader作业
- 使用Hue提交Oozie Mapreduce作业
- 使用Hue提交Oozie Sub workflow作业
- 使用Hue提交Oozie Shell作业
- 使用Hue提交Oozie HDFS作业
- 使用Hue提交Oozie Streaming作业
- 使用Hue提交Oozie Distcp作业
- 使用Hue提交Oozie SSH作业
- 使用Hue提交Coordinator定时调度作业
- 使用Hue提交提交Bundle批处理作业
- 在Hue界面中查询Oozie作业结果
- 配置Oozie节点间用户互信
- 开启Oozie HA机制
- Oozie日志介绍
- Oozie常见问题
- 使用Presto
- 使用Ranger(MRS 1.9.2)
- 使用Ranger(MRS 3.x)
- 使用Spark(MRS 3.x之前版本)
-
使用Spark2x(MRS 3.x及之后版本)
- Spark用户权限管理
- Spark客户端使用实践
- 配置Spark读取HBase表数据
- 配置Spark任务不获取HBase Token信息
- Spark Core企业级能力增强
- Spark SQL企业级能力增强
- Spark Streaming企业级能力增强
- Spark Core性能调优
- Spark SQL性能调优
- Spark Streaming性能调优
- Spark运维管理
-
Spark2x常见问题
-
Spark Core
- 日志聚合下如何查看Spark已完成应用日志
- Driver返回码和RM WebUI上应用状态显示不一致
- 为什么Driver进程不能退出
- 网络连接超时导致FetchFailedException
- 当事件队列溢出时如何配置事件队列的大小
- Spark应用执行过程中,日志中一直打印getApplicationReport异常且应用较长时间不退出
- Spark执行应用时上报“Connection to ip:port has been quiet for xxx ms while there are outstanding requests”并导致应用结束
- NodeManager关闭导致Executor(s)未移除
- Password cannot be null if SASL is enabled异常
- 向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常
- 使用Hash shuffle出现任务失败
- 访问Spark应用的聚合日志页面报“DNS查找失败”错误
- 由于Timeout waiting for task异常导致Shuffle FetchFailed
- Executor进程Crash导致Stage重试
- 执行大数据量的shuffle过程时Executor注册shuffle service失败
- 在Spark应用执行过程中NodeManager出现OOM异常
- 安全集群使用HiBench工具运行sparkbench获取不到realm
-
SQL和DataFrame
- Spark SQL ROLLUP和CUBE使用的注意事项
- Spark SQL在不同DB都可以显示临时表
- 如何在Spark命令中指定参数值
- SparkSQL建表时的目录权限
- 为什么不同服务之间互相删除UDF失败
- Spark SQL无法查询到Parquet类型的Hive表的新插入数据
- cache table使用指导
- Repartition时有部分Partition没数据
- 16T的文本数据转成4T Parquet数据失败
- 当表名为table时,执行相关操作时出现异常
- 执行analyze table语句,因资源不足出现任务卡住
- 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job?
- spark-sql退出时打印RejectedExecutionException异常栈
- 健康检查时,误将JDBCServer Kill
- 日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果
- 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效
- 执行复杂SQL语句时报“Code of method ... grows beyond 64 KB”的错误
- 在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象
- 连上不同的JDBCServer,function不能正常使用
- 用add jar方式创建function,执行drop function时出现问题
- Spark2x无法访问Spark1.5创建的DataSource表
- Spark SQL无法查询到ORC类型的Hive表的新插入数据
- Spark Streaming
- 访问Spark应用获取的restful接口信息有误
- 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面
- HistoryServer缓存的应用被回收,导致此类应用页面访问时出错
- 加载空的part文件时,app无法显示在JobHistory的页面上
- Spark2x导出带有相同字段名的表,结果导出失败
- 为什么多次运行Spark应用程序会引发致命JRE错误
- IE浏览器访问Spark2x原生UI界面失败,无法显示此页或者页面显示错误
- Spark2x如何访问外部集群组件
- 对同一目录创建多个外表,可能导致外表查询失败
- 访问Spark2x JobHistory中某个应用的原生页面时页面显示错误
- 对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败
- Spark shuffle异常处理
-
Spark Core
- 使用Sqoop
- 使用Storm
- 使用Tez
-
使用Yarn
- Yarn用户权限管理
- 使用Yarn客户端提交任务
- 配置Container日志聚合功能
- 启用Yarn CGroups功能限制Container CPU使用率
- Yarn企业级能力增强
- Yarn性能调优
- Yarn运维管理
-
Yarn常见问题
- 任务完成后Container挂载的文件目录未清除
- 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常
- 重启YARN,本地日志不被删除
- 执行任务时AppAttempts重试次数超过2次还没有运行失败
- 在ResourceManager重启后,应用程序会移回原来的队列
- YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
- ResourceManager持续主备倒换
- 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败
- Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
- Superior调度模式下,单个NodeManager故障可能导致MapReduce任务失败
- 当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行
- 如何限制存储在ZKstore中的应用程序诊断消息的大小
- 为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败
- 开启Native Task特性后,Reduce任务在部分操作系统运行失败
- 使用ZooKeeper
- 常见操作
-
最佳实践
- MRS最佳实践汇总
-
数据分析
- 使用Spark2x实现车联网车主驾驶行为分析
- 使用Hive加载HDFS数据并分析图书评分情况
- 使用Hive加载OBS数据并分析企业雇员信息
- 通过Flink作业处理OBS数据
- 通过Spark Streaming作业消费Kafka数据
- 通过Flume采集指定目录日志系统文件至HDFS
- 基于Kafka的Word Count数据流统计案例
-
实时OLAP数据分析
- 实时OLAP场景介绍
- 离线数据加载:通过CDM将Hive外表数据迁移到Doris
- 离线数据加载:通过Doris Catalog读取Hive外表数据并写入Doris
- 离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris
- 离线数据加载:通过Spark视图读取Hive外表数据并写入Doris
- 离线数据加载:通过StreamLoad将本地CSV文件导入Doris
- 离线数据加载:通过Broker Load将ORC格式的Hive数据导入Doris
- 实时数据加载:通过FlinkSQL将订单表Kafka数据实时同步到Doris
- 实时OLAP数据查询:基于Unique表的单表检索查询和聚合查询
- 物联网时序数据分析
- 数据迁移
- 周边云服务对接
- 生态组件对接
- MRS集群管理
-
开发指南
-
开发指南(LTS版)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS组件应用安全认证说明
- 准备MRS应用开发用户
- 快速开发MRS组件应用
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
- Doris开发指南(安全模式)
- Doris开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- HetuEngine开发指南(安全模式)
- HetuEngine开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- IoTDB开发指南(安全模式)
- IoTDB开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
- Manager管理开发指南
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
-
开发指南(普通版_3.x)
- MRS应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- MRS应用开发开源jar包冲突列表说明
- MRS组件jar包版本与集群对应关系说明
- MRS应用开发安全认证说明
- ClickHouse开发指南(安全模式)
- ClickHouse开发指南(普通模式)
-
Flink开发指南(安全模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
-
Flink开发指南(普通模式)
- Flink应用开发简介
- Flink应用开发流程介绍
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink常用API介绍
- 如何处理用户在使用chrome浏览器时无法显示任务状态的title
- 如何处理IE10/11页面算子的文字部分显示异常
- 如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢
- 如何处理blob.storage.directory配置/home目录时启动yarn-session失败
- 如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错
- 如何处理新创建的Flink用户提交任务报ZooKeeper文件目录权限不足
- 如何处理无法直接通过URL访问Flink Web
- 如何查看System.out.println打印的调试信息或将调试信息输出至指定文件
- 如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题
- HBase开发指南(安全模式)
- HBase开发指南(普通模式)
- HDFS开发指南(安全模式)
- HDFS开发指南(普通模式)
- Hive开发指南(安全模式)
- Hive开发指南(普通模式)
- Impala开发指南(安全模式)
- Impala开发指南(普通模式)
- Kafka开发指南(安全模式)
- Kafka开发指南(普通模式)
- Kudu开发指南(安全模式)
- Kudu开发指南(普通模式)
- MapReduce开发指南(安全模式)
- MapReduce开发指南(普通模式)
- Oozie开发指南(安全模式)
- Oozie开发指南(普通模式)
-
Spark2x开发指南(安全模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同时访问两个HBase样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- SparkSQL UDF功能的权限控制机制
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
-
Spark2x开发指南(普通模式)
- Spark应用开发简介
- Spark应用开发流程介绍
- Spark2x样例工程介绍
- 准备Spark应用开发环境
-
开发Spark应用
- Spark Core样例程序
- Spark SQL样例程序
- 通过JDBC访问Spark SQL样例程序
- Spark读取HBase表样例程序
- Spark从HBase读取数据再写入HBase样例程序
- Spark从Hive读取数据再写入HBase样例程序
- Spark Streaming对接Kafka0-10样例程序
- Spark Structured Streaming样例程序
- Spark Structured Streaming对接Kafka样例程序
- Spark Structured Streaming状态操作样例程序
- Spark同步HBase数据到CarbonData样例程序
- 使用Spark执行Hudi样例程序
- Hudi的自定义配置项样例程序
- 调测Spark应用
-
Spark应用开发常见问题
- Spark常用API介绍
- structured streaming功能与可靠性介绍
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 由于Kafka配置的限制,导致Spark Streaming应用运行失败
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何使用IDEA远程调试
- 如何采用Java命令提交Spark应用
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- 从checkpoint恢复spark应用的限制
- 第三方jar包跨平台(x86、TaiShan)支持
- 在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录
- ARM环境python pipeline运行报139错误码规避方案
- Structured Streaming 任务提交方式变更
- 常见jar包冲突处理方式
- Storm开发指南(安全模式)
- Storm开发指南(普通模式)
- YARN开发指南(安全模式)
- YARN开发指南(普通模式)
-
开发指南(普通版_2.x)
- MRS组件应用开发简介
- 获取MRS应用开发样例工程
- MRS各组件样例工程汇总
- Alluxio开发指南
-
Flink开发指南
- Flink应用开发概述
- 准备Flink应用开发环境
- 开发Flink应用
- 调测Flink应用
-
Flink应用开发常见问题
- Flink Savepoints CLI介绍
- Flink Client CLI介绍
- Flink应用性能调优建议
- Savepoints相关问题解决方案
- 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题?
- 如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
- 为什么非static的KafkaPartitioner类对象去构造FlinkKafkaProducer010,运行时会报错?
- 为什么新创建的Flink用户提交任务失败,报ZooKeeper文件目录权限不足?
- 为什么Flink Web页面无法直接连接?
- HBase开发指南
- HDFS开发指南
- Hive开发指南
- Impala开发指南
- Kafka开发指南
- MapReduce开发指南
- OpenTSDB开发指南
- Presto开发指南
-
Spark开发指南
- Spark应用开发概述
- 准备Spark应用开发环境
- 开发Spark应用
- 调测Spark应用
-
Spark应用开发常见问题
- Spark接口介绍
- Spark应用调优
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 本地运行Spark程序连接MRS集群的Hive、HDFS
- Storm开发指南
-
组件应用开发规范
- ClickHouse应用开发规范
- Doris应用开发规范
-
Flink应用开发规范
- Flink开发规范概述
-
FlinkSQL Connector开发规范
- FlinkSQL ClickHouse表开发规则
- FlinkSQL ClickHouse表开发建议
- FlinkSQL Doris数据表开发规则
- FlinkSQL Kafka表开发规则
- FlinkSQL Kafka表开发建议
- FlinkSQL HBase数据表开发规则
- FlinkSQL HBase数据表开发建议
- FlinkSQL Elasticsearch表开发规则
- FlinkSQL Elasticsearch表开发建议
- FlinkSQL JDBC表开发规则
- FlinkSQL JDBC表开发建议
- FlinkSQL DWS表开发规则
- FlinkSQL DWS表开发建议
- FlinkSQL Redis表开发规则
- FlinkSQL Redis表开发建议
- FlinkSQL Hive表开发规则
- FlinkSQL Hive表开发建议
- Flink on Hudi开发规范
- Flink任务开发规范
- Flink SQL逻辑开发规范
- Flink性能调优开发规范
- Flink开发样例
- Flink常见开发问题
- HBase应用开发规范
- HDFS应用开发规范
- Hive应用开发规范
- Hudi应用开发规范
- Impala应用开发规范
- IoTDB应用开发规范
- Kafka应用开发规范
- Mapreduce应用开发规范
- Spark应用开发规范
-
开发指南(LTS版)
- API参考
- SDK参考
- 场景代码示例
-
常见问题
- 产品咨询类
- 计费类
- 集群创建类
- Web页面访问类
- 用户认证及权限类
- 客户端使用类
-
组件配置类
- MRS是否支持Hive on Kudu?
- MRS集群是否支持Hive on Spark?
- 如何修改DBService的IP地址?
- Kafka支持的访问协议类型有哪些?
- MRS集群中Spark任务支持哪些Python版本?
- MRS 2.1.0版本集群对Storm日志的大小有什么限制?
- 如何修改现有集群的HDFS fs.defaultFS?
- MRS是否支持同时运行多个Flume任务?
- 如何修改FlumeClient的日志为标准输出日志?
- Hadoop组件jar包位置和环境变量的位置在哪里?
- 如何查看HBase日志?
- HBase表如何设置和修改数据保留期?
- 如何修改HDFS的副本数?
- 如何修改HDFS主备倒换类?
- DynamoDB的number在Hive表中用什么类型比较好?
- Hive查询数据是否支持导出?
- Hive使用beeline -e执行多条语句报错如何处理?
- Hue连接HiveServer报错“over max user connections”如何处理?
- 如何查看MRS Hive元数据?
- 如何重置MRS Kafka数据?
- 消费Kafka Topic时报错“Not Authorized to access group XXX”如何处理?
- Kudu支持的压缩算法有哪些?
- 如何查看Kudu日志?
- 新建集群Kudu服务异常如何处理?
- Presto如何配置其他数据源?
- MRS 1.9.3 Ranger证书如何更新?
- MRS的Storm集群提交任务时如何指定日志路径?
- 如何检查Yarn的ResourceManager配置是否正常?
- 如何修改Clickhouse服务的allow_drop_detached配置项?
- ClickHouse系统表日志过大时如何添加定期删除策略?
- 如何修改ClickHouse服务时区?
-
集群管理类
- 如何查看所有MRS集群?
- 如何查看MRS服务的操作日志信息?
- 如何查看MRS集群配置信息?
- 如何在MRS集群中手动添加组件?
- 如何取消MRS集群风险告警的消息通知?
- 为什么MRS集群显示的资源池内存小于实际集群内存?
- MRS集群安装的Python版本是多少?
- 如何上传本地文件到集群内节点?
- MRS集群节点时间信息不正确如何处理?
- MRS管理控制台和集群Manager页面功能区别有哪些?
- MRS集群如何解绑已绑定至Manager的EIP?
- 如何关闭MRS集群内节点的防火墙服务?
- MRS集群内节点的登录方式如何切换?
- 如何通过集群外的节点访问MRS集群?
- MRS集群中Kafka Topic监控是否支持发送告警?
- 产生Yarn队列资源不足告警时正在运行的资源队列如何查看?
- HBase操作请求次数指标中的多级图表统计如何理解?
- 节点管理类
- 组件管理类
-
作业管理类
- MRS集群支持提交哪些形式的Spark作业?
- MRS节点访问OBS报错408如何处理?
- 如何让不同的业务程序分别用不同的Yarn队列?
- 提交作业失败,报错与OBS相关如何处理?
- MRS集群租户资源最小值为0时只能同时运行一个任务吗?
- 作业提交参数间用空格隔开导致参数信息不被识别如何处理?
- Spark作业的Client模式和Cluster模式有什么区别?
- 如何查看MRS作业的日志?
- 提交作业时系统提示当前用户在Manager不存在如何处理?
- LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理?
- 为什么MRS Console页面Flink作业状态与Yarn上的作业状态不一致?
- SparkStreaming作业运行后报OBS访问403如何处理?
- Spark运行作业报错“java.io.IOException: Connection reset by peer”如何处理?
- Spark作业访问OBS报错“requestId=XXX”如何处理?
- Spark作业报错“UnknownScannerExeception”如何处理?
- DataArts Studio调度Spark作业偶现失败如何处理?
- 运行Flink任务报错“java.lang.NoSuchFieldError: SECURITY_SSL_ENCRYPT_ENABLED”如何处理?
- 提交的Yarn作业在界面上查看不到如何处理?
- 提交Flink任务时launcher-job被Yarn终止如何处理?
- 提交Flink作业时报错slot request timeout如何处理?
- DistCP作业导入导出数据常见问题
- 如何通过Yarn WebUI查看Hive作业对应的SQL语句?
- 如何查看指定Yarn任务的日志?
- 添加Hive服务后,提交hivesql/hivescript作业失败如何处理?
- Spark Job对应的运行日志保存在哪里?
- 执行Spark任务报内存不足告警如何处理?
- 修改hdfs-site.xml文件后未及时重启NameNode导致产生告警如何处理?
- SparkSQL访问Hive分区表启动Job前耗时较长如何处理?
- MRS集群用户绑定多个队列时系统如何选择队列?
- 性能优化类
- 应用开发类
-
周边生态对接类
- MRS是否支持对DLI服务的业务表进行读写操作?
- OBS是否支持ListObjectsV2协议?
- MRS集群内的节点中可以部署爬虫服务吗?
- MRS服务是否支持安全删除的能力?
- 如何使用PySpark连接MRS Spark?
- HBase同步数据到CSS为什么没有映射字段?
- MRS集群是否支持对接外部KDC?
- 开源Kylin 3.x与MRS 1.9.3对接时存在Jetty兼容性问题如何处理?
- MRS导出数据到OBS加密桶失败如何处理?
- MRS服务如何对接云日志服务?
- MRS集群的节点如何安装主机安全服务?
- 如何通过happybase连接到MRS服务的HBase?
- Hive Driver是否支持对接dbcp2?
- 升级补丁类
-
故障排除
- 账号密码类
- 账号权限类
-
Web页面访问类
- 无法访问MRS集群Manager页面如何处理?
-
登录集群Manager常见异常问题
- 访问MRS Manager页面报错“502 Bad Gateway”
- 访问Manager页面报错“请求VPC错误”
- 通过专线访问Manager页面方式出现503报错
- 登录Manager集群页面时报错“You have no right to access the page”
- 登录Manager时界面报错“认证信息无效”
- Manager界面超时退出后无法正常登录
- 升级Python后无法登录Manager页面
- 修改集群域名后无法登录Manager页面
- 登录Manager界面后页面空白无内容
- 集群节点内安装了原生Kerberos导致登录集群失败
- macOS使用浏览器访问MRS Manager
- Manager界面登录用户被锁如何解锁
- Manager页面加载卡顿
-
访问MRS组件Web UI界面常见异常问题
- 使用admin用户访问组件的WebUI界面报错或部分功能不可用
- 访问组件WebUI页面报500异常
- 【HBase WebUI】无法从HBase WebUI界面跳转到RegionServer WebUI
- 【HDFS WebUI】访问HDFS WebUI页面报错“重定向次数过多”
- 【HDFS WebUI】使用IE浏览器访问HDFS WebUI界面失败
- 【Hue WebUI】登录Hue WebUI报错无权限
- 【Hue WebUI】Hue WebUI页面无法访问
- 【Hue WebUI】访问Hue WebUI页面报错“Proxy Error”
- 【Hue WebUI】集群未安装Hive服务时Hue原生页面无法正常显示
- 【Hue WedUI】Hue(主)无法打开web网页
- 【Ranger WebUI】新用户修改完密码后无法登录Ranger WebUI界面
- 【Tez WebUI】访问Tez WebUI界面报错404
- 【Spark WebUI】为什么从Yarn Web UI页面无法跳转到Spark WebUI界面
- 【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错
- 【Spark WebUI】访问JobHistory中某个应用的原生页面时页面显示错误
- 【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败
- 【Yarn WebUI】无法访问Yarn WebUI
- API使用类
-
集群管理类
- 缩容Task节点失败
- 如何处理集群内部OBS证书过期
- MRS集群更换磁盘(适用于2.x及之前)
- MRS集群更换磁盘(适用于3.x)
- MRS备份任务执行失败
- Core节点出现df显示的容量和du显示的容量不一致
- 如何解除网络ACL的关联子网
- 修改节点主机名后导致MRS集群状态异常
- 进程被终止如何定位原因
- MRS配置跨集群互信失败
- MRS集群节点使用pip3安装Python时提示网络不可达
- 开源confluent-kafka-go连接MRS安全集群
- MRS集群周期备份任务执行失败
- MRS集群客户端无法下载
- 开启Kerberos认证的MRS集群提交Flink作业报错
- 通过Hive beeline命令行执行插入命令的时候报错
- MRS集群节点如何进行操作系统漏洞升级
- 使用CDM服务迁移数据至MRS HDFS时任务运行失败
- MRS集群频繁产生节点间心跳中断告警
- PMS进程占用内存高
- Knox进程占用内存高
- 安全集群外的客户端访问HBase很慢
- 作业无法提交如何定位?
- HBase日志文件过大导致OS盘空间不足
- HDFS日志文件过大导致OS盘空间不足
- MRS集群节点规格升级异常
- Manager页面新建的租户删除失败
- MRS集群切换VPC后集群状态异常不可用
- MRS管理控制台上提交作业异常处理
- 生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1”
- MRS集群Core节点扩容成功后部分实例启动失败
- MRS集群所在VPC部署了VPCEP后集群补丁安装失败
- 使用Alluixo
- 使用ClickHouse
- 使用DBservice
-
使用Flink
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.keytab”
- Flink客户端执行命令报错“Error while parsing YAML configuration file : security.kerberos.login.principal:pippo”
- Flink客户端执行命令报错“Could not connect to the leading JobManager”
- 使用不同用户执行yarn-session创建Flink集群失败
- Flink业务程序无法读取NFS盘上的文件
- 自定义Flink log4j日志输出级别不生效
- 使用Flume
-
使用HBase
- 连接到HBase响应慢
- HBase用户认证失败
- 端口被占用导致RegionServer启动失败
- 节点剩余内存不足导致HBase启动失败
- HDFS性能差导致HBase服务不可用告警
- 参数不合理导致HBase启动失败
- 残留进程导致Regionsever启动失败
- HDFS上设置配额导致HBase启动失败
- HBase version文件损坏导致启动失败
- 无业务情况下,RegionServer占用CPU高
- HBase启动失败,RegionServer日志中提示“FileNotFoundException”
- HBase启动后原生页面显示RegionServer个数多于实际个数
- RegionServer实例异常,处于Restoring状态
- 新安装的集群HBase启动失败
- acl表目录丢失导致HBase启动失败
- 集群上下电之后HBase启动失败
- 文件块过大导致HBase数据导入失败
- 使用Phoenix创建HBase表后,向索引表中加载数据报错
- 在MRS集群客户端无法执行hbase shell命令
- HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱
- RegionServer剩余内存不足导致HBase服务启动失败
- 集群扩容之后新节点HRegionServer启动失败
- HBase文件丢失导致Region状态长时间为RIT
-
使用HDFS
- 修改RPC端口后HDFS NameNode实例都变为备状态
- 通过公网IP连接使用HDFS客户端报错
- 使用Python远程连接HDFS的端口失败
- HDFS容量达到100%导致上层服务HBase、Spark等不可用
- 启动HDFS和Yarn服务报错“Permission denied”
- HDFS用户可在其他用户目录下创建或删除文件
- HDFS的DataNode一直显示退服中
- 内存不足导致HDFS NameNode启动失败
- ntpdate修改时间导致HDFS出现大量丢块
- DataNode概率性出现CPU占用接近100%导致节点丢失
- 单NameNode长期故障时如何使用客户端手动checkpoint
- HDFS文件读写时报错“Failed to place enough replicas”
- 文件最大打开句柄数设置太小导致读写文件异常
- HDFS客户端写文件close失败
- 文件错误导致上传文件到HDFS失败
- 界面配置dfs.blocksize后上传数据,block大小未改变
- 读取HDFS文件失败,报错“FileNotFoundException”
- HDFS写文件失败,报错“item limit of xxx is exceeded”
- 调整HDFS SHDFShell客户端日志级别
- HDFS读文件失败报错“No common protection layer”
- HDFS目录配额不足导致写文件失败
- 执行balance失败报错“Source and target differ in block-size”
- 查询或者删除HDFS文件失败
- 非HDFS数据残留导致数据分布不均衡
- HDFS客户端安装在数据节点导致数据分布不均衡
- 节点内DataNode磁盘使用率不均衡
- 执行balance常见问题定位方法
- HDFS显示磁盘空间不足,其实还有10%磁盘空间
- 使用普通集群Core节点上安装的HDFS客户端时报错“error creating DomainSocket”
- 集群外节点安装客户端上传HDFS文件失败
- HDFS写并发较大时报副本不足
- HDFS客户端无法删除超长目录
- 集群外节点访问MRS HDFS报错
- NameNode节点存在ALM-12027主机PID使用率超过阈值告警
- 集群出现ALM-14012 Journalnode数据不同步告警
- 由于HDFS块丢失导致DataNode退服失败
- 使用distcp命令拷贝空文件夹报错
-
使用Hive
- Hive常见日志说明
- Hive服务启动失败
- 安全集群执行set命令的时候报错“Cannot modify xxx at runtime”
- 提交Hive任务时如何指定队列?
- 怎么通过客户端设置Map/Reduce内存?
- 如何在导入Hive表时指定输出的文件压缩格式?
- Hive表desc描述过长导致无法完整显示
- Hive表中增加分区列后再插入数据显示为NULL
- 集群中创建的新用户执行查询Hive操作时无权限
- 执行SQL提交任务到指定队列时报错
- 执行load data inpath命令报错
- 执行load data local inpath命令报错
- 执行create external table命令报错
- 在beeline客户端执行dfs -put命令报错
- 执行set role admin命令报无权限
- 在beeline客户端创建UDF时报错
- Hive服务状态为故障如何处理
- Hive服务健康状态和Hive实例健康状态的区别
- Shell客户端连接提示“authentication failed”
- 客户端提示访问ZooKeeper失败
- 使用UDF函数时提示“Invalid function”
- Hive服务状态为Unknown
- HiveServer或者MetaStore实例的健康状态为unknown
- HiveServer或者MetaStore实例的健康状态为Concerning
- TEXTFILE类型文件使用ARC4压缩时查询结果乱码
- Hive任务运行过程中失败,重试成功
- 执行select语句时报错“Execution Error return code 2”
- 有大量分区时执行drop partition操作失败
- 执行join操作时localtask启动失败
- 修改hostname后导致WebHCat启动失败
- 集群修改域名后Hive样例程序运行报错
- DBService超过最大连接数后导致Hive MetaStore异常
- beeline客户端报错“Failed to execute session hooks: over max connections”
- beeline客户端报错“OutOfMemoryError”
- 输入文件数超出设置限制导致任务执行失败
- Hive任务执行中报栈内存溢出导致任务执行失败
- 对同一张表或分区并发写数据导致任务失败
- Hive任务失败,报没有HDFS目录的权限
- Load数据到Hive表失败
- 参考Hive JDBC代码用例开发的业务应用运行失败
- HiveServer和HiveHCat进程故障
- MRS Hive连接ZooKeeper时报错“ConnectionLoss for hiveserver2”
- Hive执行insert into语句报错
- 增加Hive表字段超时
- 重启Hive服务失败
- Hive分区数过多导致删除表失败
- Hive执行msck repair table命令时报错
- Hive执行insert into命令报用户权限不足
- 在Hive中drop表后如何完全释放磁盘空间
- JSON表中有破损数据导致Hive查询异常
- Hive客户端执行SQL报错连接超时
- WebHCat健康状态异常导致启动失败
- mapred-default.xml文件解析异常导致WebHCat启动失败
- Hive元数据使用RDS时创建视图表中文乱码
- MetaStore动态分区数超出阈值导致SQL报错
- 使用Hue
- 使用Impala
-
使用Kafka
- 运行Kafka客户端获取Topic时报错
- 安全集群中使用Python3.x对接Kafka
- Flume正常连接Kafka后发送消息失败
- Producer发送数据失败,报错“NullPointerException”
- Producer发送数据失败,报错“TOPIC_AUTHORIZATION_FAILED”
- Producer偶现发送数据失败,日志提示“Too many open files in system”
- Consumer初始化成功但是无法从Kafka中获取指定Topic消息
- Consumer消费数据失败,Consumer一直处于等待状态
- SparkStreaming消费Kafka消息失败,提示“Error getting partition metadata”
- 新建集群Consumer消费数据失败,提示“GROUP_COORDINATOR_NOT_AVAILABLE”
- SparkStreaming消费Kafka消息失败,提示“Couldn't find leader offsets”
- Consumer消费数据失败,提示“SchemaException: Error reading field”
- Kafka Consumer消费数据丢失
- 账号锁定导致启动Kafka组件失败
- Kafka Broker上报进程异常,日志提示“IllegalArgumentException”
- 执行Kafka Topic删除操作时发现无法删除
- 执行Kafka Topic删除操作时提示“AdminOperationException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoAuthException”
- 执行Kafka Topic设置ACL操作失败,提示“NoAuthException”
- 执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids”
- 执行Kakfa Topic创建操作时发现无法创建提示“replication factor larger than available brokers”
- Consumer消费数据时存在重复消费现象
- 执行Kafka Topic创建操作时发现Partition的Leader显示为none
- Kafka安全使用说明
- 如何获取Kafka Consumer Offset信息
- 如何针对Topic进行配置增加和删除
- 如何读取“__consumer_offsets”内部topic的内容
- 如何配置Kafka客户端shell命令日志
- 如何获取Topic的分布信息
- Kafka高可靠使用说明
- 使用Kafka Shell命令无法操作Kafka集群
- Kafka生产者写入单条记录过长问题
- Kakfa消费者读取单条记录过长问题
- Kafka集群节点内多磁盘数据量占用高
- Kafka连接ZooKeeper客户端时发生断链
- 使用Oozie
- 使用Presto
-
使用Spark
- 运行Spark应用时修改split值报错
- 提交Spark任务时提示参数格式错误
- 磁盘容量不足导致Spark、Hive和Yarn服务不可用
- 引入jar包不正确导致Spark任务无法运行
- Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住
- 提交Spark任务时报错“ClassNotFoundException”
- 提交Spark任务时Driver端提示运行内存超限
- Yarn-cluster模式下提交Spark任务报“Can't get the Kerberos realm”异常
- JDK版本不匹配导致启动spark-sql和spark-shell失败
- Yarn-client模式提交Spark任务时ApplicationMaster尝试启动两次失败
- 提交Spark任务时连接ResourceManager异常
- DataArts Studio调度Spark作业失败
- 通过API提交Spark作业后作业状态为error
- MRS集群反复上报43006告警
- 在spark-beeline中创建或删除表失败
- 集群外节点提交Spark作业时报错无法连接Driver
- 运行Spark任务发现大量shuffle结果丢失
- JDBCServer长时间运行导致磁盘空间不足
- spark-shell执行SQL跨文件系统load数据到Hive表失败
- Spark任务提交失败
- Spark任务运行失败
- JDBCServer连接失败
- 查看Spark任务日志失败
- Spark Streaming任务提交问题
- Spark连接其他服务认证问题
- Spark连接Kafka认证错误
- SparkSQL读取ORC表报错
- Spark WebUI页面上stderr和stdout无法跳转到日志页面
- spark-beeline查询Hive视图报错
- Spark Streaming任务失败但是Yarn WebUI中显示状态为成功
- 使用Sqoop
-
使用Storm
- Storm WebUI页面中events超链接地址无效
- 提交Storm拓扑失败排查思路
- 提交Storm拓扑失败,提示Failed to check principle for keytab
- 提交Storm拓扑后Worker日志为空
- 提交Storm拓扑后Worker运行异常,日志提示Failed to bind to XXX
- 使用jstack命令查看进程堆栈提示“well-known file is not secure”
- 使用Storm-JDBC插件开发Oracle写入Bolt时发现数据无法写入
- Storm业务拓扑配置GC参数不生效
- Storm UI查看信息时显示Internal Server Error
- 使用Ranger
-
使用Yarn
- 集群启动Yarn后产生大量作业占用资源
- 通过客户端hadoop jar命令提交任务后返回“GC overhead”报错
- Yarn汇聚日志过大导致节点磁盘被占满
- MapReduce任务异常,临时文件未删除
- Yarn客户端的端口信息错误导致提交任务后报错connection refused
- 通过Yarn WebUI查看作业日志时提示“Could not access logs page!”
- 通过Yarn WebUI查看队列信息时提示“ERROR 500”错误
- 通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误
- 使用Yarn客户端命令查询历史作业报错
- TimelineServer目录文件数量到达上限
- 使用ZooKeeper
- 存算分离类
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
Flink常用配置参数
配置文件说明
Flink所有的配置参数都可以在客户端侧进行配置,建议用户直接修改客户端的“flink-conf.yaml”配置文件进行配置,如果通过Manager界面修改Flink服务参数,配置完成之后需要重新下载安装客户端:
- 配置文件路径:客户端安装路径/Flink/flink/conf/flink-conf.yaml。
- 文件的配置格式为key: value。
例:taskmanager.heap.size: 1024mb
注意配置项key:与value之间需有空格分隔。
配置参数类别介绍
本章节介绍如下参数配置:
- JobManager & TaskManager:
JobManager和TaskManager是Flink的主要组件,针对各种安全场景和性能场景,配置项包括通信端口,内存管理,连接重试等。
- Blob服务端:
JobManager节点上的Blob服务端是用于接收用户在客户端上传的Jar包,或将Jar包发送给TaskManager,传输log文件等,配置项包括端口,SSL,重试次数,并发等。
- Distributed Coordination (via Akka):
Flink客户端与JobManager的通信,JobManager与TaskManager的通信和TaskManager与TaskManager的通信都基于Akka actor模型。相关参数可以根据网络环境或调优策略进行配置,配置项包括消息发送和等待的超时设置,akka监测机制Deathwatch等。
- SSL:
当需要配置安全Flink集群时,需要配置SSL相关配置项,配置项包括SSL开关,证书,密码,加密算法等。
- Network communication (via Netty):
Flink运行Job时,Task之间的数据传输和反压检测都依赖Netty,某些环境下可能需要对Netty参数进行配置。对于高级调优,可调整部分Netty配置项,默认配置已可满足大规模集群并发高吞吐量的任务。
- JobManager Web Frontend:
JobManager启动时,会在同一进程内启动Web服务器,访问Web服务器可以获取当前Flink集群的信息,包括JobManager,TaskManager及集群内运行的Job。Web服务器参数的配置项包括端口,临时目录,显示项目,错误重定向,安全相关等。
- File Systems:
Task运行中会创建结果文件,支持对文件创建行为进行配置,配置项包括文件覆盖策略,目录创建等。
- State Backend:
Flink提供了HA和作业的异常恢复,并且提供版本升级时作业的暂停恢复。对于作业状态的存储,Flink依赖于state backend,作业的重启依赖于重启策略,用户可以对这两部分进行配置。配置项包括state backend类型,存储路径,重启策略等。
- Kerberos-based Security:
Flink安全模式下必须配置Kerberos相关配置项,配置项包括kerberos的keytab、principal等。
- HA:
Flink的HA模式依赖于ZooKeeper,所以必须配置ZooKeeper相关配置,配置项包括ZooKeeper地址,路径,安全认证等。
- Environment:
对于JVM配置有特定要求的场景,可以通过配置项传递JVM参数到客户端,JobMananger,TaskManager等。
- Yarn:
Flink运行在Yarn集群上时,JobManager运行在Application Master上。JobManager的一些配置参数依赖于Yarn,通过配置YARN相关的配置,使Flink更好的运行在Yarn上,配置项包括yarn container的内存,虚拟内核,端口等。
- Pipeline:
为适应某些场景对降低时延的需求,设计多个Job间采用Netty直接相连的方式传递数据,即分别使用NettySink用于Server端、NettySource用于Client端进行数据传输。配置项包括NettySink的信息存放路径、NettySink的端口监测范围、连接是否通过SSL加密以及NettySink监测所使用的网络所在域等。
- 配置客户端提交作业开启告警功能:
通过Flink客户端提交的作业默认未开启告警功能,如果要开启告警功能,需要在提交作业的节点安装两个FlinkServer实例,并在客户端的“flink-conf.yaml”文件中配置相关参数。
JobManager & TaskManager
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
taskmanager.rpc.port |
TaskManager的IPC端口范围。 |
32326-32390 |
否 |
taskmanager.memory.segment-size |
内存管理器和网络堆栈使用的内存缓冲区大小。单位:bytes。 |
32768 |
否 |
taskmanager.data.port |
TaskManager数据交换端口范围。 |
32391-32455 |
否 |
taskmanager.data.ssl.enabled |
TaskManager之间数据传输是否使用SSL加密,仅在全局开关security.ssl开启时有效。 |
false |
否 |
taskmanager.numberOfTaskSlots |
TaskManager占用的slot数,一般配置成物理机的核数,yarn-session模式下只能使用-s参数传递,yarn-cluster模式下只能使用-ys参数传递。 |
1 |
否 |
parallelism.default |
默认并行度,用于未指定并行度的作业。 |
1 |
否 |
task.cancellation.interval |
两次连续任务取消操作的间隔时间。单位:ms。 |
30000 |
否 |
client.rpc.port |
Flink client端Akka system监测端口。 |
32651-32720 |
否 |
jobmanager.heap.size |
JobManager堆内存大小,yarn-session模式下只能使用-jm参数传递,yarn-cluster模式下只能使用-yjm参数传递,如果小于YARN配置文件中yarn.scheduler.minimum-allocation-mb大小,则使用YARN配置中的值。单位:B/KB/MB/GB/TB。 |
1024mb |
否 |
taskmanager.heap.size |
TaskManager堆内存大小,yarn-session模式下只能使用-tm参数传递,yarn-cluster模式下只能使用-ytm参数传递,如果小于YARN配置文件中yarn.scheduler.minimum-allocation-mb大小,则使用YARN配置中的值。单位:B/KB/MB/GB/TB。 |
1024mb |
否 |
taskmanager.network.numberOfBuffers |
TaskManager网络传输缓冲栈数量,如果作业运行中出错提示系统中可用缓冲不足,可以增加这个配置项的值。 |
2048 |
否 |
taskmanager.debug.memory.startLogThread |
调试Flink内存和GC相关问题时可开启,TaskManager会定时采集内存和GC的统计信息,包括当前堆内,堆外,内存池的使用率和GC时间。 |
false |
否 |
taskmanager.debug.memory.logIntervalMs |
TaskManager定时采集内存和GC的统计信息的采集间隔。 |
0 |
否 |
taskmanager.maxRegistrationDuration |
TaskManager向JobManager注册自己的最长时间,如果超过时间,TaskManager会关闭。 |
5 min |
否 |
taskmanager.initial-registration-pause |
两次连续注册的初始间隔时间。该值需带一个时间单位(ms/s/min/h/d)(比如5秒)。 时间数值和单位之间有半角字符空格。ms/s/m/h/d表示毫秒、秒、分钟、小时、天。 |
500 ms |
否 |
taskmanager.max-registration-pause |
TaskManager注册失败最大重试间隔。单位:ms/s/m/h/d。 |
30 s |
否 |
taskmanager.refused-registration-pause |
TaskManager注册连接被JobManager拒绝后的重试间隔。单位:ms/s/m/h/d。 |
10 s |
否 |
classloader.resolve-order |
从用户代码加载类时定义类解析策略,这意味着是首先检查用户代码jar(“child-first”)还是应用程序类路径(“parent-first”)。默认设置指示首先从用户代码jar加载类,这意味着用户代码jar可以包含和加载不同于Flink使用的(依赖)依赖项。 |
child-first |
否 |
slot.idle.timeout |
Slot Pool中空闲Slot的超时时间(以ms为单位)。 |
50000 |
否 |
slot.request.timeout |
从Slot Pool请求Slot的超时(以ms为单位)。 |
300000 |
否 |
task.cancellation.timeout |
取消任务超时时间(以ms为单位),超时后会触发TaskManager致命错误。设置为0,取消任务卡住则不会报错。 |
180000 |
否 |
taskmanager.network.detailed-metrics |
启用网络队列长度的详细指标监控。 |
false |
否 |
taskmanager.network.memory.buffers-per-channel |
每个传出/传入通道(子分区/输入通道)使用的最大网络缓冲区数。在基于信用的流量控制模式下,这表示每个输入通道中有多少信用。它应配置至少2以获得良好的性能。1个缓冲区用于接收子分区中的飞行中数据,1个缓冲区用于并行序列化。 |
2 |
否 |
taskmanager.network.memory.floating-buffers-per-gate |
每个输出/输入门(结果分区/输入门)使用的额外网络缓冲区数。在基于信用的流量控制模式中,这表示在所有输入通道之间共享多少浮动信用。浮动缓冲区基于积压(子分区中的实时输出缓冲区)反馈来分布,并且可以帮助减轻由子分区之间的不平衡数据分布引起的背压。如果节点之间的往返时间较长和/或群集中的机器数量较多,则应增加此值。 |
8 |
否 |
taskmanager.network.memory.fraction |
用于网络缓冲区的JVM内存的占比。这决定了TaskManager可以同时拥有多少流数据交换通道以及通道缓冲的程度。如果作业被拒绝或者收到系统没有足够缓冲区的警告,请增加此值或“taskmanager.network.memory.min”和“taskmanager.network.memory.max”。另请注意,“taskmanager.network.memory.min”和“taskmanager.network.memory.max”可能会覆盖此占比。 |
0.1 |
否 |
taskmanager.network.memory.max |
网络缓冲区的最大内存大小。该值需带一个大小单位(B/KB/MB/GB/TB)。 |
1 GB |
否 |
taskmanager.network.memory.min |
网络缓冲区的最小内存大小。该值需带一个大小单位(B/KB/MB/GB/TB)。 |
64 MB |
否 |
taskmanager.network.request-backoff.initial |
输入通道的分区请求的最小退避。 |
100 |
否 |
taskmanager.network.request-backoff.max |
输入通道的分区请求的最大退避。 |
10000 |
否 |
taskmanager.registration.timeout |
TaskManager注册的超时时间,在该时间内未成功注册,TaskManager将终止。该值需带一个时间单位(ms/s/min/h/d)。 |
5 min |
否 |
resourcemanager.taskmanager-timeout |
释放空闲TaskManager的超时(以ms为单位)。 |
30000 |
否 |
Blob服务端
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
blob.server.port |
blob服务器端口。 |
32456-32520 |
否 |
blob.service.ssl.enabled |
blob传输通道是否加密传输,仅在全局开关security.ssl开启时有。 |
true |
是 |
blob.fetch.retries |
TaskManager从JobManager下载blob文件的重试次数。 |
50 |
否 |
blob.fetch.num-concurrent |
JobManager支持的下载blob的并发数。 |
50 |
否 |
blob.fetch.backlog |
JobManager支持的blob下载队列大小,比如下载Jar包等。单位:个。 |
1000 |
否 |
library-cache-manager.cleanup.interval |
当用户取消flink job后,jobmanager删除HDFS上存放用户jar包的时间,单位为s。 |
3600 |
否 |
Distributed Coordination (via Akka)
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
akka.ask.timeout |
akka所有异步请求和阻塞请求的超时时间。如果Flink发生超时失败,可以增大这个值。当机器处理速度慢或者网络阻塞时会发生超时。单位:ms/s/m/h/d。 |
10s |
否 |
akka.lookup.timeout |
查找JobManager actor对象的超时时间。单位:ms/s/m/h/d。 |
10s |
否 |
akka.framesize |
JobManager和TaskManager间最大消息传输大小。当Flink出现消息大小超过限制的错误时,可以增大这个值。单位:b/B/KB/MB。 |
10485760b |
否 |
akka.watch.heartbeat.interval |
Akka DeathWatch机制检测失联TaskManager的心跳间隔。如果TaskManager经常发生由于心跳消息丢失或延误而被错误标记为失联的情况,可以增大这个值。单位:ms/s/m/h/d。 |
10s |
否 |
akka.watch.heartbeat.pause |
Akka DeathWatch可接受的心跳暂停时间,较小的数值表示不允许不规律的心跳。单位:ms/s/m/h/d。 |
60s |
否 |
akka.watch.threshold |
DeathWath失败检测阈值,较小的数值容易把正常TaskManager标记为失败,较大的值增加了失败检测的时间。 |
12 |
否 |
akka.tcp.timeout |
发送连接TCP超时时间,如果经常发生满网络环境下连接TaskManager超时,可以增大这个值。单位:ms/s/m/h/d。 |
20s |
否 |
akka.throughput |
Akka批量处理消息的数量,一次操作完后把处理线程归还线程池。较小的数值代表actor消息处理的公平调度,较大的值以牺牲调度公平的代价提高整体性能。 |
15 |
否 |
akka.log.lifecycle.events |
Akka远程时间日志开关,当需要调试时可打开此开关。 |
false |
否 |
akka.startup-timeout |
远程组件启动失败前的超时时间。该值需带一个时间单位(ms/s/min/h/d) |
与akka.ask.timeout的值一致 |
否 |
akka.ssl.enabled |
Akka通信SSL开关,仅在全局开关security.ssl开启时有。 |
true |
是 |
akka.client-socket-worker-pool.pool-size-factor |
计算线程池大小的因子,计算公式:ceil(可用处理器*因子),计算结果限制在pool-size-min和pool-size-max之间。 |
1.0 |
否 |
akka.client-socket-worker-pool.pool-size-max |
基于因子计算的线程数上限。 |
2 |
否 |
akka.client-socket-worker-pool.pool-size-min |
基于因子计算的线程数下限。 |
1 |
否 |
akka.client.timeout |
【说明】客户端超时时间。该值需带一个时间单位(ms/s/min/h/d)。 |
60s |
否 |
akka.server-socket-worker-pool.pool-size-factor |
【说明】计算线程池大小的因子,计算公式:ceil(可用处理器*因子),计算结果限制在pool-size-min和pool-size-max之间。 |
1.0 |
否 |
akka.server-socket-worker-pool.pool-size-max |
基于因子计算的线程数上限。 |
2 |
否 |
akka.server-socket-worker-pool.pool-size-min |
基于因子计算的线程数下限。 |
1 |
否 |
SSL
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
security.ssl.protocol |
SSL传输的协议版本。 |
TLSv1.2 |
是 |
security.ssl.algorithms |
支持的SSL标准算法,具体可参考java官网:http://docs.oracle.com/javase/8/docs/technotes/guides/security/StandardNames.html#ciphersuites。 |
TLS_DHE_RSA_WITH_AES_128_GCM_SHA256,TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256,TLS_DHE_RSA_WITH_AES_256_GCM_SHA384,TLS_ECDHE_RSA_WITH_AES_256_GCM_SHA384 |
是 |
security.ssl.enabled |
内部通信SSL总开关,按照集群的安装模式自动配置。 |
|
是 |
security.ssl.keystore |
Java keystore文件。 |
- |
是 |
security.ssl.keystore-password |
keystore文件解密密码。 |
- |
是 |
security.ssl.key-password |
keystore文件中服务端key的解密密码。 |
- |
是 |
security.ssl.truststore |
truststore文件包含公共CA证书。 |
- |
是 |
security.ssl.truststore-password |
truststore文件解密密码。 |
- |
是 |
Network communication (via Netty)
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
taskmanager.network.netty.num-arenas |
Netty内存块数。 |
1 |
否 |
taskmanager.network.netty.server.numThreads |
Netty服务器线程的数量。 |
1 |
否 |
taskmanager.network.netty.client.numThreads |
Netty客户端线程数。 |
1 |
否 |
taskmanager.network.netty.client.connectTimeoutSec |
Netty客户端连接超时。单位:s。 |
120 |
否 |
taskmanager.network.netty.sendReceiveBufferSize |
Netty发送和接收缓冲区大小。 默认为系统缓冲区大小(cat / proc / sys / net / ipv4 / tcp_ [rw] mem),在现代Linux中为4MB。单位:bytes。 |
4096 |
否 |
taskmanager.network.netty.transport |
Netty传输类型,“nio”或“epoll”。 |
nio |
否 |
JobManager Web Frontend
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
jobmanager.web.allow-access-address |
web访问白名单,ip以逗号隔开。只有在白名单中的ip才能访问web。 |
* |
是 |
flink.security.enable |
用户安装Flink集群时,需要选择“安全模式”或“普通模式”。
对于已经安装好的Flink集群,用户可以通过查看配置的值来区分当前安装的是安全模式还是普通模式。 |
自动配置 |
否 |
rest.bind-port |
web端口,支持范围:32261-32325。 |
32261-32325 |
否 |
jobmanager.web.history |
显示“flink.security.enable”最近的job数目。 |
5 |
否 |
jobmanager.web.checkpoints.disable |
禁用checkpoint统计。 |
false |
否 |
jobmanager.web.checkpoints.history |
Checkpoint统计记录数。 |
10 |
否 |
jobmanager.web.backpressure.cleanup-interval |
未访问反压记录清理周期。单位:ms。 |
600000 |
否 |
jobmanager.web.backpressure.refresh-interval |
反压记录刷新周期。单位:ms。 |
60000 |
否 |
jobmanager.web.backpressure.num-samples |
计算反压使用的堆栈跟踪记录数。 |
100 |
否 |
jobmanager.web.backpressure.delay-between-samples |
计算反压的采样间隔。单位:ms |
50 |
否 |
jobmanager.web.ssl.enabled |
web是否使用SSL加密传输,仅在全局开关security.ssl开启时有。 |
false |
是 |
jobmanager.web.accesslog.enable |
web操作日志使能开关,日志会存放在webaccess.log中。 |
true |
是 |
jobmanager.web.x-frame-options |
http安全头X-Frame-Options的值,可选范围为:SAMEORIGIN、DENY、ALLOW-FROM uri。 |
DENY |
是 |
jobmanager.web.cache-directive |
web页面是否支持缓存。 |
no-store |
是 |
jobmanager.web.expires-time |
web页面缓存过期时长。单位:ms。 |
0 |
是 |
jobmanager.web.access-control-allow-origin |
网页同源策略,防止跨域攻击。 |
* |
是 |
jobmanager.web.refresh-interval |
web网页刷新时间。单位:ms。 |
3000 |
是 |
jobmanager.web.logout-timer |
配置无操作情况下自动登出时间间隔。单位:ms。 |
600000 |
是 |
jobmanager.web.403-redirect-url |
web403页面,访问如果遇到403错误,则会重定向到配置的页面。 |
自动配置 |
是 |
jobmanager.web.404-redirect-url |
web404页面,访问如果遇到404错误,则会重定向到配置的页面。 |
自动配置 |
是 |
jobmanager.web.415-redirect-url |
web415页面,访问如果遇到415错误,则会重定向到配置的页面。 |
自动配置 |
是 |
jobmanager.web.500-redirect-url |
web500页面,访问如果遇到500错误,则会重定向到配置的页面。 |
自动配置 |
是 |
rest.await-leader-timeout |
客户端等待Leader地址的时间(以ms为单位)。 |
30000 |
否 |
rest.client.max-content-length |
客户端处理的最大内容长度(以字节为单位)。 |
104857600 |
否 |
rest.connection-timeout |
客户端建立TCP连接的最长时间(以ms为单位)。 |
15000 |
否 |
rest.idleness-timeout |
连接保持空闲状态的最长时间(以ms为单位)。 |
300000 |
否 |
rest.retry.delay |
客户端在连续重试之间等待的时间(以ms为单位)。 |
3000 |
否 |
rest.retry.max-attempts |
如果可重试算子操作失败,客户端将尝试重试的次数。 |
20 |
否 |
rest.server.max-content-length |
服务端处理的最大内容长度(以字节为单位)。 |
104857600 |
否 |
rest.server.numThreads |
异步处理请求的最大线程数。 |
4 |
否 |
web.timeout |
web监控超时时间(以ms为单位)。 |
10000 |
否 |
File Systems
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
fs.overwrite-files |
文件输出写操作是否默认覆盖已有文件。 |
false |
否 |
fs.output.always-create-directory |
当文件写入程序的并行度大于1时,输出文件的路径下会创建一个目录,并将不同的结果文件(每个并行写程序任务)放入该目录。
|
false |
否 |
State Backend
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
state.backend.fs.checkpointdir |
当backend为filesystem时的路径,路径必须能够被JobManager访问到,本地路径只支持local模式,集群模式下请使用HDFS路径。 |
hdfs:///flink/checkpoints |
否 |
state.savepoints.dir |
Flink用于恢复和更新作业的保存点存储目录。当触发保存点的时候,保存点元数据信息将会保存到该目录中。 |
hdfs:///flink/savepoint |
安全模式下必配 |
restart-strategy |
默认重启策略,用于未指定重启策略的作业:
|
none |
否 |
restart-strategy.fixed-delay.attempts |
fixed-delay策略重试次数。 |
|
否 |
restart-strategy.fixed-delay.delay |
fixed-delay策略重试间隔时间。单位:ms/s/m/h/d。 |
|
否 |
restart-strategy.failure-rate.max-failures-per-interval |
故障率策略下作业失败前给定时间段内的最大重启次数。 |
1 |
否 |
restart-strategy.failure-rate.failure-rate-interval |
failure-rate策略重试时间。单位:ms/s/m/h/d。 |
60 s |
否 |
restart-strategy.failure-rate.delay |
failure-rate策略重试间隔时间。单位:ms/s/m/h/d。 |
默认值和akka.ask.timeout配置值一样。可参考Distributed Coordination (via Akka)。 |
否 |
Kerberos-based Security
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
security.kerberos.login.keytab |
该参数为客户端参数,keytab路径。 |
根据实际业务配置 |
是 |
security.kerberos.login.principal |
该参数为客户端参数,如果keytab和principal都设置,默认会使用keytab认证。 |
根据实际业务配置 |
否 |
security.kerberos.login.contexts |
该参数为服务器端参数,flink生成jass文件的contexts。 |
Client、KafkaClient |
是 |
HA
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
high-availability |
HA模式,是启用HA还是非HA模式。当前支持两种模式:
|
zookeeper |
否 |
high-availability.zookeeper.quorum |
ZooKeeper quorum地址。 |
自动配置 |
否 |
high-availability.zookeeper.path.root |
Flink在ZooKeeper上创建的根目录,存放HA模式必须的元数据。 |
/flink |
否 |
high-availability.storageDir |
存放state backend中JobManager元数据,ZooKeeper只保存实际数据的指针。 |
hdfs:///flink/recovery |
否 |
high-availability.zookeeper.client.session-timeout |
ZooKeeper客户端会话超时时间。单位:ms。 |
60000 |
否 |
high-availability.zookeeper.client.connection-timeout |
ZooKeeper客户端连接超时时间。单位:ms。 |
15000 |
否 |
high-availability.zookeeper.client.retry-wait |
ZooKeeper客户端重试等待时间。单位:ms。 |
5000 |
否 |
high-availability.zookeeper.client.max-retry-attempts |
ZooKeeper客户端最大重试次数。 |
3 |
否 |
high-availability.job.delay |
当jobManager恢复后重启job的延迟时间。 |
默认值和akka.ask.timeout配置值保持一致 |
否 |
high-availability.zookeeper.client.acl |
设置ZooKeeper节点的ACL (open creator),按照集群的安全模式自动配置。 |
|
是 |
zookeeper.sasl.disable |
基于SASL认证的使能开关,按照集群的安全模式自动配置:。 |
|
是 |
zookeeper.sasl.service-name |
|
zookeeper |
是 |
Environment
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
env.java.opts |
JVM参数,会传递到启动脚本,JobManager,TaskManager,Yarn客户端。比如传递远程调试的参数等。 |
-Xloggc:<LOG_DIR>/gc.log -XX:+PrintGCDetails -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=20 -XX:GCLogFileSize=20M -Djdk.tls.ephemeralDHKeySize=2048 -Djava.library.path=${HADOOP_COMMON_HOME}/lib/native -Djava.net.preferIPv4Stack=true -Djava.net.preferIPv6Addresses=false -Dbeetle.application.home.path=/opt/xxx/Bigdata/common/runtime/security/config |
否 |
Yarn
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
yarn.maximum-failed-containers |
当TaskManager所属容器出错后,重新申请container次数。默认值为Flink集群启动时TaskManager的数量。 |
5 |
否 |
yarn.application-attempts |
Application master重启次数,次数是计算在一个validity interval的最大次数,validity interval在flink中设置为akka的timeout。重启后AM的地址和端口会变化,client需要手动连接。 |
2 |
否 |
yarn.heartbeat-delay |
Application Master和YARN Resource Manager心跳的时间间隔。单位:seconds |
5 |
否 |
yarn.containers.vcores |
每个Yarn容器的虚拟核数。 |
TaskManager的slot数 |
否 |
yarn.application-master.port |
Application Master端口号设置,支持端口范围。 |
32586-32650 |
否 |
Pipeline
参数 |
描述 |
默认值 |
是否必选 |
---|---|---|---|
nettyconnector.registerserver.topic.storage |
设置NettySink的IP、端口及并发度信息在第三方注册服务器上的路径。建议用户使用ZooKeeper进行存储。 |
/flink/nettyconnector |
否,当使用pipeline特性为必选 |
nettyconnector.sinkserver.port.range |
设置NettySink的端口范围。 |
28444-28843 |
否,当使用pipeline特性为必选 |
nettyconnector.ssl.enabled |
设置NettySink与NettySource之间通信是否配置SSL加密。其中加密密钥以及加密协议等请参见SSL。 |
false |
否,当使用pipeline特性为必选 |
nettyconnector.message.delimiter |
用来配置nettysink发送给nettysource消息的分隔符,长度为2-4个字节,不可包含“\n”, “ ”, “#” 。 |
默认使用“$_” |
否,当使用pipeline特性为必选 |