CES中KooSearch集群支持的监控指标
云监控服务CES支持实时监控云搜索服务集群的核心指标,方便用户掌握集群的指标信息,以便及时处理集群的异常状况。
功能说明
本文定义了KooSearch服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义。用户可以通过云监控服务管理控制台或API接口来检索KooSearch服务产生的监控指标和告警信息。

云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“cluster_id,instance_id”时,表示对应的监控指标的维度存在层级关系,且“cluster_id”为0层,“instance_id”为1层。
命名空间
SYS.ES
集群监控指标列表

累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
task_cnt | 文档解析任务提交数量 | 文档解析任务提交数量 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
task_success_cnt | 文档解析任务执行成功数量 | 文档解析任务执行成功数量 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
task_fail_cnt | 文档解析任务执行失败数量 | 文档解析任务执行失败数量 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
task_pending_cnt | 文档解析任务排队数量 | 异步文档解析任务排队数量 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
task_max_delay | 文档解析任务最大耗时 | 文档解析任务最大耗时(每分钟上报一次) | ≥ 0 | s | 1 | koosearch_cluster_id | 1分钟 |
task_avg_delay | 文档解析任务平均耗时 | 文档解析任务平均耗时(每分钟上报一次) | ≥ 0 | s | 1 | koosearch_cluster_id | 1分钟 |
knowledge_repo_cnt | 知识库总数 | 集群的知识库总数 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
file_cnt | 文件总数 | 集群的文件总数 | ≥ 0 | count | 1 | koosearch_cluster_id | 1分钟 |
es_index_capacity | 集群所有知识库索引容量 | 集群所有知识库索引容量 | ≥ 0 | Byte | 1024 | koosearch_cluster_id | 1分钟 |
节点监控指标列表
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
ocr_request_delay | 调用ocr智能文档解析时延 | 每次调用ocr智能文档解析接口的时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_cnt | 调用ocr智能文档解析次数 | 调用ocr智能文档解析接口的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_succ_rate | 调用ocr智能文档解析成功率 | 调用ocr智能文档解析接口的成功率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_code_1xx | 调用ocr智能文档解析1xx状态码次数 | 每次调用ocr智能文档解析接口的状态码1xx的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_code_2xx | 调用ocr智能文档解析2xx状态码次数 | 每次调用ocr智能文档解析接口的状态码2xx的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_code_3xx | 调用ocr智能文档解析3xx状态码次数 | 每次调用ocr智能文档解析接口的状态码3xx的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_code_4xx | 调用ocr智能文档解析4xx状态码次数 | 每次调用ocr智能文档解析接口的状态码4xx的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
ocr_request_code_5xx | 调用ocr智能文档解析5xx状态码次数 | 每次调用ocr智能文档解析接口的状态码5xx的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_request_cnt | 问答次数 | 调用问答接口的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
search_request_cnt | 搜索次数 | 单独调用搜索接口的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_plan_avg_cost | 问答-搜索规划平均时延 | 问答过程中,搜索规划的平均时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_avg_cost | 问答-搜索平均时延 | 问答过程中,搜索的平均时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_first_letter_avg_cost | 问答-首Token平均时延 | 问答过程中,首Token的平均时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_avg_cost | 问答调用平均总时延 | 问答过程的平均总时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
search_avg_cost | 搜索调用平均总时延 | 单独调用搜索接口的平均总时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_plan_max_cost | 问答-搜索规划最大时延 | 问答过程中,搜索规划的最大时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_max_cost | 问答-搜索最大时延 | 问答过程中,搜索的最大时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_first_letter_max_cost | 问答-首Token最大时延 | 问答过程中,首Token的最大时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_max_cost | 问答调用最大总时延 | 问答过程的最大总时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
search_max_cost | 搜索调用最大总时延 | 单独调用搜索接口的最大总时延 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_plan_fail_cnt | 问答-调用搜索规划失败次数 | 问答过程中,调用搜索规划失败的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_search_fail_cnt | 问答-调用搜索失败次数 | 问答过程中,调用搜索失败的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_llm_fail_cnt | 问答-调用大模型失败次数 | 问答过程中,调用大模型失败的次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_token_cnt | 问答-Token数量 | 问答过程中,生成的token数量 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
search_success_rate | 搜索成功率 | 单独调用搜索接口的成功率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
answer_success_rate | 问答成功率 | 调用问答接口的成功率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
cpu_usage_percentage | CPU利用率 | 节点CPU利用率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
disk_usage_percentage | 磁盘利用率 | 节点磁盘利用率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
jvm_heap_usage_percentage | JVM堆使用率 | 节点JVM堆内存使用率 | 0~100 | % | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
jvm_old_generation_cnt | JVM老年代总GC次数 | “老年代”垃圾回收的运行次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
jvm_old_generation_time | JVM老年代总GC时间 | 执行“老年代”垃圾回收所花费的时间 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
jvm_young_generation_cnt | JVM年轻代总GC次数 | “年轻代”垃圾回收的运行次数 | ≥ 0 | count | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
jvm_young_generation_time | JVM年轻代总GC时间 | 执行“年轻代”垃圾回收所花费的时间 | ≥ 0 | ms | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
memory_available_space | 可用内存空间 | 节点未使用的内存容量 | ≥ 0 | GiB | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
memory_usage_percentage | 已用内存比例 | 节点已使用的内存比例 | ≥ 0 | GiB | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
memory_usage_space | 已用内存空间 | 节点已使用的内存容量 | ≥ 0 | GiB | 1 | koosearch_cluster_id,koosearch_instance_id | 1分钟 |
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询KooSearch集群节点的CPU利用率(cpu_usage),该指标的维度信息为“koosearch_cluster_id,koosearch_instance_id”,表示koosearch_cluster_id为0层,koosearch_instance_id为1层。
- 通过API查询单个监控指标时,instance_id的维度信息代入样例如下:
dim.0=koosearch_cluster_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=koosearch_instance_id,6666cd76f96956469e7be39d750cc7d9
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为cluster_id和instance_id的维度值,具体获取方法请参见维度。
- 通过API批量查询监控指标时,koosearch_instance_id的维度信息代入样例如下:
"dimensions": [ { "name": "koosearch_cluster_id", "value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2" }, { "name": "koosearch_instance_id", "value": "6666cd76f96956469e7be39d750cc7d9" } ]其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为koosearch_cluster_id和koosearch_instance_id的维度值,具体获取方法请参见维度。

