CES中KooSearch集群支持的监控指标
云监控服务CES支持实时监控云搜索服务集群的核心指标,方便用户掌握集群的指标信息,以便及时处理集群的异常状况。
功能说明
本文定义了KooSearch服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义。用户可以通过云监控服务管理控制台或API接口来检索KooSearch服务产生的监控指标和告警信息。
云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“cluster_id,instance_id”时,表示对应的监控指标的维度存在层级关系,且“cluster_id”为0层,“instance_id”为1层。
命名空间
SYS.ES
集群监控指标列表
累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。
|
指标ID |
指标名称 |
指标含义 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
task_cnt |
文档解析任务提交数量 |
文档解析任务提交数量 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
task_success_cnt |
文档解析任务执行成功数量 |
文档解析任务执行成功数量 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
task_fail_cnt |
文档解析任务执行失败数量 |
文档解析任务执行失败数量 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
task_pending_cnt |
文档解析任务排队数量 |
异步文档解析任务排队数量 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
task_max_delay |
文档解析任务最大耗时 |
文档解析任务最大耗时(每分钟上报一次) |
≥ 0 |
s |
1 |
koosearch_cluster_id |
1分钟 |
|
task_avg_delay |
文档解析任务平均耗时 |
文档解析任务平均耗时(每分钟上报一次) |
≥ 0 |
s |
1 |
koosearch_cluster_id |
1分钟 |
|
knowledge_repo_cnt |
知识库总数 |
集群的知识库总数 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
file_cnt |
文件总数 |
集群的文件总数 |
≥ 0 |
count |
1 |
koosearch_cluster_id |
1分钟 |
|
es_index_capacity |
集群所有知识库索引容量 |
集群所有知识库索引容量 |
≥ 0 |
Byte |
1024 |
koosearch_cluster_id |
1分钟 |
节点监控指标列表
|
指标ID |
指标名称 |
指标含义 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
ocr_request_delay |
调用ocr智能文档解析时延 |
每次调用ocr智能文档解析接口的时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_cnt |
调用ocr智能文档解析次数 |
调用ocr智能文档解析接口的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_succ_rate |
调用ocr智能文档解析成功率 |
调用ocr智能文档解析接口的成功率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_code_1xx |
调用ocr智能文档解析1xx状态码次数 |
每次调用ocr智能文档解析接口的状态码1xx的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_code_2xx |
调用ocr智能文档解析2xx状态码次数 |
每次调用ocr智能文档解析接口的状态码2xx的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_code_3xx |
调用ocr智能文档解析3xx状态码次数 |
每次调用ocr智能文档解析接口的状态码3xx的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_code_4xx |
调用ocr智能文档解析4xx状态码次数 |
每次调用ocr智能文档解析接口的状态码4xx的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
ocr_request_code_5xx |
调用ocr智能文档解析5xx状态码次数 |
每次调用ocr智能文档解析接口的状态码5xx的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_request_cnt |
问答次数 |
调用问答接口的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
search_request_cnt |
搜索次数 |
单独调用搜索接口的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_plan_avg_cost |
问答-搜索规划平均时延 |
问答过程中,搜索规划的平均时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_avg_cost |
问答-搜索平均时延 |
问答过程中,搜索的平均时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_first_letter_avg_cost |
问答-首Token平均时延 |
问答过程中,首Token的平均时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_avg_cost |
问答调用平均总时延 |
问答过程的平均总时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
search_avg_cost |
搜索调用平均总时延 |
单独调用搜索接口的平均总时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_plan_max_cost |
问答-搜索规划最大时延 |
问答过程中,搜索规划的最大时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_max_cost |
问答-搜索最大时延 |
问答过程中,搜索的最大时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_first_letter_max_cost |
问答-首Token最大时延 |
问答过程中,首Token的最大时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_max_cost |
问答调用最大总时延 |
问答过程的最大总时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
search_max_cost |
搜索调用最大总时延 |
单独调用搜索接口的最大总时延 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_plan_fail_cnt |
问答-调用搜索规划失败次数 |
问答过程中,调用搜索规划失败的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_search_fail_cnt |
问答-调用搜索失败次数 |
问答过程中,调用搜索失败的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_llm_fail_cnt |
问答-调用大模型失败次数 |
问答过程中,调用大模型失败的次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_token_cnt |
问答-Token数量 |
问答过程中,生成的token数量 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
search_success_rate |
搜索成功率 |
单独调用搜索接口的成功率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
answer_success_rate |
问答成功率 |
调用问答接口的成功率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
cpu_usage_percentage |
CPU利用率 |
节点CPU利用率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
disk_usage_percentage |
磁盘利用率 |
节点磁盘利用率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
jvm_heap_usage_percentage |
JVM堆使用率 |
节点JVM堆内存使用率 |
0~100 |
% |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
jvm_old_generation_cnt |
JVM老年代总GC次数 |
“老年代”垃圾回收的运行次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
jvm_old_generation_time |
JVM老年代总GC时间 |
执行“老年代”垃圾回收所花费的时间 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
jvm_young_generation_cnt |
JVM年轻代总GC次数 |
“年轻代”垃圾回收的运行次数 |
≥ 0 |
count |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
jvm_young_generation_time |
JVM年轻代总GC时间 |
执行“年轻代”垃圾回收所花费的时间 |
≥ 0 |
ms |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
memory_available_space |
可用内存空间 |
节点未使用的内存容量 |
≥ 0 |
GiB |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
memory_usage_percentage |
已用内存比例 |
节点已使用的内存比例 |
≥ 0 |
GiB |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
|
memory_usage_space |
已用内存空间 |
节点已使用的内存容量 |
≥ 0 |
GiB |
1 |
koosearch_cluster_id,koosearch_instance_id |
1分钟 |
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询KooSearch集群节点的CPU利用率(cpu_usage),该指标的维度信息为“koosearch_cluster_id,koosearch_instance_id”,表示koosearch_cluster_id为0层,koosearch_instance_id为1层。
- 通过API查询单个监控指标时,instance_id的维度信息代入样例如下:
dim.0=koosearch_cluster_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=koosearch_instance_id,6666cd76f96956469e7be39d750cc7d9
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为cluster_id和instance_id的维度值,具体获取方法请参见维度。
- 通过API批量查询监控指标时,koosearch_instance_id的维度信息代入样例如下:
"dimensions": [ { "name": "koosearch_cluster_id", "value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2" }, { "name": "koosearch_instance_id", "value": "6666cd76f96956469e7be39d750cc7d9" } ]其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为koosearch_cluster_id和koosearch_instance_id的维度值,具体获取方法请参见维度。