更新时间:2026-06-29 GMT+08:00
分享

查看仿真强化学习作业详情

在“仿真强化学习”页面,找到目标作业,单击作业名称,进入仿真强化学习详情界面,可以查看该作业的概览(基础信息等)、训练指标、监控、日志、事件。

概览

图1 概览示例
表1 概览信息

参数

说明

训练产物

训练后模型名称

本次强化学习作业产生的模型名称。

单击模型名称,可以查看该模型的详细信息,在该模型的“模型文件”处,可以查看本次强化学习的训练产物。

运行时长

本次强化学习作业的运行时间。

作业创建时间

本次强化学习作业的创建时间。

基础信息

名称

本次强化学习作业名称。

ID

本次强化学习作业ID。

单击,即可复制该ID。

强化方式

本次强化学习作业的强化方式,仅支持仿真强化。

描述

本次强化学习作业的描述,通过此描述可以清晰了解作业目的、场景等信息。

单击,即可编辑该描述。

作业配置

来源模型

本次强化学习作业的来源模型,支持“预置模型”和“空间资产-模型”。

单击模型名称,可以查看该模型的详细信息。

任务集

本次强化学习作业的任务集,支持LIBERO任务集。

参数配置

强化策略

本次强化学习作业的参数配置选择“快速配置”,会显示此强化策略。

参数信息

  • 本次强化学习作业的参数配置选择“快速配置”,会显示关键参数。
  • 本次强化学习作业的参数配置选择“YAML配置”,会显示配置的YAML参数。

资源配置

资源池

本次强化学习作业的资源池类型,支持“公共资源池”和“专属资源池”。

实例规格

本次强化学习作业的运行实例规格。

实例数

本次强化学习作业的运行实例数。

训练指标

在“训练指标”页签,展示本次作业的训练指标文件。

图2 训练指标文件示例

如果要查看当前训练指标的曲线图,请单击“下载”,下载文件至本地,导入tensorboard工具后查看。

监控

在“监控”页签提供强化学习作业的资源使用情况监控,可以查看当前作业整体或单个节点占用的CPU、NPU等资源使用情况。

按照手动刷新、每10S刷新、每30S刷新、每60S刷新来刷新监控页面图表数据,还可以自定义时间段查看监控数据。

  • 作业监控,监控当前强化学习作业整体的资源使用情况。
  • 任务监控,监控当前强化学习作业具体节点的资源使用情况。
图3 监控示例
表2 监控项信息

监控项

说明

CPU使用率

用于统计测量对象的CPU使用率(%)。

CPU使用量

用于统计测量对象已经使用的CPU核个数(Core)。

内存使用率

用于统计测量对象已使用内存占申请物理内存总量的百分比(%)。

内存使用量

用于统计测量对象实际已经使用的物理内存(MB)。

NPU使用率

昇腾系列AI处理器AI Core利用率(%)。

NPU显存使用率

用于统计测量对象已使用的NPU显存占NPU存储容量的百分比(%)。

NPU显存使用量

用于统计测量对象已使用的NPU显存(MB)。

网络IO上行速率

网络接收数据速率,该指标用于统计测试对象的入方向网络流速(Bytes/s)。

网络IO下行速率

网络发送数据速率,该指标用于统计测试对象的出方向网络流速(Bytes/s)。

磁盘读取速率

用于统计每秒从磁盘读出的数据量(KB/s)。

磁盘写入速率

用于统计每秒写入磁盘的数据量(KB/s)。

日志

日志记录了强化学习作业的运行过程和异常信息,帮助用户快速定位作业运行中出现的问题。

  • 用户日志,当前强化学习作业的标准输出日志。
  • 系统日志,CloudRobo云端平台产生的系统日志,主要用于定位平台问题。
  • 全量日志,由用户日志与系统日志组成。

在页面可以查看日志内容,还可以下载日志文件至本地查看。

图4 日志示例

事件

在仿真强化学习作业的整个生命周期中,从用户可见的开始阶段起,系统后台会记录每一个关键事件点,用户可以随时在对应作业的详情页面查看这些记录。这样,用户能够清晰地了解作业的进展和状态,确保信息的透明度和可追溯性。

事件保留周期为30天,30天后自动清理数据。

查看当前强化学习作业的所有事件信息,并可以按照事件等级、事件信息筛选事件。

图5 事件示例

相关文档