更新时间:2024-10-30 GMT+08:00
分享

编译任务

训练产生的模型版本,不可直接被车载芯片识别,需要经过编译工具,将训练产生的模型编译成车载芯片识别的模型。

创建编译任务

  1. 在左侧菜单栏中单击“训练服务 > 编译管理”。
  2. 选择“编译任务”页签,单击“新建编译任务”,填写基本信息。

    图1 新建编译任务
    • 名称:任务组名称,只能包含数字、英文、中文、下划线、中划线,不得超过32个字符。
    • 描述:简要描述任务信息。不得包含“@^\#$%&*<>'|"/”,不得超过256个字符。
    • 资源规格:当前项目中可用的资源规格,资源规格需要平台管理员在纳管模型编译用途的任务作业集群后创建。
    • 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。

  3. 选择镜像。

    图2 选择镜像
    • 编译镜像:需提前在"编译镜像"中创建成功,编译镜像创建请参考创建编译镜像
    • 环境变量:由编译镜像携带,参数名不支持修改,参数值支持修改。
    • Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。
    • Value: 只能由英文、数字和特殊符号(\/,.[]-_)组成 。长度不超过512个字符。

  4. 选择待编译模型版本。

    图3 选择待编译模型版本

    模型可以为训练任务产生的模型版本或者通过本地模型文件上传产生的模型版本。

  5. 以上信息填写无误,单击"创建"。编译任务创建成功。

编译任务相关操作

在“编译任务”列表,可对任务进行以下操作。

表1 编译任务相关操作

任务

操作步骤

查找任务

在搜索输入框中输入搜索条件,按回车键即可查询。

查看任务详情

单击任务名称,可在任务详情页查看该任务详情、参数详情、编译版本、任务日志和资源在占用情况。

  • 任务详情:任务ID、名称、描述、状态、资源类型等信息。
  • 参数详情:训练算法参数以及环境参数信息。
  • 编译版本:同一个源模型使用不同芯片编译,生成的结果为该模型的不同版本。
  • 任务日志:任务运行过程中生成的日志信息,详情请查看编译任务日志查看下载
  • 资源占用情况:显示任务占用的CPU、内存、GPU及显存占用率百分比的折线图,详情请查看资源占用情况

删除任务

  • 单击操作栏的“删除”,删除单个任务。
  • 勾选多个任务,单击列表上方的“删除”,可批量删除任务。

重建任务

单击操作栏内的“重建”,输入新任务名称(以“任务组名-自定义名称”的形式)和是否删除原任务选项,同时可重新选择需要修改的参数。

停止任务

单击该条任务后的“停止”,对停止编译任务。

编译任务相关操作与任务所处状态约束关系请见下表:

表2 操作与状态约束关系

作业状态

重建

删除

停止

排队中

-

提交中

-

-

-

提交失败

-

运行中

-

-

运行异常

-

已完成

-

停止中

-

-

-

停止失败

-

-

已停止

-

删除中

-

-

-

删除失败

-

-

编译任务日志查看下载

编译任务运行过程中生成日志,编译任务模块提供了日志的查看以及下载功能,支持用户查看编译任务的运行情况。编译任务生成的日志文件有以下四种:

  • compile-{id}.log:用户实际训练任务的训练日志。
  • compile-{id}-init.log:Octopus平台提供的前置数据的准备日志。
  • compile-{id}-sidecar.log:Octopus平台提供的任务流程控制日志,包括日志同步、结果上传。
  • octopus-compile-{id}-supplemental.logs: Octopus平台任务异常退出或停止产生的错误信息输出日志,运行正常时不产生该日志。

在该编译任务的详情页面,单击“任务日志”,可查看该编译任务日志详情。支持下载至本地。如果日志较多,用户可在搜索框中输入关键字,查找指定日志内容。

如图,在日志服务页面中的日志列表部分详细展示了该编译任务包含的日志文件的大小以及最新写入时间。单击文件后的“查看”,该文件的详细执行过程则在日志详情部分展示。用户也可在日志文件后的“操作”栏中,单击“下载”,即可将该日志文件下载到本地查看。

图4 任务日志

资源占用情况

在任务运行中,资源占用情况模块显示任务占用的CPU、内存百分比的折线图。默认显示CPU占用情况折线图。

图5 资源占用情况
  • 双击任一图例:显示全部资源占用折线图。
  • 单击指定图例:只显示该图例折线图。

此模块也可显示多个计算节点运行任务时,资源占用的情况。

  • 如果选择2个计算节点运行任务,则可选择查看单个节点资源占用情况。
资源占用情况功能模块,需要用户在制作自定义镜像时安装psutil与pynvml,参考命令如下:
pip install psutil pynvml

如果未安装psutil与pynvml,则页面无法显示资源使用状况。

相关文档