更新时间:2025-02-20 GMT+08:00
分享

开发环境

开发环境依托于已购买的集群算力,支持客户在浏览器窗口或线下IDE中进行交互式的算法或模型的开发和调试。

创建开发环境时可以通过挂载的方式,便捷的访问平台的对象,如算法、模型和数据集。同时支持访问同区域自己的对象存储或外网资源,进行测试数据的导入、开源代码的拉取、三方依赖的安装等操作。极大的提升了算法调试的效率,并保证了和训练任务所使用的的环境和算力的一致性。

创建开发环境前提条件

  • 已购买“AI处理节点”,且在“运维配置 > 集群纳管”中已存在类型为“ModelArts”且状态为“可用”的集群。
  • 已创建类型为“训练/评测”用途的镜像,详情可参考制作开发环境镜像

创建开发环境

  1. 在左侧菜单栏中选择“训练服务 > 开发环境”。
  2. 单击“新建开发环境”,填写基本信息。

    表1 新建开发环境

    参数

    示例

    说明

    名称

    devenv-kkgi9

    开发环境名称,包含中英文、数字、“_”“-”,不得超过32个字符。默认自动填充devenv-加五位随机字串。

    描述

    -

    简要描述环境,不包含“@^\#$%&*<>'|"/”,不得超过256个字符。

    镜像

    -

    开发环境启动所使用的容器镜像。可选择各个用途的镜像,包含过去基于开发环境保存的镜像。

    请勿对开发环境所使用的镜像进行二次推送,可能会导致开发环境创建或启动时在队列中无法被调度。

    资源挂载

    -

    可选择平台上现有的模型、训练算法和数据集,开发环境启动时以挂载的方式加载到容器中。最多可选择5条。

    • 模型:可选择用途为训练的非空模型仓库。
    • 训练算法:可选创建成功的算法。
    • 数据集:可选择有创建成功版本且非空的数据集。

    缓存挂载

    -

    可选择平台上现有的数据缓存,开发环境启动时以挂载的方式加载到容器中。最多可选择5条。

    资源规格

    -

    选择类型为ModelArts的资源池及其可用规格。

    SSH远程接入

    -

    选择是否开启开发环境的SSH远程接入功能。默认关闭。开启后无法关闭,请谨慎开启。

    优先级

    0

    设置任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。

    是否自动停止

    -

    设置运行中的开发环境的自动停止的倒计时,可取1~72小时。避免资源浪费。如果不设置,任务将一直运行。

  3. 单击“确认”。

管理创建的开发环境

在“开发环境”列表,每条记录包含名称、状态、镜像、资源规格、描述、创建者、创建时间等信息。并可进行以下操作:

表2 开发环境相关操作

任务

操作步骤

搜索开发环境

在搜索输入框中输入一个或多个条件,按回车键即可查询。目前可基于名称和状态进行搜索和筛选。

查看开发环境详情

单击任务名称,进入开发环境详情页,具体见开发环境详情页介绍

自动停止设置

“运行中”的开发环境支持单击状态旁的秒表符号编辑自动停止设置。

打开开发环境

“运行中”的开发环境支持单击“操作”列的“打开”在浏览器中开启Jupyter Notebook页面。

下载私钥

“运行中”且开启了“SSH远程接入”的开发环境可以下载用于SSH连接用的私钥。

须知:

SSH私钥仅可下载一次,请妥善保存。

若私钥丢失,则无法通过SSH连接,但仍可以通过“打开”功能在浏览器中继续使用当前开发环境。

VS Code接入

下载SSH私钥后,单击“VS Code接入”按钮,可跳转到本地VS Code的ModelArts-HuaweiCloud插件,选中下载的私钥完成接入。

须知:

VS Code扩展插件ModelArts-HuaweiCloud首次使用需要等待其自动完成安装,安装成功后会自动建立SSH连接,并在远端完成VS Code Server端的安装。ModelArts-HuaweiCloud插件的具体使用方式请见VS Code插件商店ModelArts-HuaweiCloud介绍。

保存镜像

支持将“运行中”的开发环境保存为快照镜像并归档到八爪鱼镜像仓库中,选择“更多 > 保存镜像”,指定镜像的归档仓库,单击“确认”。保存成功后当前环境正在使用的镜像会切换为刚保存的镜像版本。

  • 保存的镜像中不包含/home/ma-user/work/、/cache和/resource-mounts/等挂载到容器中的目录内容。
  • 建议保存镜像前停止活跃进程和I/O操作。避免因资源占用和冲突等原因导致保存镜像失败。
  • 建议要保存的镜像大小不要超过35GB,最大不能超过50GB,避免因容器引擎的限制导致保存失败。
  • 镜像保存一般需要3-10分钟,届时实例状态处于“快照中”,保存成功后,实例状态会重新回到“运行中”。

编辑开发环境

“排队中”或“已停止”的开发环境支持修改描述、镜像、资源挂载、缓存挂载和资源规格。

停止开发环境

“排队中”、“运行中”、“错误”的开发环境,用户可以单击操作栏的“停止”终止环境。

启动开发环境

“已停止”的开发环境,用户可以单击操作栏的“启动”重新把开发环境加入任务队列。

删除开发环境

选择操作栏的“更多 > 删除”,删除开发环境。

开发环境允许的操作与所处状态约束关系请见下表:

表3 开发环境相关操作与所处状态约束

状态

状态描述

是否占用GPU资源

打开

VS CODE接入

下载私钥

启动

停止

编辑

删除

排队中

开发环境已创建成功,进入任务队列等待系统调度。

-

-

-

-

-

创建中

开发环境已提交到平台,正在创建实例。

-

-

-

-

-

-

-

创建失败

开发环境创建失败。

-

-

-

-

-

-

-

运行中

开发环境创建成功,处于运行中。

-

-

快照中

开发环境正在保存镜像,仍处于运行中。

-

-

-

-

-

-

-

错误

开发环境状态异常。

-

-

-

-

-

启动中

开发环境正在从停止状态中启动。

-

-

-

-

-

-

-

启动失败

开发环境启动失败。

-

-

-

-

-

-

-

停止中

开发环境正在停止中。

-

-

-

-

-

-

-

已停止

开发环境已停止。

-

-

-

-

-

开发环境详情页介绍

在开发环境详情页,提供管理当前开发环境的操作和展示详情信息、拓展资源和事件信息。

  • 管理开发环境:支持打开、VS CODE接入、停止/启动、下载私钥、编辑和删除操作。
  • 开发环境详情:展示开发环境ID、名称、描述、状态、资源池、资源规格、创建者、镜像、创建时间、更新时间、SSH访问地址、SSH远程接入等信息。
  • 拓展资源:展示当前环境中关联的资源挂载和缓存挂载。
    • 展示拓展资源类型、名称、版本、挂载位置(所选资源所对应的OBS存储或SFS存储在开发环境容器中的实际挂载路径)信息。
    • 支持单击资源名称跳转到对应的资源详情。
    • 支持编辑、添加、删除处于“排队中”或“已停止”状态的开发环境的资源挂载和缓存挂载。
  • 事件:展示开发环境生命周期中发生的事件,包含名称、事件级别、事件详情和发生时间,并支持按照级别和时间进行筛选和过滤。
  • 快照镜像:展示开发环境历史保存过的快照镜像,包含名称、镜像版本、用途、状态、描述、创建时间等信息。
    • 单击镜像名称可跳转至对应的镜像仓库。
    • 单击“删除”可删除该快照记录并同步删除对应的镜像。当快照镜像被当前开发环境所使用时,将无法删除。
    • 当开发环境处于排队中或已停止时,可以单击快照记录后的“切换”按钮切换环境的镜像到历史的某个快照镜像。

相关文档