在专属资源池添加模型预热
场景描述
在专属资源池部署模型服务时,用户常面临服务初始化耗时过长的挑战。当首次部署或服务重启时,系统需从对象存储加载权重文件至本地环境,该过程可能因网络带宽限制或文件体积过大导致显著延迟。如何有效缩短这一初始化阶段的等待时间,成为提升用户体验的关键问题。
针对此场景,ModelArts专属资源池创新性地提供模型预热功能作为解决方案:用户可通过控制台配置预热任务,将权重文件预先缓存至内存加速目录,从而在模型部署时直接调用已加载的缓存数据。该机制有效规避了实时加载的网络瓶颈,使服务能够快速进入正常运行状态,实现部署效率与用户体验的双重优化。
前提条件
- 在添加模型预热任务前,需要用户有以下权限:
- modelarts:warmupTask:get
- modelarts:warmupTask:list
- modelarts:warmupTask:create
- modelarts:warmupTask:update
- modelarts:warmupTask:delete
- 并且为ModelArts委托授权OBS Administrator权限。
- 配置请参考快速配置ModelArts委托授权。
约束限制
- 当前仅部分站点(西南-贵阳一,华东二)支持此功能。
- 物理池有模型预热作业时不能创建资源队列。
- 物理池有资源队列时不能创建物理池模型预热作业,需要绑定节点后为资源队列创建模型预热作业。
- 模型预热任务占用资源池节点内存空间。在资源池同时使用训练作业及推理作业的场景下,为保障训练作业不受模型预热任务影响,建议通过创建资源队列隔离推理、训练场景并开启节点绑定,然后在推理作业资源队列中创建模型预热任务。
- 预热任务将文件预热到资源池实例内创建目录/tmp/warmup/权重预热ID,请不要登录实例进入此目录,此操作可能导致预热任务无法删除。 建议模型预热任务占用内存总量不超过资源池资源规格内存的50%
添加模型预热任务
- 在页面,单击资源池右侧的“
> 预热任务”,进入资源池“预热”页签。或单击资源池名称进入资源池详情页,切换到“预热”页签。 - 单击模型预热下的“添加预热任务”,进入添加模型预热任务界面,参见下表填写参数。
表1 模型预热任务的参数说明 参数名称
说明
名称
模型预热任务的名称。
名称支持小写字母、数字、中划线(-),首字符只能是小写字母,尾字符只能是小写字母或数字,输入长度范围为4到30个字符。
预热节点数
填写预热模型的节点数,可选范围为1到资源池可用节点数。
权重路径地址
选择需要预热的OBS模型目录路径,仅支持输入目录。
用户自己的OBS桶可以在界面选择,也可以手动输入路径,路径格式以“obs://”开头并以“/”结尾,例如“obs://bucketname/path/”
其他人的共享桶路径仅支持手动输入地址。
建议您尽量避免更新地址内的文件,若中途修改文件,可能导致所选预热文件与实际文件不一致,影响预热效果。
存储介质
当前仅支持“内存”。
文件占用空间(GB)
根据需要预热的OBS模型目录大小输入数值,最小为1GB。
建议输入数值大于模型目录大小,当输入数值小于模型目录大小时,模型预热任务可能无法完成。
通过“获取权重文件占用空间”工具,可根据资源池资源规格内存及模型实际目录大小获取权重文件空间占用预测值,一般情况下,该预测值略大于模型实际目录大小。
指定权重文件用户&用户组ID
默认不勾选,勾选后,需设置用户组ID和用户ID。预热的权重文件属性,将设置为指定的用户&用户组ID。
- 单击“确定”创建模型预热,模型预热状态为“预热中”。
当模型预热任务状态为“保温中”时,说明已在资源池指定数量的节点中完成OBS模型目录预热。当模型预热任务状态为“部分成功”时,说明已在资源池部分节点中完成OBS模型目录预热。
资源队列添加模型预热任务
若物理资源池需要同时运行训练作业和推理作业,建议为训练作业和推理作业分别建立资源队列(旧版:逻辑子池)。并在推理作业的资源队列中创建模型预热任务,以避免训练作业因模型预热任务过度占用内存导致运行失败。
开启节点绑定后,资源队列可以创建模型预热任务。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 专属资源池”)。
- 在页面,单击目标子池右侧的“预热任务”。或单击目标子池名称进入资源池详情页,切换到“预热”页签。
- 单击模型预热下的“添加预热任务”。参数填写请参考表1。
- 单击“确定”创建模型预热,模型预热状态为“预热中”。
当模型预热任务状态为“保温中”时,说明已在资源池指定数量的节点中完成OBS模型目录预热。当模型预热任务状态为“部分成功”时,说明已在资源池部分节点中完成OBS模型目录预热。
删除预热任务
删除正在使用的权重预热文件,会导致推理任务异常。请谨慎删除。
删除模型预热任务,在模型预热任务列表中,单击操作列的“删除”,经二次确认后即可删除该模型预热任务项。