管理Lite Cluster资源池
Lite Cluster资源池续费管理
针对包年包月的Lite Cluster资源池,支持续费功能,还可以开通自动续费、修改自动续费。
在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入Lite资源池列表页中操作,如下图所示。
查看Lite Cluster资源池基本信息
在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入Lite资源池列表页中,单击Lite Cluster资源池名称,可以进入到Lite Cluster资源池详情页中查看更多信息。
管理Lite Cluster资源池标签
通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。
- 在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。
- 在Lite资源池列表中,单击资源池名称进入资源池详情页面。
- 在资源池详情页面,单击“标签”页签查看标签信息。
支持添加、修改、删除标签。标签详细用法请参见ModelArts如何通过标签实现资源分组管理。
图3 标签
最多支持添加20个标签。
Lite Cluster资源池配置管理
在资源池详情页面,单击“配置管理”,在配置管理页面,可以修改设置监控的命名空间、修改集群配置,配置镜像预热信息。
- 单击监控的图标,可以开启或关闭监控信息,并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。
- 单击集群配置的图标,可以设置绑核、Dropcache、大页内存参数。缺省值表示读取资源池镜像中的默认值。
- 绑核:开启CPU绑核表示工作负载实例独占CPU,可以提升应用性能(比如训练作业、推理任务性能),减少应用的调度延迟,适用于对CPU缓存和调度延迟敏感的场景。关闭绑核表示关闭工作负载实例独占CPU的功能,优点是CPU共享池可分配的核数较多。也可关闭系统默认绑核后,在业务容器中用taskset等方式进行灵活绑核。
- Dropcache:开启后表示启用Linux的缓存清理功能,是一种应用性能调优手段,在大部分场景下可以提升应用性能。但是清除缓存也可能会导致容器启动失败或系统性能暂时下降(因为系统需要重新从磁盘加载数据到内存中)。关闭表示不启用缓存清理功能。
- 大页内存:开启表示配置使用透明大页功能。大页内存是一种内存管理机制,可以通过增大内存页的大小来提高系统性能。透明大页是动态分配大页内存的机制,可以简化大页内存的管理。开启大页内存也是一种应用调优手段,在大部分场景下可以提升应用性能,但是开启后也会引起soft lockup机制导致节点重启。关闭表示不使用大页内存功能。
- 单击镜像预热的图标,可以设置镜像来源、添加镜像密钥、添加镜像预热配置,具体操作请参见(可选)配置镜像预热。
更多相关操作
其它更多操作如下:
- 节点池管理操作请参见管理Lite Cluster节点池
- 节点管理操作请参见管理Lite Cluster节点
- 扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池
- 升级Lite Cluster资源池驱动操作请参见升级Lite Cluster资源池驱动
- 升级Lite Cluster资源池单个节点驱动操作请参见升级Lite Cluster资源池单个节点驱动