使用k8s训练ai模型_文生视频模型训练推理-华为云

文生视频模型训练推理

文生视频模型训练推理 CogVideoX1.5 5b模型基于DevServer适配PyTorch NPU全量训练指导（6.3.912） CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） Open-Sora1.2基于DevServer适配PyTorch

来自：帮助中心

查看更多 →
文生图模型训练推理

5基于DevServer适配PyTorch NPU Finetune训练指导（6.3.904） Open-Clip基于DevServer适配PyTorch NPU训练指导 AIGC工具tailor使用指导

来自：帮助中心

查看更多 →
数字人模型训练推理

数字人模型训练推理 Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907）

来自：帮助中心

查看更多 →
使用模型

使用模型用训练好的模型预测测试集中的某个图片属于什么类别，先显示这个图片，命令如下。 1 2 3 # display a test image plt.figure() plt.imshow(test_images[9]) 图1 显示用以测试的图片查看预测结果，命令如下。 1

来自：帮助中心

查看更多 →
场景介绍

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：主流开源大模型基于Lite

来自：帮助中心

查看更多 →
场景介绍

Lite k8s Cluster运行的，需要购买并开通k8s Cluster资源。准备代码准备AscendFactory训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。

来自：帮助中心

查看更多 →
准备环境

FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图5 SFS类型和容量选择

来自：帮助中心

查看更多 →
场景介绍

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：主流开源大模型基于Lite

来自：帮助中心

查看更多 →
使用AI原生应用引擎完成模型调优

数据集是模型微调的基础，首先需要创建用于模型训练的数据集。创建模型微调流水线通过模型微调任务进行模型训练，微调任务结束后，将生成改进后的新模型。部署模型模型部署是通过为基座模型（即原模型）和微调后的新模型创建用于预测的模型服务的过程实现。测试模型调优效果在线测试微调后的模型（输入问题发起请求

来自：帮助中心

查看更多 →
准备环境

FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图5 SFS类型和容量选择

来自：帮助中心

查看更多 →
准备环境

FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图5 SFS类型和容量选择

来自：帮助中心

查看更多 →
准备环境

FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图5 SFS类型和容量选择

来自：帮助中心

查看更多 →
Lite Cluster&Server介绍

Lite基于软硬件深度结合、垂直优化，构建开放兼容、极致性价比、长稳可靠、超大规模的云原生AI算力集群，提供一站式开通、网络互联、高性能存储、集群管理等能力，满足AI高性能计算等场景需求。目前其已在大模型训练推理、自动驾驶、AIGC、内容审核等领域广泛得到应用。 ModelArts Lite又分以下2种形态：

来自：帮助中心

查看更多 →
k8spspallowprivilegeescalationcontainer

constraints.gatekeeper.sh/v1beta1 kind: K8sPSPAllowPrivilegeEscalationContainer metadata: name: psp-allow-privilege-escalation-container spec:

来自：帮助中心

查看更多 →
使用Kubeflow和Volcano实现典型AI训练任务

PU Share等特性的支持，进一步提升kubeflow批量训练和推理的效率。实现典型分布式AI训练任务下面将展示如何基于Kubeflow和Volcano，并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。登录CCE控制台，单击集群名称进入一个集群。在CCE集群上部署Volcano环境。

来自：帮助中心

查看更多 →
创建模型训练工程

创建模型训练工程创建工程编辑训练代码（简易编辑器）编辑训练代码（WebIDE）模型训练 MindSpore样例父主题：模型训练

来自：帮助中心

查看更多 →
Eagle投机小模型训练

为每个模型提供针对性的投机模型： Eagle的模型大小及结构，与基模型的某一层完全相同，这使得它的大小远远小于其基模型。解决了对于部分原始LLM模型，找不到合适的投机模型的问题。投机小模型训练端到端示例本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数

来自：帮助中心

查看更多 →
eagle投机小模型训练

eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据进行训练eagle小模型，并使用自行训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的

来自：帮助中心

查看更多 →
如何访问模型训练服务

用户也可以直接通过账号登录。首次登录后请及时修改密码，并定期修改密码。单击“登录”，进入NAIE服务官网。依次选择“AI服务 > AI服务 > 模型训练服务 > 模型训练服务”，进入模型训练服务介绍页面。单击“进入服务”，进入模型训练服务页面。父主题：产品介绍

来自：帮助中心

查看更多 →
模型训练服务首页简介

模型训练服务首页简介模型训练服务首页展示了用户自己创建的项目和用户所属租户下面其他用户创建的公开项目，提供如下功能：创建项目使用模板快速创建项目，模板中已经预制数据集、特征处理算法、模型训练算法和模型验证算法。查看和编辑项目信息模型训练服务首页界面如下图所示。图1 模型训练服务首页

来自：帮助中心

查看更多 →
如何提升模型训练效果？

在模型构建过程中，您可能需要根据训练结果，不停的调整数据、训练参数或模型，以获得一个满意的模型。更新模型时，可以通过如下几方面提升模型训练效果：检查是否存在训练数据过少的情况，建议每个标签的样本数不少于100个，如果低于这个量级建议扩充。检查不同标签的样本数是否均衡，建议不同标签的样本数量级相同，并尽量接近，如果有的类别数据量很高，有的类

来自：帮助中心

查看更多 →