开源ai训练平台_主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）-华为云

主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）

主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）

主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
AI Gallery功能介绍

AI Gallery功能介绍面向开发者提供了AI Gallery大模型开源社区，通过大模型为用户提供服务，普及大模型行业。AI Gallery提供了大量基于昇腾云底座适配的三方开源大模型，同步提供了可以快速体验模型的能力、极致的开发体验，助力开发者快速了解并学习大模型。构建零

来自：帮助中心

查看更多 →
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）

主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）

主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
查看日志和性能

查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要

来自：帮助中心

查看更多 →
训练

训练上传数据至OBS并预热到SFS Turbo中创建训练任务父主题：实施步骤

来自：帮助中心

查看更多 →
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

来自：帮助中心

查看更多 →
AI原生应用引擎训练好后的模型如何获取？

AI原生应用引擎训练好后的模型如何获取？使用模型微调训练好模型后的新模型只能通过模型部署（创建模型服务）上线，无法下载至本地使用。父主题： AI原生应用引擎

来自：帮助中心

查看更多 →
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU）

0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调

来自：帮助中心

查看更多 →
使用预置镜像制作自定义镜像用于训练模型

在ModelArts上创建训练作业。登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。单击“创建训练作业”，进入创建训练作业页面，填写作业信息，创建方式参考表1，其他参数填写请参考创建训练作业。表1 创建训练作业的创建方式参数名称

来自：帮助中心

查看更多 →
Flume开源增强特性

Flume开源增强特性 Flume开源增强特性提升传输速度。可以配置将指定的行数作为一个Event，而不仅是一行，提高了代码的执行效率以及减少写入磁盘的次数。传输超大二进制文件。Flume根据当前内存情况，自动调整传输超大二进制文件的内存占用情况，不会导致Out of Memory（OOM）的出现。

来自：帮助中心

查看更多 →
ZooKeeper开源增强特性

ZooKeeper开源增强特性日志增强安全模式下，Ephemeral node（临时节点）在session过期之后就会被系统删除，在审计日志中添加Ephemeral node被删除的审计日志，以便了解当时Ephemeral node的状态信息。所有ZooKeeper客户端的

来自：帮助中心

查看更多 →
Eagle投机小模型训练

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

来自：帮助中心

查看更多 →
Eagle投机小模型训练

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

来自：帮助中心

查看更多 →
Eagle投机小模型训练

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调

来自：帮助中心

查看更多 →
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow，训练使用的资源是GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

来自：帮助中心

查看更多 →
主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）

主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）

主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）场景介绍准备工作预训练任务 SFT全参微调训练任务 LoRA微调训练查看日志和性能训练脚本说明父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →