开源ai训练平台_工作说明书-华为云

工作说明书

按照服务合同中约定的范围，各服务子项按如下标准提交交付件：服务子服务交付件 AI平台咨询与规划服务 AI平台架构规划服务《AI平台的规划设计可行性分析报告》 AI平台场景化建模方案规划服务《场景化建模可行性分析报告》父主题： AI平台咨询与规划服务

来自：帮助中心

查看更多 →
场景介绍

Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

来自：帮助中心

查看更多 →
LLM大语言模型训练推理

PyTorch NPU训练指导（6.3.911）主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911）主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）主流开源大模型基于Server适配PyTorch

来自：帮助中心

查看更多 →
昇腾云服务6.3.906版本说明

5b qwen2-7b qwen2-72b glm4-9b LLM开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） LLM开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）支持如下模型适配PyTorch-NPU的推理。

来自：帮助中心

查看更多 →
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911）

主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
昇腾云服务6.3.911版本说明

2-3b LLM开源大模型基于DevServer适配ModelLinkPyTorch NPU训练指导 LLM开源大模型基于DevServer适配LLamaFactory PyTorch NPU训练指导 LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导 LL

来自：帮助中心

查看更多 →
准备代码

Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat 模型软件包结构说明 AscendCloud-3rdLLM代码包结构介绍如下： |──llm_train #

来自：帮助中心

查看更多 →
AI Gallery功能介绍

AI Gallery功能介绍面向开发者提供了AI Gallery大模型开源社区，通过大模型为用户提供服务，普及大模型行业。AI Gallery提供了大量基于昇腾云底座适配的三方开源大模型，同步提供了可以快速体验模型的能力、极致的开发体验，助力开发者快速了解并学习大模型。构建零

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、断点续训及性能查看。

来自：帮助中心

查看更多 →
开源Kafka输出流

开源Kafka输出流功能描述 DLI 将Flink作业的输出数据输出到Kafka中。 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统，具有高吞吐量、内置分区、支持数据副本和容错的特性，适合在大规模消息处理场景中使用。前提条件 Kafka服务

来自：帮助中心

查看更多 →
开源许可证

开源许可证操作场景用户可以查看开源许可证的信息和自定义开源许可证的风险等级。前提条件已获取管理控制台的登录账号与密码。操作步骤登录开源治理服务控制台。在左侧导航栏，单击“开源许可证”。在“开源许可证”页面，可看到许可证列表，内容包含许可证名称、集成风险、许可证描述和风险分析以及重置操作。

来自：帮助中心

查看更多 →
HDFS开源增强特性

Join性能。图2 无同分布与同分布数据块分布对比 HDFS开源增强特性：硬盘坏卷设置在开源版本中，如果为DataNode配置多个数据存放卷，默认情况下其中一个卷损坏，则DataNode将不再提供服务。配置项“dfs.datanode.failed.volumes.tolerated”可以

来自：帮助中心

查看更多 →
Spark开源增强特性

Spark开源增强特性跨源复杂数据的SQL查询优化出于管理和信息收集的需要，企业内部会存储海量数据，包括数目众多的各种数据库、数据仓库等，此时会面临以下困境：数据源种类繁多，数据集结构化混合，相关数据存放分散等，这就导致了跨源复杂查询因传输效率低，耗时长。当前开源Spark

来自：帮助中心

查看更多 →
Storm开源增强特性

一时刻的计算结果。使用CQL，可以快速进行业务开发，并方便地将业务提交到Storm平台开启实时数据的接收、处理及结果输出；并可以在合适的时候中止业务。高可用性 Nimbus HA机制，避免了开源Storm集群中Nimbus出现单点故障而导致集群无法提供Topology的新增及管理操作的问题，增强了集群可用性。

来自：帮助中心

查看更多 →
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

来自：帮助中心

查看更多 →
查看日志和性能

查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要

来自：帮助中心

查看更多 →
使用预置镜像制作自定义镜像用于训练模型

在ModelArts上创建训练作业。登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。单击“创建训练作业”，进入创建训练作业页面，填写作业信息，创建方式参考表1，其他参数填写请参考创建训练作业。表1 创建训练作业的创建方式参数名称

来自：帮助中心

查看更多 →
AI平台咨询与规划服务可以提供哪些服务？

AI平台咨询与规划服务可以提供哪些服务？ AI平台架构规划服务。 AI平台场景化建模方案规划服务。父主题：关于服务咨询

来自：帮助中心

查看更多 →
查看日志和性能

查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要

来自：帮助中心

查看更多 →
查看日志和性能

查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要

来自：帮助中心

查看更多 →