深度强化学习训练过程_场景介绍-华为云

场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。训练启动训练介绍各个训练阶段：指令微调、PPO强化训练、RM奖励模型、DPO偏好训练使用全参/lora训练策略进行训练任务、性能查看。

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。训练启动训练介绍各个训练阶段：指令微调、PPO强化训练、RM奖励模型、DPO偏好训练使用全参/lora训练策略进行训练任务、性能查看。

来自：帮助中心

查看更多 →
训练过程读取数据

训练过程读取数据在ModelArts上训练模型，输入输出数据如何配置？如何提升训练效率，同时减少与OBS的交互？大量数据文件，训练过程中读取数据效率低？使用Moxing时如何定义路径变量？父主题： Standard训练作业

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。训练启动训练介绍各个训练阶段：指令微调、PPO强化训练、RM奖励模型、DPO偏好训练使用全参/lora训练策略进行训练任务、性能查看。

来自：帮助中心

查看更多 →
超过最大递归深度导致训练作业失败

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法

来自：帮助中心

查看更多 →
各个模型深度学习训练加速框架的选择

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。De

来自：帮助中心

查看更多 →
漫游调优

基于大数据进行终端漫游行为画像训练，基于不同“终端款型+操作系统”实施差异性漫游引导策略（是否能引导，什么时候引导，引导到哪个AP），提升漫游成功率，降低漫游过程的丢包，时延，提升终端漫游体验。以终端类型识别为基础，采用强化学习算法进行在线终端画像实时训练，与设备侧、终端侧协同提升漫游体验。

来自：帮助中心

查看更多 →
如何对盘古大模型的安全性展开评估和防护

盘古大模型的安全性主要从以下方面考虑：数据安全和隐私保护：大模型涉及大量训练数据，这些数据是重要资产。为确保数据安全，需在数据和模型训练的全生命周期内，包括数据提取、加工、传输、训练、推理和删除的各个环节，提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中，通过数据脱敏、隐私计算等技术手段

来自：帮助中心

查看更多 →
深度诊断ECS

登录管理控制台，进入弹性云服务器列表页面。在待深度诊断的E CS 的“操作”列，单击“更多 > 运维与监控 > 深度诊断”。（可选）在“开通云运维中心并添加权限”页面，阅读服务声明并勾选后，单击“开通并授权”。若当前账号未开通并授权COC服务，则会显示该页面。在“深度诊断”页面，选择“深度诊断场景”为“全面诊断”。

来自：帮助中心

查看更多 →
大数据分析

均涌现出超高水平AI。人工智能应用在其中起到了不可替代的作用。游戏智能体通常采用深度强化学习方法，从0开始，通过与环境的交互和试错，学会观察世界、执行动作、合作与竞争策略。每个AI智能体是一个深度神经网络模型，主要包含如下步骤：通过GPU分析场景特征（自己，视野内队友，敌人，

来自：帮助中心

查看更多 →
场景介绍

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。微调训练指令监督微调训练介绍如何进行SFT全参微调/lora微调、训练任务、性能查看。父主题：

来自：帮助中心

查看更多 →
训练过程中无法找到so文件

编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：

来自：帮助中心

查看更多 →
执行训练任务

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

来自：帮助中心

查看更多 →
执行训练任务

yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type:

来自：帮助中心

查看更多 →
数据处理场景介绍

般是不能直接满足训练要求的。为了保障数据质量，以免对后续操作（如数据标注、模型训练等）带来负面影响，开发过程通常需要进行数据处理。常见的数据处理类型有以下四种：数据校验：通常数据采集后需要进行校验，保证数据合法。数据校验是指对数据可用性的基本判断和验证的过程。通常，用户采集

来自：帮助中心

查看更多 →
实现过程

实现过程涉及接口登录（login）请求方法：PUT 请求的url：https://ip:port/agentgateway/resource/onlineagent/{agentid} 请参考签入强制登录（forcelogin）请求方法：PUT 请求的url：https

来自：帮助中心

查看更多 →
附录：指令微调训练常见问题

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框

来自：帮助中心

查看更多 →
执行训练任务

DPO偏好训练，复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 PPO强化训练，先进行RM奖励训练任务后，复制ppo_yaml样例模板内容覆盖demo.yaml内容。 RM奖励训练，复制rm_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练、Re

来自：帮助中心

查看更多 →
AI开发基本概念

机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。回归

来自：帮助中心

查看更多 →
功能介绍

网络结构及模型参数配置2 模型训练模型训练多维度可视化监控，包括训练精度/损失函数曲线、GPU使用率、训练进度、训练实时结果、训练日志等。图15 训练指标和中间结果可视化图16 训练过程资源监控支持多机多卡环境下的模型分布式训练，大幅度提升模型训练的速度，满足海量样本数据加速训练的需求。图17

来自：帮助中心

查看更多 →
BF16和FP16说明

而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与

来自：帮助中心

查看更多 →