深度学习中的梯度下降法_排序策略-华为云

排序策略

训练数据的obs路径特征工程排序样本预处理生成的训练数据所在的OBS路径。即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。测试数据的obs路径特征工程排序样本预处理生成的测试数据所在的OBS路径。即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。

来自：帮助中心

查看更多 →
各个模型深度学习训练加速框架的选择

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。D

来自：帮助中心

查看更多 →
排序策略-离线排序模型

数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad：自适应梯度算法对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0

来自：帮助中心

查看更多 →
msprobe梯度监控

控工具监控NPU训练过程中的确定性计算问题。将两份梯度数据进行相似度对比。在有标杆问题中，可以确认训练过程中精度问题出现的Step，以及抓取反向过程中的问题。使用步骤如下：通过pip安装msprobe工具。 # shell pip install mindstudio-probe

来自：帮助中心

查看更多 →
训练参数优化

训练参数优化科学计算大模型的训练参数调优可以考虑学习率参数，学习率（Learning Rate）是模型训练中最重要的超参数之一，它直接影响模型的收敛速度和最终性能：学习率过高，会导致损失在训练初期快速下降，但随后波动较大，甚至出现NaN（梯度爆炸）的问题。学习率过低，会导致损失下降

来自：帮助中心

查看更多 →
深度诊断ECS

node使用率已经超过了80%，可能导致在这些分区上无法创建新的文件 guestos.filesystem.invalid_device fstab中的设备检查当前实例的/etc/fstab文件中配置的某个设备不存在，可能会导致实例无法启动。 guestos.filesystem

来自：帮助中心

查看更多 →
基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型概要准备工作导入和预处理训练数据集创建和训练模型使用模型

来自：帮助中心

查看更多 →
迁移学习

迁移学习如果当前数据集的特征数据不够理想，而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候，可以使用特征迁移功能，将理想数据集的特征数据迁移到当前数据集中。进行特征迁移前，请先完成如下操作：将源数据集和目标数据集导入系统，详细操作请参见数据集。创建迁移数据

来自：帮助中心

查看更多 →
学习项目

通过查看学员培训进度，监控学员学习状态操作路径：培训-学习-学习项目-数据图23 数据监控1 图24 数据监控2 任务监控统计的是以任务形式分派的学员学习数据自学记录统计的是学员在知识库进行自学的学习数据统计数据统计的是具体培训资源（实操作业、考试等）的学员学习数据父主题：培训管理

来自：帮助中心

查看更多 →
学习目标

学习目标掌握座席侧的前端页面开发设计。父主题：开发指南

来自：帮助中心

查看更多 →
场景描述

本案例以“预测乳腺癌是良性/恶性”的场景为例。假设一部分的乳腺癌患者数据存储在xx医院，另一部分数据存储在某个其他机构，不同机构数据所包含的特征相同。这种情况下，xx医院想申请使用其他机构的乳腺癌患者数据进行乳腺癌预测模型建模会非常困难。因此可以通过华为 TICS 可信智能计算平台的横向联邦功能，实

来自：帮助中心

查看更多 →
学习任务

自由模式：可以不按顺序学习课件，可随意选择一个开始学习解锁模式：设置一个时间，按时间进程解锁学习，解锁模式中暂时不支持添加线下课和岗位测评图4 选择模式阶段任务图5 阶段任务指派范围：选择该学习任务学习的具体学员图6 指派范围1 图7 指派范围2 设置：对学习任务进行合格标准、奖励等设置

来自：帮助中心

查看更多 →
课程学习

登录手机app，点击“我的”进入个人信息页面图4 个人中心入口点击“个人中心”并进入，在个人中心页面，点击“我的学习”后面的箭头，进入“我的学习”的页面。图5 个人中心页面（我的岗位、我的技能）在“我的学习”的页面，点击每个具体的课程卡片，进入到课程详情页面。可以按“进行中、已完成，必修，选修”过滤，可以按课程标题搜索

来自：帮助中心

查看更多 →
Yaml配置文件参数配置说明

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

来自：帮助中心

查看更多 →
自动学习

自动学习准备数据模型训练部署上线模型发布

来自：帮助中心

查看更多 →
模型NPU卡数、梯度累积值取值表

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed)

来自：帮助中心

查看更多 →
Yaml配置文件参数配置说明

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

来自：帮助中心

查看更多 →
执行微调训练任务

per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5

来自：帮助中心

查看更多 →
附录：微调训练常见问题

Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。

来自：帮助中心

查看更多 →
创建NLP大模型训练任务

有更大的灵活性，但也需要更多的计算资源和内存。较低的取值则意味着更少的参数更新，资源消耗更少，但模型的表达能力可能受到限制。 Agent微调在训练Agent所需的NLP大模型时，可以开启此参数。通过调整训练数据中的Prompt，引导模型在特定领域或任务上生成更符合预期的回答。

来自：帮助中心

查看更多 →
问答模型训练（可选）

为了让问答机器人更加智能，回答更加准确，您可以通过训练模型来提升问答机器人的效果。问答训练通过用户问法对机器人进行测试，在匹配问题的返回结果中，按相似度得分进行倒序排序，正确匹配的问题出现在前一、三、五位中的占比将作为衡量模型效果的指标，数值越高代表模型效果越好。高级版、专业版、旗舰版机器人支持问答模型训练。

来自：帮助中心

查看更多 →