人脸识别数据集的训练_数据集发布场景介绍-华为云

数据集发布场景介绍

以满足特定业务场景的需求。提高训练效率：通过发布符合标准的数据集，用户可以大幅提升数据的处理效率，减少后续的调整工作，快速进入模型训练阶段。数据集发布是数据工程中的重要环节，它通过科学的数据比例调整和格式转换，确保数据集能够满足模型训练的要求。通过平台提供的数据发布功能，用户

来自：帮助中心

查看更多 →
LoRA微调训练

ize）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图2 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。

来自：帮助中心

查看更多 →
选择数据

“数据集输出位置”不能与“数据集输入位置”为同一路径，且不能是“数据集输入位置”的子目录。“数据集输出位置”建议选择一个空目录。新建训练数据集后，勾选当前应用开发所需的训练数据集。由于模型训练过程需要有标签的数据，针对已上传的数据集：手动添加或修改标签单击数据集操作列的“标注”，进入数据集概览

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
根据数据集的entitiesId获取数据集的特征信息

根据数据集的entitiesId获取数据集的特征信息功能介绍管理侧根据数据集entitiesId获取数据集的特征信息。 URI URI格式 POST /softcomai/datalake/v1.0/originDataModels/{entitiesId}/entitysattr

来自：帮助中心

查看更多 →
SFT全参微调训练

其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图4 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解

来自：帮助中心

查看更多 →
选择数据

添加标签集当上传的数据集状态为“未标注数据集”，需要添加标签名称。单击文本框下方的添加标签。鼠标移至文本框，单击文本框右侧的删除标签。新建训练数据集后，勾选当前应用开发所需的训练数据集。标注数据由于模型训练过程需要有标签的数据，针对已上传的数据集，您可以手动添加或修改标签，每个标签至少有五个数据。

来自：帮助中心

查看更多 →
选择数据

单击“数据集输入位置”右侧输入框，在弹出的“数据集输入位置”对话框中，选择“OBS桶”和“文件夹”，然后单击“确定”。数据集输出位置待新建的数据集存储至OBS的位置。待新建的数据集有一个默认存储位置。如果需要修改数据集存储位置，请单击“数据集输出位置”右侧的“修改”，在弹出的“数据集输出位置”对话框

来自：帮助中心

查看更多 →
选择数据

由于模型训练过程需要有标签的数据，如果您上传的是已标注数据，上传后可查看标签解析。如果您想手动修改标签，可单击数据集操作列的“标注”，进入数据集概览页单击右上角的“开始标注”，在“数据标注”页面手动标注数据。如果您上传的是未标注数据，您单击数据集操作列的“标注”，进入数据集概览页单击

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
训练的权重转换说明

--loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。

来自：帮助中心

查看更多 →
根据数据集的entitiesId获取数据集的特征信息

根据数据集的entitiesId获取数据集的特征信息功能介绍管理侧根据数据集entitiesId获取数据集的特征信息。 URI URI格式 POST /softcomai/datalake/v1.0/originDataModels/{entitiesId}/entitysattr

来自：帮助中心

查看更多 →
准备数据

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。数据集下载本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用

来自：帮助中心

查看更多 →
准备数据

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。数据集下载本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用

来自：帮助中心

查看更多 →
训练

训练上传数据至OBS并预热到SFS Turbo中创建训练任务父主题：实施步骤

来自：帮助中心

查看更多 →
SFT全参微调训练

其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图4 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解

来自：帮助中心

查看更多 →