机器学习样本权重_训练文本分类模型-华为云

训练文本分类模型

被用户标注为某个分类的所有样本中，模型正确预测为该分类的样本比率，反映模型对正样本的识别能力。 precision：精确率被模型预测为某个分类的所有样本中，模型正确预测的样本比率，反映模型对负样本的区分能力。 accuracy：准确率所有样本中，模型正确预测的样本比率，反映模型对样本整体的识别能力。

来自：帮助中心

查看更多 →
训练模型

模型。在“参数配置”填写“学习率”、“训练轮次”和“分批训练样本数”。 “学习率”用来控制模型的学习速度，范围为(0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 “分批训练样本数”又叫批尺寸（Batch Size），指一次训练所抓取的数据样本数量，影响训练速度及模型优化效果。

来自：帮助中心

查看更多 →
启动智能任务

集，不支持启动主动学习和自动分组任务，支持预标注任务。 “智能标注”是指基于当前标注阶段的标签及图片学习训练，选中系统中已有的模型进行智能标注，快速完成剩余图片的标注操作。“智能标注”又包含“主动学习”和“预标注”两类。 “主动学习”表示系统将自动使用半监督学习、难例筛选等多种手

来自：帮助中心

查看更多 →
训练启动脚本说明和参数配置

512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

来自：帮助中心

查看更多 →
训练启动脚本说明和参数配置

128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

来自：帮助中心

查看更多 →
指令监督微调训练任务

examples/deepspeed/ds_z2_config.json ZeRO-3，配置以下参数 deepspeed: examples/deepspeed/ds_z3_config.json 否，默认选用Accelerate加速深度学习训练框架，注释掉deepspeed参数。是否使用固定句长

来自：帮助中心

查看更多 →
为什么微调后的模型，输入与训练样本相似的问题，回答与训练样本完全不同

为什么微调后的模型，输入与训练样本相似的问题，回答与训练样本完全不同当您将微调的模型部署以后，输入一个已经出现在训练样本中，或虽未出现但和训练样本差异很小的问题，回答完全错误。这种情况可能是由于以下几个原因导致的，建议您依次排查：训练参数设置：您可以通过绘制Loss曲线查询来

来自：帮助中心

查看更多 →
AI开发基本概念

AI开发基本概念机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。

来自：帮助中心

查看更多 →
执行训练任务

执行训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

来自：帮助中心

查看更多 →
获取样本搜索条件

获取样本搜索条件功能介绍获取样本搜索条件。调试您可以在 API Explorer 中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{data

来自：帮助中心

查看更多 →
查询样本列表

查询样本列表查询数据集的样本列表，不支持表格类型数据集。 dataset.list_samples(version_id=None, offset=None, limit=None) 示例代码示例一：查询数据集样本列表 from modelarts.session import

来自：帮助中心

查看更多 →
使用MaaS调优模型

数据集必须满足要求（请参见约束限制），否则调优会失败。调优后模型权重保存路径选择存放调优后的模型权重文件的OBS路径。说明：权重文件要存放在空文件夹中，否则会覆盖原有文件。超参设置迭代步数/Iterations 设置模型参数/权重更新的次数。在调优过程中，Qwen2-72B-1K模

来自：帮助中心

查看更多 →
确认学习结果

确认学习结果 HSS学习完白名单策略关联的服务器后，输出的学习结果中可能存在一些特征不明显的可疑进程需要再次进行确认，您可以手动或设置系统自动将这些可疑进程确认并分类标记为可疑、恶意或可信进程。学习结果确认方式，在创建白名单策略时可设置： “学习结果确认方式”选择的“自动确认可

来自：帮助中心

查看更多 →
训练的权重转换说明

训练的权重转换说明以llama2-13b举例，使用训练作业运行obs_pipeline.sh脚本后，脚本自动执行权重转换，并检查是否已经完成权重转换的过程。如果已完成权重转换，则直接执行训练任务。如果未进行权重转换，则会自动执行scripts/llama2/2_convert_mg_hf

来自：帮助中心

查看更多 →
执行微调训练任务

dataset_dir /home/ma-user/ws/LLaMAFactory/LLaMA-Factory/data 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。

来自：帮助中心

查看更多 →
迁移学习

迁移学习如果当前数据集的特征数据不够理想，而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候，可以使用特征迁移功能，将理想数据集的特征数据迁移到当前数据集中。进行特征迁移前，请先完成如下操作：将源数据集和目标数据集导入系统，详细操作请参见数据集。创建迁移数据

来自：帮助中心

查看更多 →
设置读写分离权重

Println(err) } } 更多编程语言的SDK代码示例，请参见API Explorer的代码示例页签，可生成自动对应的SDK代码示例。状态码状态码描述 200 Success. 400 Client error. 500 Server error. 错误码

来自：帮助中心

查看更多 →
修改读写分离权重

修改读写分离权重功能介绍修改指定实例的读写分离权重。该接口计划于2024-04-30下线。调用接口前，您需要了解API 认证鉴权。调试您可以在API Explorer中调试该接口。接口约束该接口仅支持RDS for PostgreSQL 11、RDS for PostgreSQL

来自：帮助中心

查看更多 →
训练的权重转换说明

--load-dir：加载转换模型权重路径。 --save-dir : 权重转换完成之后保存路径。 --tokenizer-model : tokenizer路径。输出转换后权重文件保存路径：权重转换完成后，在/home/ma-user/work/llm_train/pro

来自：帮助中心

查看更多 →
训练的权重转换说明

--load-dir：加载转换模型权重路径。 --save-dir : 权重转换完成之后保存路径。 --tokenizer-model : tokenizer路径。输出转换后权重文件保存路径：权重转换完成后，在/home/ma-user/work/llm_train/pro

来自：帮助中心

查看更多 →
训练启动脚本说明和参数配置

context-parallel-size 。（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

来自：帮助中心

查看更多 →