机器学习样本采样_基本概念-华为云

基本概念

75个英文单词，1token≈1.5汉字。自监督学习自监督学习（Self-Supervised Learning，简称SSL）是一种机器学习方法，它从未标记的数据中提取监督信号，属于无监督学习的一个子集。该方法通过创建“预设任务”让模型从数据中学习，从而生成有用的表示，可用于后续任务。它

来自：帮助中心

查看更多 →
LoRA微调训练

512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

来自：帮助中心

查看更多 →
自动学习的每个项目对数据有哪些要求？

自动学习的每个项目对数据有哪些要求？图像分类对数据集的要求文件名规范：不能有+、空格、制表符。保证图片质量：不能有损坏的图片，目前支持的格式包括jpg、jpeg、bmp、png。不要把明显不同的多个任务数据放在同一个数据集内。每一类数据尽量多，尽量均衡。期望获得良好效果

来自：帮助中心

查看更多 →
预训练

512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN

来自：帮助中心

查看更多 →
创建纵向联邦学习作业

在左侧导航树上依次选择“作业管理 > 可信联邦学习”，打开可信联邦学习作业页面。在“可信联邦学习”页面，单击“创建”。图1 创建作业在弹出的对话框中单击“纵向联邦”按钮，编辑“作业名称”等相关参数，完成后单击“确定”。目前，纵向联邦学习支持“XGBoost”、“逻辑回归”、“F

来自：帮助中心

查看更多 →
获取智能任务的信息

inf_output String 主动学习中推理的输出路径。 infer_result_output_dir String 样本预测结果输出OBS目录,可以不输入，默认使用output_dir目录下的{service_id}-infer-result子目录。 key_sample_output

来自：帮助中心

查看更多 →
算法工程处理的时候必须要先采样吗？

算法工程处理的时候必须要先采样吗？算法工程数据采样的目的是提升界面每个特征操作的速度。大数据量操作的时候建议先采样。数据采样后所有的特征操作，都只对采样后的数据进行处理，可以减少特征操作处理的数据量。父主题：特征工程

来自：帮助中心

查看更多 →
查询团队标注任务统计信息

count Integer 该标签的打标数量。 name String 标签名称。 property LabelProperty object 标签基本属性键值对，如颜色、快捷键等。 sample_count Integer 包含该标签的样本数量。 type Integer 标签类型。可选值如下：

来自：帮助中心

查看更多 →
查询团队标注的样本信息

strings 样本的删除原因，用于医疗。 hard_details Map<String,HardDetail> 疑难详情，包括：疑难描述，疑难原因，疑难建议。 labelers Array of Worker objects 样本分配的标注人列表，记录这张样本分给了哪些团队成员，用于团队标注。

来自：帮助中心

查看更多 →
查询数据集导出任务列表

labeler String 标注人。 metadata SearchProp object 通过样本属性搜索。 parent_sample_id String 父样本ID。 sample_dir String 根据样本所在目录搜索（目录需要以/结尾），只搜索指定目录下的样本，不支持目录递归搜索。

来自：帮助中心

查看更多 →
排序策略

行更新。学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。 ftrl：Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。

来自：帮助中心

查看更多 →
迁移学习

迁移学习如果当前数据集的特征数据不够理想，而此数据集的数据类别和一份理想的数据集部分重合或者相差不大的时候，可以使用特征迁移功能，将理想数据集的特征数据迁移到当前数据集中。进行特征迁移前，请先完成如下操作：将源数据集和目标数据集导入系统，详细操作请参见数据集。创建迁移数据

来自：帮助中心

查看更多 →
DBE_COMPRESSION

IN NUMBER, BLKCNT_CMP OUT INTEGER, BLKCNT_UNCMP OUT INTEGER, ROW_CMP OUT INTEGER, ROW_UNCMP OUT INTEGER, CMP_RATIO

来自：帮助中心

查看更多 →
分页查询团队标注任务下的样本列表

响应Body参数参数参数类型描述 sample_count Integer 样本数量。 samples Array of DescribeSampleResp objects 样本列表。表4 DescribeSampleResp 参数参数类型描述 check_accept Boolean

来自：帮助中心

查看更多 →
查询数据集版本详情

modified_sample_count Integer 已修改的样本数量。 previous_annotated_sample_count Integer 父版本的已标注样本数量。 previous_total_sample_count Integer 父版本的样本总数。 previous_version_id String

来自：帮助中心

查看更多 →
查询数据集的统计信息

count Integer 该标签的打标数量。 name String 标签名称。 property LabelProperty object 标签基本属性键值对，如颜色、快捷键等。 sample_count Integer 包含该标签的样本数量。 type Integer 标签类型。可选值如下：

来自：帮助中心

查看更多 →
预训练

5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。 SAVE_INTERVAL 10

来自：帮助中心

查看更多 →
LoRA微调训练

5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。 SAVE_INTERVAL 10

来自：帮助中心

查看更多 →
SFT全参微调训练

5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。 SAVE_INTERVAL 10

来自：帮助中心

查看更多 →
创建模型微调任务

权重衰减因子对模型参数进行正则化的一种因子，可以缓解模型过拟合现象。 warmup_ratio 学习率热启动比例学习率热启动参数，一开始以较小的学习率去更新参数，然后再使用预设学习率，有效避免模型震荡。表3 LoRA参数配置说明参数英文名参数中文名参数说明 lora_rank

来自：帮助中心

查看更多 →
获取样本搜索条件

获取样本搜索条件功能介绍获取样本搜索条件。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{data

来自：帮助中心

查看更多 →