创建科学计算大模型训练任务
创建科学计算大模型中期天气要素预测微调任务
创建科学计算大模型中期天气要素预测微调任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表1完成训练参数设置。
其中,“数据配置”展示了各训练数据涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表1 科学计算大模型中期天气要素预测微调训练参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“中期天气要素预测”。
训练类型
选择“微调”。
基础模型
选择所需微调的基础模型,可从“已发布模型”或“未发布模型”中进行选择。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业,加工时需选择气象预处理算子。
训练集
选择训练数据中的部分时间数据,训练数据集尽可能多一些。
验证集
选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
层次
设置训练数据的层次信息。在“预训练”场景中,可以添加或去除高空层次,训练任务将根据配置的层次信息重新训练模型。
高空变量
设置训练数据的高空变量信息。在“预训练”场景中,可以添加或去除新的高空变量,选中后会在变量权重中增加或移除该变量,训练任务将根据配置的高空变量重新训练模型。
表面变量
设置训练数据的表面变量信息。在“预训练”场景中,可以添加或去除新的表面变量,选中后会在变量权重中增加或移除该变量,训练任务将根据配置的表面变量重新训练模型。
表面静态量
表面静态量默认包括地形高度、LAND_MASK和SOIL_TYPE,用于初始化模型状态并提供地表特性信息。当前不支持添加或去除这些静态量。
- LAND_MASK:一个二维数组,表示模型网格中每个单元格是否是陆地。
- SOIL_TYPE:表示地表土壤分类,影响土壤的物理和化学特性,如水分保持能力、热容量和导热性。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
表面变量相对高空变量的权重
指在模型训练过程中对表面变量相对于深海层变量赋予的权重,总Loss=高空Loss+surface_loss_weight*表面Loss。取值范围:(0.05, 10)。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器种类
优化器种类
优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
用于定义ADAM优化器中的一阶矩估计的指数衰减率。一阶矩估计相当于动量,可以加速梯度在相关方向的下降并抑制震荡。取值范围:(0,1)。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂,取值需≥0。
学习率
学习率决定每次训练中模型参数更新的幅度。
选择合适的学习率至关重要:
- 如果学习率过大,模型可能无法收敛。
- 如果学习率过小,模型的收敛速度将变得非常慢。
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
变量权重
训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建科学计算大模型中期天气要素预测预训练任务
创建科学计算大模型中期天气要素预测预训练任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表2完成训练参数设置。
其中,“数据配置”展示了各训练数据涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表2 科学计算大模型中期天气要素预测预训练参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“中期天气要素预测”。
训练类型
选择“预训练”。
基础模型
选择所需训练的基础模型,可从“已发布模型”或“未发布模型”中进行选择。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业,加工时需选择气象预处理算子。
训练集
选择训练数据中的部分时间数据,训练数据集尽可能多一些。
验证集
选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
层次
设置训练数据的层次信息。在“预训练”场景中,可以添加或去除高空层次,训练任务将根据配置的层次信息重新训练模型。
高空变量
设置训练数据的高空变量信息。在“预训练”场景中,可以添加或去除新的高空变量,选中后会在变量权重中增加或移除该变量,训练任务将根据配置的高空变量重新训练模型。
表面变量
设置训练数据的表面变量信息。在“预训练”场景中,可以添加或去除新的表面变量,选中后会在变量权重中增加或移除该变量,训练任务将根据配置的表面变量重新训练模型。
表面静态量
表面静态量默认包括地形高度、LAND_MASK 和 SOIL_TYPE,用于初始化模型状态并提供地表特性信息。当前不支持添加或去除这些静态量。
- LAND_MASK:一个二维数组,表示模型网格中每个单元格是否是陆地。
- SOIL_TYPE:表示地表土壤分类,影响土壤的物理和化学特性,如水分保持能力、热容量和导热性。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
表面变量相对高空变量的权重
指在模型训练过程中对表面变量相对于深海层变量赋予的权重,总Loss=高空Loss+surface_loss_weight*表面Loss。取值范围:(0.05, 10)。
模型结构参数
深度
用于定义深度学习网络的层数。数值越大,模型复杂性越高。模型参数量会增加。然而,这也会导致模型的结果文件变大,可能会占用大量的显存。在设置深度时,需要权衡模型的复杂性和显存的使用情况。推荐设置为[2, 6]。
补丁尺度
用于将气象场划分为多个小块的大小,每个小块都会被模型单独处理。较大的patch_size意味着模型主干部分的一个网格代表更大范围的区域,但局部的细节信息可能会被忽略,较小的patch_size则相反。需要注意:
- 数据格式为[int,int,int],第一个值需要大于0小于等于4,第二、三个参数都需要大于1小于等于20。
- 在高方向patch_size[0]*window_size[0]需小于高空层次个数。
- 在东西方向patch_size[2]*window_size[2]需能整除1440。
窗口尺度
用于定义模型主干网格中计算自注意力的区域大小。需注意:
- 数据格式为[int,int,int],第一个值需要大于0小于等于4,第二、三个参数需要大于1小于等于20。
- 在高方向patch_size[0]*window_size[0]需小于高空层次个数。
- 在东西方向patch_size[2]*window_size[2]需能整除1440。
多头注意力头数
用于定义多头注意力机制中的头数。在设置这个参数时,需要注意init_channels要能够整除num_heads里的两个数。取值需大于1。
第一层的通道数量
用于定义卷积神经网络中第一层卷积核的数量。在设置这个参数时,需要注意init_channels要能够整除num_heads里的两个数。调大此参数,模型会变大,可能会导致内存不足的问题。取值需大于0。注意此值调大可能会引起内存不足的场景,导致训练作业失败。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器种类
优化器种类
优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
用于定义ADAM优化器中的一阶矩估计的指数衰减率。一阶矩估计相当于动量,可以加速梯度在相关方向的下降并抑制震荡。取值范围:(0,1)。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂,取值需≥0。
学习率
学习率决定每次训练中模型参数更新的幅度。
选择合适的学习率至关重要:
- 如果学习率过大,模型可能无法收敛。
- 如果学习率过小,模型的收敛速度将变得非常慢。
预训练时,默认值为:0.00001,范围为[0, 0.001]
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
变量权重
训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建科学计算大模型区域中期海洋智能预测微调任务
创建科学计算大模型区域中期海洋智能预测微调任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表3完成训练参数设置。
其中,“数据配置”展示了各训练数据涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表3 科学计算大模型区域中期海洋智能预测微调参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“区域中期海洋智能预测”。
训练类型
选择“微调”。
基础模型
选择所需微调的基础模型,可从“已发布模型”或“未发布模型”中进行选择。
模型水平分辨率
模型网格在水平方向上的精细程度,通常用来表示模拟或预测中空间网格的大小。根据训练数据和业务需求,自行定义模型水平分辨率,取值>0。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业。
训练集
选择训练数据中的部分时间数据,训练数据集尽可能多一些。
验证集
选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
深海层深
海深层深是指海洋模型将整个水柱(从海面到海底)按一定深度间隔划分成多个层次,每个深度值代表模型在这个深度层进行计算和模拟。例如,"0m"代表海平面,"6m"代表在海平面以下6米处的一层,以此类推。范围包括:0m、6m、10m、20m、30m、50m、70m、100m、125m、150m、200m、250m、300m、400m、500m。
深海变量
深海变量是用于模拟和描述海洋状态的关键物理量。
T:15层:海温(℃)
S:15层:海盐(PSU)
U:15层:海流经向速率 (ms-1)
V:15层:海流纬向速率 (ms-1)
海表变量
海表变量用于描述海洋表层和其上方大气的状态的关键物理量。它们主要用于模拟和分析海洋表面的风速、温度、和气压等特征。
U10:1层:海表面10m经向风速(ms-1)
V10:1层:海表面10m纬向风速(ms-1)
T2m:1层:海表面2m温度 (℃)
MSL:1层:平均海平面气压 (Pa)
SP:1层:海表面气压 (Pa)
表面静态量
表面静态量默认支持地形高度、LAND_MASK、SOIL_TYPE,用于初始化模型状态和在模型运行过程中提供必要的地表特性信息,暂时不支持添加和去除。
其中,LAND_MASK是一个二维数组,通常用于表示模型网格中每个单元格是否是陆地。SOIL_TYPE是指地表土壤的分类,它影响土壤的物理和化学特性,如土壤的水分保持能力、热容量和导热性。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
海表变量相对深海变量的权重
指在模型训练过程中对海表变量相对于深海层变量赋予的权重,总Loss=深海层Loss+surface_loss_weight*海表Loss。取值范围:(0.05, 10)。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
给输出数据加噪音的概率,定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
给输出数据加噪音的尺度,定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器参数
优化器种类
优化器种类。优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂,取值需≥0。
学习率
学习率决定每次训练中模型参数更新的幅度。
选择合适的学习率至关重要:
- 如果学习率过大,模型可能无法收敛。
- 如果学习率过小,模型的收敛速度将变得非常慢。
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
变量权重
训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。
创建科学计算大模型区域中期海洋智能预测预训练任务
创建科学计算大模型区域中期海洋智能预测预训练任务步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击右上角“创建训练任务”。
- 在“创建训练任务”页面,参考表4完成训练参数设置。
其中,“数据配置”展示了各训练数据涉及到的全部参数,请根据具体前端页面展示的参数进行设置。
表4 科学计算大模型区域中期海洋智能预测预训练参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“区域中期海洋智能预测”。
训练类型
选择“预训练”。
基础模型
选择所需微调的基础模型,可从“已发布模型”或“未发布模型”中进行选择。
模型水平分辨率
模型网格在水平方向上的精细程度,通常用来表示模拟或预测中空间网格的大小。根据训练数据和业务需求,自行定义模型水平分辨率,取值>0。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业。
训练集
选择训练数据中的部分时间数据,训练数据集尽可能多一些。
验证集
选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
模型数据配置
深海层深
海深层深是指海洋模型将整个水柱(从海面到海底)按一定深度间隔划分成多个层次,每个深度值代表模型在这个深度层进行计算和模拟。例如,"0m"代表海平面,"6m"代表在海平面以下6米处的一层,以此类推。范围包括:0m、6m、10m、20m、30m、50m、70m、100m、125m、150m、200m、250m、300m、400m、500m。
深海变量
深海变量是用于模拟和描述海洋状态的关键物理量。
T:15层:海温(℃)
S:15层:海盐(PSU)
U:15层:海流经向速率 (ms-1)
V:15层:海流纬向速率 (ms-1)
海表变量
海表变量用于描述海洋表层和其上方大气的状态的关键物理量。它们主要用于模拟和分析海洋表面的风速、温度、和气压等特征。
U10:1层:海表面10m经向风速(ms-1)
V10:1层:海表面10m纬向风速(ms-1)
T2m:1层:海表面2m温度 (℃)
MSL:1层:平均海平面气压 (Pa)
SP:1层:海表面气压 (Pa)
表面静态量
表面静态量默认支持地形高度、LAND_MASK、SOIL_TYPE,用于初始化模型状态和在模型运行过程中提供必要的地表特性信息,暂时不支持添加和去除。
其中,LAND_MASK是一个二维数组,通常用于表示模型网格中每个单元格是否是陆地。SOIL_TYPE是指地表土壤的分类,它影响土壤的物理和化学特性,如土壤的水分保持能力、热容量和导热性。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
海表变量相对深海变量的权重
指在模型训练过程中对海表变量相对于深海层变量赋予的权重,总Loss=深海层Loss+surface_loss_weight*海表Loss。取值范围:(0.05, 10)。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
给输出数据加噪音的概率,定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
给输出数据加噪音的尺度,定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器参数
优化器种类
优化器种类。优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂,取值需≥0。
学习率
学习率决定每次训练中模型参数更新的幅度。
选择合适的学习率至关重要:
- 如果学习率过大,模型可能无法收敛。
- 如果学习率过小,模型的收敛速度将变得非常慢。
预训练时,默认值为:0.00001,范围为[0, 0.001]。
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
变量权重
训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
订阅提醒
订阅提醒
该功能开启后,系统将在任务状态更新时,通过短信或邮件将提醒发送给用户。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 参数填写完成后,单击“立即创建”。
- 创建好训练任务后,页面将返回“模型训练”页面,可随时查看当前任务的状态。