创建科学计算大模型训练任务
创建科学计算大模型训练任务步骤如下:
- 登录ModelArts Studio大模型开发平台,进入所需操作空间。
图1 进入操作空间
- 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。
- 在“创建训练任务”页面,模型类型选择“科学计算大模型”。模型选择完成后,参考表1、表2完成训练参数设置,启动模型训练。
表1 科学计算大模型(中期天气要素预测)训练参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“中期天气要素预测”。
训练类型
可选择“预训练”和“微调”。
基础模型
可以选择“从资产选模型”和“从任务选模型”,模型会自带时间分辨率,会根据预设的时间间隔处理和生成预测结果。
- 若训练类型为“预训练”,训练任务使用训练数据重新训练出与基础模型分辨率相同的模型。
- 若训练类型为“微调”,训练任务会使用训练数据在基础模型的基础上进行训练。
plog日志
plog日志。plog日志是一种用来记录模型运行情况的信息。开启plog日志,能帮助开发者了解模型执行的状态、捕捉错误、分析问题。不同的日志级别表示日志的重要性和详细程度,从低到高依次是:DEBUG、INFO、WARNING、ERROR。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
表面变量相对高空变量的权重
指在模型训练过程中对表面变量相对于深海层变量赋予的权重,总Loss=高空Loss+surface_loss_weight*表面Loss。取值范围:(0.05, 10)。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器种类
优化器种类
优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
用于定义ADAM优化器中的一阶矩估计的指数衰减率。一阶矩估计相当于动量,可以加速梯度在相关方向的下降并抑制震荡。取值范围:(0,1)。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
用于定义权重衰减的系数。权重衰减是一种正则化技术,可以防止模型过拟合。取值需≥0。
学习率
用于定义学习率的大小。学习率决定了模型参数在每次更新时变化的幅度。如果学习率过大,模型可能会在最优解附近震荡而无法收敛。如果学习率过小,模型收敛的速度可能会非常慢。当batch_size减小时,学习率也应相应地线性减小。预训练时,默认值为:0.00001,范围为[0, 0.001]
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
变量权重
训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业,加工时需选择气象预处理算子。
训练集
选择训练数据中的部分时间数据,训练数据集尽可能多一些。
验证集
选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
高空层次
设置训练数据的高空层次信息,在“预训练”的场景中也支持您添加或去除新的高空层次,训练任务会根据您配置的高空层次对模型重新进行训练。
高空变量
设置训练数据的高空变量信息,在“预训练”的场景中也支持您添加或去除新的高空变量,选择后会在变量权重中增加或去除该变量权重,训练任务会根据您配置的高空变量对模型重新进行训练。
表面变量
设置训练数据的表面变量信息,同时在“预训练”的场景中也支持您添加或去除新的表面变量,选择后会在变量权重中增加或去除该变量权重,训练任务会根据您配置的表面变量对模型重新进行训练。
表面静态量
表面静态量默认支持地形高度、LAND_MASK、SOIL_TYPE,用于初始化模型状态和在模型运行过程中提供必要的地表特性信息,暂时不支持添加和去除。
其中,LAND_MASK是一个二维数组,通常用于表示模型网格中每个单元格是否是陆地。SOIL_TYPE是指地表土壤的分类,它影响土壤的物理和化学特性,如土壤的水分保持能力、热容量和导热性。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
基本信息
名称
训练任务名称。
描述
训练任务描述。
表2 科学计算大模型(区域中期海洋智能预测)训练参数说明 参数分类
参数名称
参数说明
训练配置
模型来源
选择“盘古大模型”。
模型类型
选择“科学计算大模型”。
场景
选择“区域中期海洋智能预测”。
训练类型
可根据科学计算大模型适用场景和建议选择“预训练”和“微调”。
基础模型
可以选择“预置模型”和“我的模型”,模型会自带时间分辨率,会根据预设的时间间隔处理和生成预测结果。
- 若训练类型为“预训练”,训练任务使用训练数据重新训练出与基础模型分辨率相同的模型。
- 若训练类型为“微调”,训练任务会使用训练数据在基础模型的基础上进行训练。
plog日志
plog日志。plog日志是一种用来记录模型运行情况的信息。开启plog日志,能帮助开发者了解模型执行的状态、捕捉错误、分析问题。不同的日志级别表示日志的重要性和详细程度,从低到高依次是:DEBUG、INFO、WARNING、ERROR。
模型水平分辨率
模型网格在水平方向上的精细程度,通常用来表示模拟或预测中空间网格的大小。根据训练数据和业务需求,自行定义模型水平分辨率,取值>0。
数据配置
训练数据
选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业。
模型数据配置
深海层深
海深层深是指海洋模型将整个水柱(从海面到海底)按一定深度间隔划分成多个层次,每个深度值代表模型在这个深度层进行计算和模拟。例如,"0m"代表海平面,"6m"代表在海平面以下6米处的一层,以此类推。范围包括:0m、6m、10m、20m、30m、50m、70m、100m、125m、150m、200m、250m、300m、400m、500m。
深海变量
深海变量是用于模拟和描述海洋状态的关键物理量。
T:15层:海温(℃)
S:15层:海盐(PSU)
U:15层:海流经向速率 (ms-1)
V:15层:海流纬向速率 (ms-1)
海表变量
海表变量用于描述海洋表层和其上方大气的状态的关键物理量。它们主要用于模拟和分析海洋表面的风速、温度、和气压等特征。
U10:1层:海表面10m经向风速(ms-1)
V10:1层:海表面10m纬向风速(ms-1)
T2m:1层:海表面2m温度 (℃)
MSL:1层:平均海平面气压 (Pa)
SP:1层:海表面气压 (Pa)
区域范围
/
在图中设置训练模型的经纬度范围,即区域模型的经纬度范围。该范围需要在上传区域数据的范围之内。
模型输出控制参数
训练轮数
表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。
损失类型
用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。
- MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。
- 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。
海表变量相对深海变量的权重
指在模型训练过程中对海表变量相对于深海层变量赋予的权重,总Loss=深海层Loss+surface_loss_weight*海表Loss。取值范围:(0.05, 10)。
正则化参数
路径删除概率
用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
特征删除概率
用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。
给输入数据加噪音的概率
定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输入数据加噪音的尺度
给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
给输出数据加噪音的概率
给输出数据加噪音的概率,定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。
给输出数据加噪音的尺度
给输出数据加噪音的尺度,定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
优化器参数
优化器种类
优化器种类。优化器是用于更新模型参数的算法,目前支持ADAM优化器。
第一个动量矩阵的指数衰减率(beta1)
数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。
第二个动量矩阵的指数衰减率(beta_2)
用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于RMSProp,可以调整学习率。取值范围:(0,1)。
权重衰减系数
用于定义权重衰减的系数。权重衰减是一种正则化技术,可以防止模型过拟合。取值需≥0。
学习率
用于定义学习率的大小。学习率决定了模型参数在每次更新时变化的幅度。如果学习率过大,模型可能会在最优解附近震荡而无法收敛。如果学习率过小,模型收敛的速度可能会非常慢。当batch_size减小时,学习率也应相应地线性减小。预训练时,默认值为:0.00001,范围为[0, 0.001]。
学习率调整策略
用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
变量权重
T
海表面2m温度 (℃)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
U
海表面10m经向风速(ms-1)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
V
海表面10m纬向风速(ms-1)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
P
平均海平面气压(Pa)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
SSH
海表面高度(m)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
SP
海表面气压 (Pa)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
WT
深海层海温(℃)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
WU
深海层海流经向速率 (ms-1)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
WV
深海层海流经纬向速率 (ms-1)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
WS
深海层海盐(PSU)的权重设置。训练数据设置完成后,会显示出各变量以及默认的权重。您可以基于变量的重要情况调整权重。
资源配置
训练单元
选择训练模型所需的训练单元。
当前展示的完成本次训练所需要的最低训练单元要求。
基本信息
名称
训练任务名称。
描述
训练任务描述。
- 填写训练任务“名称”、“描述”,单击“立即创建”创建科学计算大模型训练任务。
- 创建好训练任务后,返回“模型训练”页面,单击操作列“启动”,并在任务确认弹窗中单击“确定”启动训练任务。