使用数据工程构建科学计算大模型数据集
科学计算大模型支持接入的数据集类型
盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。
训练科学计算大模型训练数据要求所需数据量
构建科学计算大模型进行训练的数据要求见表1。
模型类别 | 数据要求 | 特征要求 | 水平分辨率要求 | 区域范围要求 | 时间要求 | 训练数据获取方式 | 推理数据获取方式 |
|---|---|---|---|---|---|---|---|
气象模型 | 天气数据 | 需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 | 25km*25km。 | 全球范围,纬度90N~-90S,经度0W~360E。 | 训练集和验证集均推荐使用>1个月的历史数据。 | ||
污染物模型 | 天气数据 | 1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 2、区域污染物数据,需包含6个表面层特征(PM10、PM2.5、NO₂、O₃、SO₂、CO) | 0.0625°*0.0625° | 中国区域,经度72.25°E~ 136.0°E, 纬度17.25°N~55.0°N | 训练集和验证集均推荐使用>1个月的历史数据。 | 1、全球气象数据,可参考第一行气象/降水模型中的数据获取方式。 2、污染物观测数据由客户自行提供。 | - |
海气模型 | 天气+海洋数据 | 1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 | 天气:1/4° 海洋:1/12° | 全球范围,纬度90N~-90S,经度0W~360E。 | 训练集和验证集均推荐使用>1个月的历史数据。 | - | |
海浪模型 | 海洋数据 | 1、全球海洋数据,需包含3个表面层特征(有效波高,平均波周期,平均波向)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 | 1/4° | 全球范围,纬度90N~-90S,经度0W~360E。 | 训练集和验证集均推荐使用>1个月的历史数据。 | - | |
海洋生态模型 | 海洋数据 | 1、全球海洋数据,需包含9个表面层特征(总叶绿素浓度、叶绿素浓度、硅藻浓度、颗石藻浓度、蓝澡浓度、铁浓度、硝酸盐浓度 、混合层深度、磷酸盐浓度)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 | 1/4° | 全球范围,纬度90N~-90S,经度0W~360E。 | 训练集和验证集均推荐使用>1个月的历史数据。 | - | - |
构建科学计算大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2。

