使用数据工程构建科学计算大模型数据集
科学计算大模型支持接入的数据集类型
盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。
训练科学计算大模型训练数据要求所需数据量
构建科学计算大模型进行训练的数据要求见表1。
模型类别 |
数据要求 |
特征要求 |
水平分辨率要求 |
区域范围要求 |
时间要求 |
训练数据获取方式 |
推理数据获取方式 |
---|---|---|---|---|---|---|---|
气象模型 |
天气数据 |
需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 |
25km*25km。 |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
||
污染物模型 |
天气数据 |
1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 2、区域污染物数据,需包含6个表面层特征(PM10、PM2.5、NO₂、O₃、SO₂、CO) |
0.0625°*0.0625° |
中国区域,经度72.25°E~ 136.0°E, 纬度17.25°N~55.0°N |
训练集和验证集均推荐使用>1个月的历史数据。 |
1、全球气象数据,可参考第一行气象/降水模型中的数据获取方式。 2、污染物观测数据由客户自行提供。 |
- |
海气模型 |
天气+海洋数据 |
1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 |
天气:1/4° 海洋:1/12° |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
- |
|
海浪模型 |
海洋数据 |
1、全球海洋数据,需包含3个表面层特征(有效波高,平均波周期,平均波向)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 |
1/4° |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
- |
|
海洋生态模型 |
海洋数据 |
1、全球海洋数据,需包含9个表面层特征(总叶绿素浓度、叶绿素浓度、硅藻浓度、颗石藻浓度、蓝澡浓度、铁浓度、硝酸盐浓度 、混合层深度、磷酸盐浓度)。 2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 |
1/4° |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
- |
- |
构建科学计算大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2。