文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古科学计算大模型/ 使用数据工程构建科学计算大模型数据集
更新时间:2025-08-30 GMT+08:00
分享

使用数据工程构建科学计算大模型数据集

科学计算大模型支持接入的数据集类型

盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求

训练科学计算大模型训练数据要求所需数据量

构建科学计算大模型进行训练的数据要求见表1

表1 科学计算大模型训练数据要求

模型类别

数据要求

特征要求

水平分辨率要求

区域范围要求

时间要求

训练数据获取方式

推理数据获取方式

气象模型

天气数据

需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。

25km*25km。

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

参考ERA5数据获取指导

参考EC0数据获取指导

污染物模型

天气数据

1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。

2、区域污染物数据,需包含6个表面层特征(PM10、PM2.5、NO₂、O₃、SO₂、CO)

0.0625°*0.0625°

中国区域,经度72.25°E~ 136.0°E, 纬度17.25°N~55.0°N

训练集和验证集均推荐使用>1个月的历史数据。

1、全球气象数据,可参考第一行气象/降水模型中的数据获取方式。

2、污染物观测数据由客户自行提供。

-

海气模型

天气+海洋数据

1、全球气象数据,需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。

2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。

天气:1/4°

海洋:1/12°

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

参考Mecator数据获取指导

-

海浪模型

海洋数据

1、全球海洋数据,需包含3个表面层特征(有效波高,平均波周期,平均波向)。

2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。

1/4°

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

参考ERA5数据获取指导

-

海洋生态模型

海洋数据

1、全球海洋数据,需包含9个表面层特征(总叶绿素浓度、叶绿素浓度、硅藻浓度、颗石藻浓度、蓝澡浓度、铁浓度、硝酸盐浓度 、混合层深度、磷酸盐浓度)。

2、全球海洋数据,需包含1个表面层特征(海表高度),15个深海层次(0.5m,6.4m,9.6m,21.6m,29.4m,47.4m,65.8m,92.3m,130.7m,155.9m,186.1m,266m,318.1m,380.2m,541.1m)的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。

1/4°

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

-

-

构建科学计算大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2

表2 盘古科学计算大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

加工气象类数据集

加工气象类数据集

通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

加工气象类数据集

发布气象类数据集

发布气象类数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布气象类数据集

相关文档