文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古科学计算大模型/ 使用数据工程构建科学计算大模型数据集
更新时间:2025-01-08 GMT+08:00
分享

使用数据工程构建科学计算大模型数据集

科学计算大模型支持接入的数据集类型

盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求

训练科学计算大模型训练数据要求所需数据量

构建科学计算大模型进行训练的数据要求见表1

表1 科学计算大模型训练数据要求

模型类别

特征要求

水平分辨率要求

区域范围要求

时间要求

数据获取方式

气象/降水模型

需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。

25km*25km。

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

训练数据一般可通过公开数据集获取,例如ERA5。ERA5是由欧洲中期天气预报中心(ECMWF)提供的全球气候的第五代大气再分析数据集,它覆盖从1940年1月至今的时间段,提供每小时的大气、陆地和海洋气候变量的估计值。

海洋模型

需包含5个表面层特征(10m u风、10m v风、2米温度、海平面气压、海表面气压),15个深海层次("0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m")的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。

-

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

海洋模型数据获取方式:https://data.hycom.org/datasets/GLBv0.08/expt_53.X/data/

气象/降水模型获取方式示例:

  1. 示例一:以下载2021年7月16日高空变量数据为例,下载内容为高空变量(重力位势、u风、v风、比湿、温度,1000、925、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
    1. 注册并登录数据下载平台,在高空变量数据下载链接中:
      • Product type选择Reanalysis。
      • Variable新选择Geopotential、Specific humidity、Temperature、U-component of wind、V-component of wind。
      • Pressure level选择1000hPa、925hPa、850hPa、700hPa、600hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、50hPa。
      • Year选择2021,Month选择July,Day选择16。
      • Time选择00:00、06:00、12:00、18:00。
      • Geographical area选择Whole available region。
      • Format选择NetCDF(experimental)。
    2. 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
      图1 下载高空变量数据
  2. 示例二:以下载2021年7月16日表面变量数据为例,下载内容为表面变量(10m u风、10m v风、2米温度、海平面气压)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
    1. 注册并登录数据下载平台,在表面变量数据下载链接中:
      • Product type选择Reanalysis。
      • Popular选择10m u-component of wind、10m v-component of wind、2m temperature、Mean sea level pressure,Surface pressure。
      • Year选择2021,Month选择July,Day选择16。
      • Time选择00:00、06:00、12:00、18:00。
      • Geographical area选择Whole available region。
      • Format选择NetCDF(experimental)。
    2. 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
      图2 下载表面变量数据

构建科学计算大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2

表2 盘古科学计算大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

加工气象类数据集

清洗气象类数据集

通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

清洗气象类数据集

发布气象类数据集

流通气象类数据集

数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

发布气象类数据集

相关文档