文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 开发盘古科学计算大模型/ 使用数据工程构建科学计算大模型数据集
更新时间:2024-12-02 GMT+08:00
分享

使用数据工程构建科学计算大模型数据集

科学计算大模型支持接入的数据集类型

盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求

构建科学计算大模型训练数据要求

构建科学计算大模型进行训练的数据要求见表1

表1 科学计算大模型训练数据要求

模型类别

特征要求

水平分辨率要求

区域范围要求

时间要求

数据获取方式

气象/降水模型

需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。

25km*25km。

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

训练数据一般可通过公开数据集获取,例如ERA5。ERA5是由欧洲中期天气预报中心(ECMWF)提供的全球气候的第五代大气再分析数据集,它覆盖从1940年1月至今的时间段,提供每小时的大气、陆地和海洋气候变量的估计值。

海洋模型

需包含5个表面层特征(10m u风、10m v风、2米温度、海平面气压、海表面气压),15个深海层次("0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m")的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。

-

全球范围,纬度90N~-90S,经度0W~360E。

训练集和验证集均推荐使用>1个月的历史数据。

海洋模型数据获取方式:https://data.hycom.org/datasets/GLBv0.08/expt_53.X/data/

气象/降水模型获取方式示例:

  1. 示例一:以下载2021年7月16日高空变量数据为例,下载内容为高空变量(重力位势、u风、v风、比湿、温度,1000、925、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
    1. 注册并登录数据下载平台,在高空变量数据下载链接中:
      • Product type选择Reanalysis。
      • Variable新选择Geopotential、Specific humidity、Temperature、U-component of wind、V-component of wind。
      • Pressure level选择1000hPa、925hPa、850hPa、700hPa、600hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、50hPa。
      • Year选择2021,Month选择July,Day选择16。
      • Time选择00:00、06:00、12:00、18:00。
      • Geographical area选择Whole available region。
      • Format选择NetCDF(experimental)。
    2. 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
      图1 下载高空变量数据
  2. 示例二:以下载2021年7月16日表面变量数据为例,下载内容为表面变量(10m u风、10m v风、2米温度、海平面气压)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
    1. 注册并登录数据下载平台,在表面变量数据下载链接中:
      • Product type选择Reanalysis。
      • Popular选择10m u-component of wind、10m v-component of wind、2m temperature、Mean sea level pressure,Surface pressure。
      • Year选择2021,Month选择July,Day选择16。
      • Time选择00:00、06:00、12:00、18:00。
      • Geographical area选择Whole available region。
      • Format选择NetCDF(experimental)。
    2. 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
      图2 下载表面变量数据

构建科学计算大模型数据集流程

在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2

表2 盘古科学计算大模型数据集构建流程

流程

子流程

说明

操作指导

导入数据至盘古平台

创建原始数据集

数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。

创建原始数据集

上线原始数据集

在正式发布数据集前,需要执行上线操作。

上线原始数据集

加工数据集(可选)

创建气象类数据集加工任务

数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。

创建气象类数据集加工任务

上线加工后的数据集

对加工后的数据集执行上线操作。

上线加工后的文本类数据集

发布数据集

创建气象类数据集发布任务

创建发布数据集,并进行正式的发布操作,用于后续的训练、评测任务。

发布气象类数据集

相关文档