使用数据工程构建科学计算大模型数据集
科学计算大模型支持接入的数据集类型
盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。
构建科学计算大模型训练数据要求
构建科学计算大模型进行训练的数据要求见表1。
模型类别 |
特征要求 |
水平分辨率要求 |
区域范围要求 |
时间要求 |
数据获取方式 |
---|---|---|---|---|---|
气象/降水模型 |
需包含4个表面层特征(10m u风、10m v风、2米温度、海平面气压),13高空层次(1000、925、850、700、600、500、400、300、250、200、150、100、50hPa)的5个高空层特征(重力位势、u风、v风、比湿、温度)。 |
25km*25km。 |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
训练数据一般可通过公开数据集获取,例如ERA5。ERA5是由欧洲中期天气预报中心(ECMWF)提供的全球气候的第五代大气再分析数据集,它覆盖从1940年1月至今的时间段,提供每小时的大气、陆地和海洋气候变量的估计值。
|
海洋模型 |
需包含5个表面层特征(10m u风、10m v风、2米温度、海平面气压、海表面气压),15个深海层次("0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m")的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。 |
- |
全球范围,纬度90N~-90S,经度0W~360E。 |
训练集和验证集均推荐使用>1个月的历史数据。 |
海洋模型数据获取方式:https://data.hycom.org/datasets/GLBv0.08/expt_53.X/data/ |
气象/降水模型获取方式示例:
- 示例一:以下载2021年7月16日高空变量数据为例,下载内容为高空变量(重力位势、u风、v风、比湿、温度,1000、925、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
- 注册并登录数据下载平台,在高空变量数据下载链接中:
- Product type选择Reanalysis。
- Variable新选择Geopotential、Specific humidity、Temperature、U-component of wind、V-component of wind。
- Pressure level选择1000hPa、925hPa、850hPa、700hPa、600hPa、500hPa、400hPa、300hPa、250hPa、200hPa、150hPa、100hPa、50hPa。
- Year选择2021,Month选择July,Day选择16。
- Time选择00:00、06:00、12:00、18:00。
- Geographical area选择Whole available region。
- Format选择NetCDF(experimental)。
- 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
图1 下载高空变量数据
- 注册并登录数据下载平台,在高空变量数据下载链接中:
- 示例二:以下载2021年7月16日表面变量数据为例,下载内容为表面变量(10m u风、10m v风、2米温度、海平面气压)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下:
- 注册并登录数据下载平台,在表面变量数据下载链接中:
- Product type选择Reanalysis。
- Popular选择10m u-component of wind、10m v-component of wind、2m temperature、Mean sea level pressure,Surface pressure。
- Year选择2021,Month选择July,Day选择16。
- Time选择00:00、06:00、12:00、18:00。
- Geographical area选择Whole available region。
- Format选择NetCDF(experimental)。
- 数据准备好后,单击“Submit Form”,基于页面提示单击“Download”下载数据。
图2 下载表面变量数据
- 注册并登录数据下载平台,在表面变量数据下载链接中:
构建科学计算大模型数据集流程
在ModelArts Studio大模型开发平台中,使用数据工程创建盘古科学计算大模型数据集流程见表2。