盘古大模型 PanguLargeModels
盘古大模型 PanguLargeModels
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 高频常见问题
- 大模型概念类
-
大模型微调训练类
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类
- 提示词工程类
- 文档下载
- 通用参考
链接复制成功!
构建微调训练任务数据集
获取源数据
科学计算大模型微调训练所需的数据为气象再分析数据。
气象再分析数据集是利用现代数值天气预报模型和数据同化系统,对过去的观测数据进行重新处理后得到的。这些数据集可以是全球范围的,也可以是特定区域的。再分析数据集的目的是通过整合历史观测数据和现代计算技术,提供一个完整、统一且高质量的气象数据记录,用于研究和分析气候及天气变化。再分析数据一般含多种气象特征,如温度、湿度和海平面气压等。其中,每个特征包含时间、经度、纬度等多个维度,通常采用NetCDF(.nc)、GRIB(.grib)和GRIB2(.grib2)等格式、以网格形式存储。本案例推荐的公开数据集如下:
- Hycom公开数据集:
HYCOM再分析产品是美国海军研究实验室利用海军耦合海洋资料同化系统(Navy Coupled Ocean Data Assimilation, NCODA)将HYCOM模式和多源观测数据结合的产物,其公布的再分析产品时间跨度为1992—2012年,时间分辨率为1天,纬度范围是80.48°S ~80.48°N,空间水平分辨率为1/12°,垂直方向为不等距的40层。
Hycom数据集下载链接为:https://data.hycom.org/datasets/GLBv0.08/expt_53.X/data/,用户可直接根据文件名下载所需时间的nc文件数据,如图1。
说明:
对区域海洋模型进行微调时,推荐使用大于3个月的hycom数据。
数据预处理
hycom海洋数据预处理的要求如下:
- 特征要求:需包含5个表面层特征(10m u风、10m v风、2米温度、海平面气压、海表面气压),15个深海层次("0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m")的4个深海层特征(海盐、海洋流速u、海洋流速v、温度)。
- 全球海洋数据水平分辨率要求:0.25°。
- 区域海洋数据水平分辨率要求:1/12°。
- 全球海洋数据区域范围要求:全球范围,纬度90N~-90S,经度0W~360E。
- 时间要求:微调数据中时间维度需明确是UTC时间或北京时间。
- 缺失值处理:若微调数据有缺失值,需将缺失值处理成nan。
导入微调数据至平台
用户可以将存储在OBS服务的数据或本地数据导入至ModelArts Studio平台。
本案例以导入OBS服务中的数据为例,导入微调数据至平台的步骤如下:
- 登录ModelArts Studio平台,进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据获取 > 导入任务”,单击界面右上角“创建导入任务”。
- 数据集类型选择“气象 > 气象数据”,导入来源选择“OBS”,单击“
”,在“存储位置”中选择微调数据所在的OBS路径后,单击“确定”。
图2 从OBS中导入微调数据集文件 - 填写“数据集名称”和“描述”。
- 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
发布微调数据集
原始数据集不可以直接用于模型训练,需要发布为一个“发布数据集”,发布该数据集的步骤如下:
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
- 在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。
- 在“创建发布任务”页面,数据集模态选择“气象 > 气象数据”,选择需要发布的数据集。
图3 创建发布任务
- 单击“下一步”,设置数据集的“数据用途”与“数据集可见性”,填写数据集名称、描述,单击“确认”完成微调数据集的构建。
父主题: 盘古科学计算大模型微调训练实践