评测科学计算大模型
创建API服务
API管理模块可以对评测服务的API进行管理,在创建评测任务的时候选择评测服务即可。可以对API进行创建、编辑、删除
- 登录ModelArts Studio平台,在“我的空间”模块,单击进入所需空间。
图1 我的空间
- 在左侧导航栏中选择“评测平台 > API管理”,单击界面右上角“创建API”。
- 定义API名称、模型系列,并选择模型类型”科学计算大模型”和API描述(可选),单击“提交”。
图2 创建API
- API创建好以后,通过右侧新增版本来定义API的信息,可以新建多个版本。
- 单击“新增版本”,科学计算默认接口类型为异步接口,需要配置创建任务和查询任务URL、Param、Model Tag、Response及相关参数,并配置版本、并发数、QPM等。
- 版本:自定义。
- 并发数:可以根据模型的性能进行配置,范围1~32。
- QPM:可以根据模型的性能进行配置,范围1~5000。
- URL:模型推理任务创建/查询地址。
- Param:用户可以根据接口需要配置,可选,可以定义header和请求参数信息。
- Model Tag:已部署模型名称对应的标签。
- Response(响应体):通过jsonpath的形式定义怎么获取响应体里面的内容。jsonpath语法的作用是从响应体的json字段中提取出所需的数据。
- Status Path:查询任务接口的状态路径
- Complete Status:任务状态
- Result Path:结果状态路径
图3 新增版本
- 创建API版本后,需要验证API是否可用,只有验证通过的API才可以进行评测。在“API管理”页面单击创建好的API任务名称,单击“接口验证”输入问题后查看接口是否有响应内容输出。
图4 接口验证

创建科学计算大模型评测任务
创建步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图5 我的空间
- 在左侧导航栏中选择“评测平台 > 评测任务”,单击界面右上角“创建自动评测任务”。
- 在“创建自动评测任务”页面,参考完成部署参数设置。
表1 科学计算大模型自动评测任务参数说明(基于规则) 参数分类
参数名称
参数说明
选择服务
模型类型
选择“科学计算大模型”。
评测模型
当前支持气象-风
服务来源
支持已部署服务、外部服务两种选项。单次最多可评测1个模型。
- 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。
- 外部服务:通过API的方式接入外部模型进行评测。
评测配置
评测规则
选择“基于规则”。
模型名称/model_tag
选择模型名称对应的模型obs地址。
起报时间
评测预测的起始时间。
预报时长
模型评测的预报时间长度。
评测指标
待评测的指标类型
预报值结果路径
模型评测的预报值结果路径
真实值数据路径
模型评测的真实值数据路径。
基本信息
评测任务名称
填写评测任务名称。
描述
填写评测任务描述。
- 参数填写完成后,单击“立即创建”,返回至“评测任务 > 自动评测”页面。
- 当状态为“已完成”时,可以单击操作列“评测报告”查看模型评测结果,包括模型详细的得分以及评测明细。
查看科学计算大模型评测报告
评测任务创建成功后,可以查看大模型评测任务报告,具体步骤如下:
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图6 我的空间
- 在左侧导航栏中选择“评测平台 > 评测任务”。
- 单击操作列“评测报告”,在“评测报告”页面,可以查看评测任务的报告和详情。
- 导出评测报告。
- 在“评测报告 > 服务结果分析”页面,单击“导出”,可选择需要导出的评测报告,单击“确定”。
- 单击右侧“导出记录”,可查看导出的任务ID,单击操作列“下载”,可将评测报告下载到本地。
科学计算大模型评测指标说明
科学计算大模型支持基于规则的自动评测方式。
|
模型类型 |
模型场景 |
评测指标(自动评测) |
指标说明 |
|---|---|---|---|
|
科学计算大模型 |
气象-风 |
准确率 |
气象风速预报准确率以日为基准,月,年等时间尺度的评判为该时段内日预报准确率的算数平均,反映一段时间内连续的风速预测值与实测数据值直接接近程度的指标。详情参见中华人民共和国气象行业标准QX/T 243-2024附录表B.1计算 |
|
合格率 |
气象风速预报合格率以日为基准,月,年等时间尺度的评判为该时段内日预报合格率的算数平均,反映一段时间内达到基本评判要求的风速预报占比的指标。详情参见中华人民共和国气象行业标准QX/T 243-2024附录表B.2计算 |
||
|
均方根误差 |
气象风速预测的均方根误差。参加中华人民共和国气象行业标准QX/T 243-2024附录表B.3-B5计算 |
||
|
相关系数 |
气象风速预测的相关系数。 参加中华人民共和国气象行业标准QX/T 243-2024附录表B.6计算 |
管理科学计算大模型评测任务
在评测任务列表中,任务创建者可以对任务进行克隆(复制评测任务)、启动(重启评测任务)和删除操作。
- 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
图7 我的空间
- 在左侧导航栏中选择“评测平台 > 评测任务”,可进行如下操作:
- 克隆。单击操作列的“克隆”,可以复制当前状态为“已完成”评测任务。
- 启动。单击操作列的“启动”,可以重启运行失败的评测任务。
- 重试。单击操作列的“更多 > 重试”,可以重启当前状态为“已完成”的评测任务。
- 删除。单击操作列的“更多 > 删除”,可以删除当前状态为“已完成”的不需要的评测任务。
删除属于高危操作,删除前请确保当前任务不再需要。