华为云擎天评测_评分方案介绍-华为云

评分方案介绍

评分方案介绍 Octopus评测指标共有30多项大类指标，当规控算法未通过某些评测指标后，评测分数应能反映算法的性能表现。本设计根据指标的重要程度将其分为三大类：主要指标（以下简称A类）。次要指标（以下简称B类）。未定义重要度指标（以下简称C类）。本设计提供如下三种内置的评分方案：

来自：帮助中心

查看更多 →
信号查看器

选择左侧的数据，右侧将高亮显示对应的数据，内置评测信号参数请参考内置评测信号参数。图5 评测信号可根据需要添加数据和框图，也可根据需要选择框图的横向和纵向布局。可根据“任务名称”“场景名称”“信号名称”，搜索任务。单击可删除不需要的框图和数据。单击“清空数据”，可清空页面上所有的数据。内置评测信号参数表1

来自：帮助中心

查看更多 →
简介

简介评测算法从驾驶安全性，智能性，合规性，舒适性等维度对自动驾驶系统进行全面评价。评测指标的pass/fail标准比较复杂，需要对一些评测函数的细节进行介绍。 point_type：是一个PointType的枚举类型，表示该子类指标发生特殊状态（一般是指发生异常）时的时刻点用哪

来自：帮助中心

查看更多 →
流程指引

创建镜像仓库仿真服务算法管理在创建任务前，需要创建算法，用户可从本地上传容器镜像。创建仿真算法评测管理支持内置评测配置和自定义评测镜像，对仿真任务中的算法展开评测。创建评测场景管理创建仿真场景，仿真场景库、测试套件、测试用例和逻辑泛化场景用于仿真开发。创建仿真场景任务管理

来自：帮助中心

查看更多 →
C类均匀权重评分（Average）方案

C类均匀权重评分（Average）方案当用户选择该评分方案时，就不需要设置评测指标的重要度，各个指标按均匀权重进行扣分。 C类均匀权重评分原则（Principle）各指标得分权重相同。 C类均匀权重评测分数计算实现（Equation）此方案下总分为100分，在计算得分时不考虑

来自：帮助中心

查看更多 →
模型推理文件

模型推理文件如果用户需要使用内置评测指标集，需要按照以下规范提供模型推理的启动脚本，具体参考下面文件实例。如果不使用内置评测模板，可跳过此节。仅当使用内置评测模板时需要按此要求配置模型推理文件。如果使用自定义评测脚本评测时，仅需提供模型即可，具体目录结构由用户自行决定。模型推理启动文件实例

来自：帮助中心

查看更多 →
任务队列

任务队列评测任务在创建之后，可在此查看任务队列，同时支持对任务优先级的调整。在左侧菜单栏中单击“训练服务 > 模型评测”。选择“任务队列”页签，可查看任务。图1 任务队列评测任务队列相关操作在“任务队列”页签，还可以进行以下操作。表1 评测任务队列相关操作任务操作步骤

来自：帮助中心

查看更多 →
准备代码

├──convert_awq_to_npu.py # awq权重转换脚本 ├──llm_evaluation # 推理评测代码包 ├──benchmark_tools #性能评测 ├── benchmark.py # 可以基于默认的参数跑完静态benchmark和动态benchmark

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如ceval_gen、mmlu_gen

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如ceval_gen、mmlu_gen

来自：帮助中心

查看更多 →
推理精度测试

max_workers：请求的最大线程数，默认为1。 service_name：服务名称，保存评测结果时创建目录，示例为：llama2-13b-chat-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：成功部署推理

来自：帮助中心

查看更多 →
仿真服务简介

回放等功能。算法管理：用于对接客户的上云算法，并支持算法的版本级管理，并可自动化触发关联的批量算法。评测管理：支持内置评测配置和自定义评测镜像，对仿真任务中的算法展开评测。场景管理：包含场景、场景库、逻辑场景、逻辑场景库、测试用例、测试套件等。支持页面上传、路测数据生成、泛

来自：帮助中心

查看更多 →
镜像制作（训练）

一般情况下，训练与评测定义为同一个引擎，主要包括算法或评测脚本运行所需要的基本依赖环境。用户可使用命令行模式或Dockerfile模式进行构建。以训练、评测镜像为例，一般的镜像制作Dockerfile示例如下（xxx替换为实际路径）： # 载入基础镜像，训练或评测引擎一般需包含cu

来自：帮助中心

查看更多 →
推理精度测试

max_workers：请求的最大线程数，默认为1。 service_name：服务名称，保存评测结果时创建目录，示例为：llama2-13b-chat-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：成功部署推理

来自：帮助中心

查看更多 →
准备代码

├──llm_tools #推理工具包 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval # 精度评测 ├── config ├── config.json

来自：帮助中心

查看更多 →
安全

安全责任共担身份认证与访问控制数据保护技术审计与日志监控安全风险故障恢复认证证书擎天Enclave

来自：帮助中心

查看更多 →
推理精度测试

max_workers：请求的最大线程数，默认为1。 service_name：服务名称，保存评测结果时创建目录，示例为：qwen-14b-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：服务接口地址，若服务

来自：帮助中心

查看更多 →
仿真服务快速入门

仿真服务快速入门流程指引步骤一：创建镜像仓库步骤二：创建仿真算法步骤三：创建评测步骤四：创建仿真场景步骤五：创建仿真任务步骤六：查看仿真评测结果

来自：帮助中心

查看更多 →
并行仿真

可使用自研仿真算法，根据Octopus自研仿真评测体系，从行车安全、驾驶行为、乘员舒适性等多维度测评在多种条件下的仿真场景中控制算法控制质量。在仿真任务模块，可将仿真任务运行中关键指标变化绘制成图表，直观形象，也可在仿真任务结束后评测报告可下载至本地查看。任务配置仿真任务 3D回放

来自：帮助中心

查看更多 →
通行速率（Efficiency）检测

不通过。通行速率指标可有效避免主车一直不动，其他评测指标均通过，导致得分却很高的情况发生。该指标关联的内置可视化时间序列数据为：speedX。该指标的异常时间点记录类型为：POINT_TYPE_ALL。父主题：内置评测指标说明

来自：帮助中心

查看更多 →
支持云审计的关键操作

downloadAlgorithmMeta 创建评测镜像 octopus createSimEvaluationImages 更新评测镜像 octopus updateSimEvaluationImages 删除评测镜像 octopus deleteSimEvaluationImages 创建评测 octopus

来自：帮助中心

查看更多 →