云服务器评测_流程指引-华为云

流程指引

创建镜像仓库仿真服务算法管理在创建任务前，需要创建算法，用户可从本地上传容器镜像。创建仿真算法评测管理支持内置评测配置和自定义评测镜像，对仿真任务中的算法展开评测。创建评测场景管理创建仿真场景，仿真场景库、测试套件、测试用例和逻辑泛化场景用于仿真开发。创建仿真场景任务管理

来自：帮助中心

查看更多 →
模型文件说明（训练）

Octopus模型管理模块，支持用户上传模型，并将其用于模型评测、模型编译任务。如果需要将模型用于内置评测模板评测，除模型文件外，需另外包含推理启动文件： customer_inference.py 仅当需要使用内置评测指标计算时需要添加推理启动文件，文件名称可自定义，将该文件置于模型目录下。

来自：帮助中心

查看更多 →
同一个任务配置运行多次仿真任务有什么作用？

库或用例中的场景数据。如果清空里面的有效场景或用例，会导致任务运行失败。不支持修改任务配置和评测的关联关系，但是评测自身属性，可以在评测管理页面进行调整。再次启动任务时，将使用新的评测方式。父主题：仿真服务常见问题

来自：帮助中心

查看更多 →
准备代码

├──build.sh # 安装量化模块的脚本 ├──llm_evaluation # 推理评测代码包 ├──benchmark_tools #性能评测 ├── benchmark.py # 可以基于默认的参数跑完静态benchmark和动态benchmark

来自：帮助中心

查看更多 →
制作CCE集群训练镜像

H找到。一般情况下，训练与评测定义为同一个引擎，主要包括算法或评测脚本运行所需要的基本依赖环境。用户可使用命令行模式或Dockerfile模式进行构建。以训练、评测镜像为例，一般的镜像制作Dockerfile示例如下： # 载入基础镜像，训练或评测引擎一般需包含cuda/cu

来自：帮助中心

查看更多 →
实施步骤

化解决方案的场景下，天宽也会开发自定义评测脚本，确保评测方案能够全面覆盖项目的特殊需求，实现对模型表现的全方位评估和优化。通过这一系统化的评测流程，天宽确保模型能够在实际业务中达到最佳性能。图9 精度对比实施模型能力评测时，首先运行评测测试，执行模型在预设的测试集上的推理，并

来自：帮助中心

查看更多 →
版本说明和要求

├──build.sh # 安装量化模块的脚本 ├──llm_evaluation # 推理评测代码包 ├──benchmark_tools #性能评测 ├── benchmark.py # 可以基于默认的参数跑完静态benchmark和动态benchmark

来自：帮助中心

查看更多 →
仿真服务简介

保存等操作。算法管理：用于对接客户的上云算法，并支持算法的版本级管理，并可自动化触发关联的批量算法。评测管理：支持内置评测配置和自定义评测镜像，对仿真任务中的算法展开评测。场景管理：包含场景、场景库、逻辑场景、逻辑场景库、测试用例、测试套件等。支持页面上传、泛化、在线仿真编

来自：帮助中心

查看更多 →
支持云审计的关键操作

downloadAlgorithmMeta 创建评测镜像 octopus createSimEvaluationImages 更新评测镜像 octopus updateSimEvaluationImages 删除评测镜像 octopus deleteSimEvaluationImages 创建评测 octopus

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如c

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如c

来自：帮助中心

查看更多 →
推理精度测试

max_workers：请求的最大线程数，默认为1。 service_name：服务名称，保存评测结果时创建目录，示例为：llama2-13b-chat-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：成功部署推理

来自：帮助中心

查看更多 →
准备代码

├──llm_tools #推理工具包 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval # 精度评测 ├── config ├── config.json

来自：帮助中心

查看更多 →
版本说明和要求

├──build.sh # 安装量化模块的脚本 ├──llm_evaluation # 推理评测代码包 ├──benchmark_tools #性能评测 ├── benchmark.py # 可以基于默认的参数跑完静态benchmark和动态benchmark

来自：帮助中心

查看更多 →
推理精度测试

max_workers：请求的最大线程数，默认为1。 service_name：服务名称，保存评测结果时创建目录，示例为：qwen-14b-test。 eval_dataset：评测使用的评测集（枚举值），目前仅支持mmlu、ceval。 service_url：服务接口地址，若服务

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如ceval_gen、mmlu_gen

来自：帮助中心

查看更多 →
推理精度测试

是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batch_size：输入的batch_size大小，不影响精度，只影响得到结果速度。 eval_datasets：评测数据集和评测方法，比如ceval_gen、mmlu_gen

来自：帮助中心

查看更多 →
制作仿真镜像

制作仿真镜像自定义评测镜像制作与datahub对接的算法镜像制作评测算法的自研proto接口父主题：镜像仓库

来自：帮助中心

查看更多 →
仿真服务快速入门

仿真服务快速入门流程指引步骤一：创建镜像仓库步骤二：创建仿真算法步骤三：创建评测步骤四：创建仿真场景步骤五：创建仿真任务步骤六：查看仿真评测结果

来自：帮助中心

查看更多 →
主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901）

NPU推理指导（6.5.901） Ascend-vLLM介绍支持的模型列表版本说明和要求推理服务部署推理关键特性使用推理服务精度评测推理服务性能评测附录父主题： LLM大语言模型训练推理

来自：帮助中心

查看更多 →
云服务器规划

云服务器规划 SAP云服务器规格在申请SAP E CS 之前，请参考SAP标准Sizing方法进行SAPS值评估，并根据Sizing结果申请云端ECS服务器资源，详细信息请参考SAP Quick Sizer。 SAP 各组件最低硬盘空间、 RAM ，以及软件的最低需求请参考SAP官方文档SAP

来自：帮助中心

查看更多 →