机器学习实现推理_准备推理环境-华为云

准备推理环境

准备推理环境前提条件已准备Lite Server资源，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。

来自：帮助中心

查看更多 →
推理精度测试

推理精度测试本章节介绍如何进行推理精度测试，请在Notebook的JupyterLab中另起一个Terminal，进行推理精度测试。 Step1 配置精度测试环境获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中，代码目录结构如下。

来自：帮助中心

查看更多 →
推理场景介绍

Snt9B。如果使用Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

来自：帮助中心

查看更多 →
推理精度测试

推理精度测试本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。约束限制确保容器可以访问公网。当前的精度测试仅适用于语言模型精度验证

来自：帮助中心

查看更多 →
推理场景介绍

ion上的资源和Ascend Snt9B。如果使用Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169

来自：帮助中心

查看更多 →
推理精度测试

来进行ppl精度测试。本质上使用transformers进行推理，因为没有框架的优化，执行时间最长。另一方面，由于是使用transformers推理，结果也是最稳定的。对单卡运行的模型比较友好，算力利用率比较高。对多卡运行的推理，缺少负载均衡，利用率低。在昇腾卡上执行时，需要在

来自：帮助中心

查看更多 →
推理场景介绍

gion上的资源和Ascend Snt9B。如果使用Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169

来自：帮助中心

查看更多 →
推理场景介绍

Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23

来自：帮助中心

查看更多 →
测试机器人

测试机器人操作步骤选择“配置中心>机器人管理>流程配置”，进入流程配置界面。选择“智能机器人”。在需要测试的接入码最后一列单击“呼叫测试”。在弹出的测试对话窗口中单击“开始呼叫”，开始测试机器人。图1 测试机器人父主题：配置一个预约挂号机器人（任务型对话机器人）

来自：帮助中心

查看更多 →
配置机器人跟踪

配置机器人跟踪前提条件存在已发布的IVR流程且配有转移图元。操作步骤以租户管理员角色登录AICC，选择“配置中心 > 机器人管理>流程配置 ”，进入管理界面。选择“系统管理>系统设置”界面，选择跟踪设置页签。机器人跟踪单击“”，进入机器人跟踪配置页面。选择机器人接入码，单击“确定”，接入码配置完成。

来自：帮助中心

查看更多 →
如何删除机器人

如何删除机器人包周期版本机器人对于包周期计费的智能问答机器人，可执行“退订”操作。登录对话机器人服务管理控制台。在控制台中选择“费用与成本”。进入费用中心页面，在左侧导航栏中选择“订单管理 > 退订与退换货”。图1 退订与退换货在“退订使用中的资源”列表中，选择需要退订的机器人，执行退订操作。

来自：帮助中心

查看更多 →
算法备案公示

网信算备520111252474601240045号算法基本原理分身数字人驱动算法是指通过深度学习生成数字人驱动模型，模型生成后，输入音频来合成数字人视频的一种技术。其基本情况包括：输入数据：真人视频、音频。算法原理：通过深度学习算法来学习真人视频，生成驱动该真人形象的数字人模型。通过该模型输入音频，合成数字人视频。

来自：帮助中心

查看更多 →
（停止维护）Kubernetes 1.13版本说明

CCE集群支持创建裸金属节点（容器隧道网络）支持AI加速型节点（搭载海思Ascend 310 AI处理器），适用于图像识别、视频处理、推理计算以及机器学习等场景支持配置docker baseSize 支持命名空间亲和调度支持节点数据盘划分用户空间支持集群cpu管理策略支持集群下的节点跨子网（容器隧道网络）

来自：帮助中心

查看更多 →
基本概念

芯片的技能。 HiLens Kit 华为HiLens开发套件。也可以专门代表集成了华为海思昇腾芯片，高性能推理能力，支持基于深度学习技术，实现图像、视频的分析、推理的智能推理摄像机，帮助用户快速安装、部署多种AI技能。 HiLens Framework 封装基础开发组件，为开发者

来自：帮助中心

查看更多 →
产品术语

提供AI模型的交易市场，是AI消费者接触NAIE云服务的线上门户，是AI消费者对已上架的AI模型进行查看、试用、订购、下载和反馈意见的场所。 AI引擎可支持用户进行机器学习、深度学习、模型训练的框架，如Tensorflow、Spark MLlib、MXNet、PyTorch、华为自研AI框架MindSpore等。

来自：帮助中心

查看更多 →
GS_OPT_MODEL

间预测功能时的数据表，记录机器学习模型的配置、训练结果、功能、对应系统函数、训练历史等相关信息。表1 GS_OPT_MODEL字段名称类型描述 template_name name 机器学习模型的模板名，决定训练和预测调用的函数接口，目前只实现了rlstm，方便后续扩展。

来自：帮助中心

查看更多 →
GS_OPT_MODEL

间预测功能时的数据表，记录机器学习模型的配置、训练结果、功能、对应系统函数、训练历史等相关信息。表1 GS_OPT_MODEL字段名称类型描述 template_name name 机器学习模型的模板名，决定训练和预测调用的函数接口，目前只实现了rlstm，方便后续扩展。

来自：帮助中心

查看更多 →
Standard Workflow

Workflow是开发者基于实际业务场景开发用于部署模型或应用的流水线工具，核心是将完整的机器学习任务拆分为多步骤工作流，每个步骤都是一个可管理的组件，可以单独开发、优化、配置和自动化。Workflow有助于标准化机器学习模型生成流程，使团队能够大规模执行AI任务，并提高模型生成的效率。 ModelArts

来自：帮助中心

查看更多 →
W8A8量化

or粒度量化。参考启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 使用llm-compressor工具量化Deepseek-v2系列模型本章节介绍如何在GPU的机器上使用开源量化工具llm-

来自：帮助中心

查看更多 →
使用GPTQ量化

能收益。 GPTQ W8A16量化支持的模型请参见表1。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库： pip install auto-gptq

来自：帮助中心

查看更多 →
使用GPTQ量化

能收益。 GPTQ W8A16量化支持的模型请参见表3。本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库： pip install auto-gptq

来自：帮助中心

查看更多 →