自助服务

华为云自助服务为用户提供产品常见问题,自助工具,便捷服务入口,帮助您更加方便、快捷的使用云服务

    规则推理引擎工具 更多内容
  • 推理场景介绍

    # 推理构建脚本 ├── vllm_install.patch # 社区昇腾适配的补丁包 ├──llm_tools # 推理工具包 ├──AutoSmoothQuant # W8A8量化工具

    来自:帮助中心

    查看更多 →

  • 推理精度测试

    推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。

    来自:帮助中心

    查看更多 →

  • 在推理生产环境中部署推理服务

    推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。

    来自:帮助中心

    查看更多 →

  • 工具

    华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档,帮助您快速上手使用华为云服务。

    来自:帮助中心

    查看更多 →

  • 工具

    工具 SQL诊断 SQL探针 表诊断 智能分布列推荐 父主题: 数据库监控(DMS)

    来自:帮助中心

    查看更多 →

  • 官方案例列表

    - 此案例介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是MindSpore,训练使用的资源是NPU。 推理部署(基础教程) 表4 推理部署列表 样例 镜像 对应功能 场景 说明 基于ModelArts Standard一键完成商超商品识别模型部署

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.906)

    来自:帮助中心

    查看更多 →

  • 推理基础镜像介绍

    推理基础镜像介绍 推理基础镜像列表 推理基础镜像详情TensorFlow(CPU/GPU) 推理基础镜像详情Pytorch(CPU/GPU) 推理基础镜像详情MindSpore(CPU/GPU) 父主题: 使用预置镜像

    来自:帮助中心

    查看更多 →

  • 基础支撑系统

    包含数据管理、模型管理部署、在线推理、批量推理、工作流引擎平台、AI算法模型资产管理等功能模块,并配置管理标书中给定规模的AI推理资源。 整体系统:系统采用B/S架构,无需安装插件,无需下载客户端 AI应用模型管理:提供管理模型版本变化的能力,记录各版本模型发布时间、模型大小、精度、AI引擎、模型来源

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)

    来自:帮助中心

    查看更多 →

  • 准实时推理场景

    准实时推理场景 本章节介绍什么是准实时推理场景,以及如何使用GPU按量实例和如何基于GPU按量实例构建使用成本较低的准实时推理服务。 特征 在准实时推理应用场景中,工作负载具有以下一个或多个特征: 调用稀疏 日均调用几次到几万次,日均GPU实际使用时长远低于6~10小时,GPU存在大量闲置。

    来自:帮助中心

    查看更多 →

  • ModelArts支持哪些AI框架?

    不同区域支持的AI引擎有差异,请以实际环境为准。 推理支持的AI引擎 在ModelArts创建AI应用时,若使用预置镜像“从模板中选择”或“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。 标注“推荐”的Runtime来源于统一镜像,后续统一镜像将作为主流的推理基础镜像。统

    来自:帮助中心

    查看更多 →

  • 包年/包月

    标准化运维能力 多种灰度策略和规则 说明: 运行时引擎必须依赖运维中心使用,订购运行时引擎必须选择运维中心。运行时引擎实例数量必须和运维中心保持一致。 应用实例数 运行时引擎实例增量包 运行时引擎应用实例数扩展 应用实例数 运营中心专业版 多类型数据源接入 大数据计算引擎 数十种开箱即用指标模板

    来自:帮助中心

    查看更多 →

  • 执行模型推理

    Matrix框架提供AIModelManager类,实现模型加载和推理功能,详情请参考《Matrix API参考》。Matrix框架定义IAITensor类,用于管理模型推理的输入与输出矩阵。为了便于使用,Matrix框架基于IAITensor,派生出了AISimpleTensor和AINeuralNetworkBuffer。模型推理的输

    来自:帮助中心

    查看更多 →

  • 执行模型推理

    Matrix框架提供AIModelManager类,实现模型加载和推理功能,详情请参考《Matrix API参考》。Matrix框架定义IAITensor类,用于管理模型推理的输入与输出矩阵。为了便于使用,Matrix框架基于IAITensor,派生出了AISimpleTensor和AINeuralNetworkBuffer。模型推理的输

    来自:帮助中心

    查看更多 →

  • 部署到推理调试

    部署到推理调试 在开发环境容器内调试完成后,开发者可以将自己开发好的AI应用和ModelBox runtime镜像打包成新的运行镜像,并发布到ModelArts推理服务,直接测试部署的服务并查看日志,以确保开发好的AI应用可以在ModelArts推理平台正常运行。具体调试步骤如下:

    来自:帮助中心

    查看更多 →

  • 查询推理服务标签

    查询推理服务标签 功能介绍 查询当前项目下的推理服务标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在 API Explorer 中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1

    来自:帮助中心

    查看更多 →

  • 推理部署计费项

    推理部署计费项 计费说明 在ModelArts进行服务部署时,会产生计算资源和存储资源的累计值计费。计算资源为运行推理服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。

    来自:帮助中心

    查看更多 →

  • 推理服务访问公网

    推理服务访问公网 本章节提供了推理服务访问公网的方法。 应用场景 推理服务访问公网地址的场景,如: 输入图片,先进行公网OCR服务调用,然后进行NLP处理; 进行公网文件下载,然后进行分析; 分析结果回调给公网服务终端。 方案设计 从推理服务的算法实例内部,访问公网服务地址的方案。如下图所示:

    来自:帮助中心

    查看更多 →

  • 什么是ModelArts

    ModelArts的产品形态包含以下几种: ModelArts Standard:面向AI开发全流程,构建端到端的模型生产工具链,实现高效、易用的AI开发、训练和推理。提供数据管理、模型开发与训练、推理部署、开发工具链等功能,实现AI全流程生命周期管理。 ModelArts Lite:包含弹性裸金属和弹性集群

    来自:帮助中心

    查看更多 →

  • ModelArts支持哪些AI框架?

    不同区域支持的AI引擎有差异,请以实际环境为准。 推理支持的AI引擎 在ModelArts创建AI应用时,若使用预置镜像“从模板中选择”或“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。 标注“推荐”的Runtime来源于统一镜像,后续统一镜像将作为主流的推理基础镜像。统

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了