基于PyTorch NPU快速部署开源大模型

基于PyTorch NPU快速部署开源大模型

    开源基于规则的推理引擎 更多内容
  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.909)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 使用llm-compressor工具量化 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.910)

    来自:帮助中心

    查看更多 →

  • GPT-2基于Server适配PyTorch GPU的训练推理指导

    Megatron-LM是一个用于大规模语言建模模型。它基于GPT(Generative Pre-trained Transformer)架构,这是一种基于自注意力机制神经网络模型,广泛用于 自然语言处理 任务,如文本生成、 机器翻译 和对话系统等。 DeepSpeed是开源加速深度学习训练库。它针对大规模模型和分布

    来自:帮助中心

    查看更多 →

  • 规则引擎(联通用户专用)

    设备:表示满足条件数据是由单个设备上报到平台。 设备类型:表示满足条件数据是由选择某一设备类型设备上报到平台。 设备群组:表示满足条件数据是由所选设备群组设备上报到平台。 选择设备模型:选择满足条件后上报数据设备模型。选择设备模型后需要选择对应服务类型,并设置上报数据的规则。

    来自:帮助中心

    查看更多 →

  • Wav2Lip推理基于DevServer适配PyTorch NPU推理指导(6.3.907)

    入语音匹配视频,俗称“对口型”。该技术主要作用就是在将音频与图片、音频与视频进行合成时,口型能够自然。 方案概览 本方案介绍了在ModelArtsDevServer上使用昇腾计算资源部署Wav2Lip模型用于推理详细过程。完成本方案部署,需要先联系您所在企业华为方技术支持购买DevServer资源。

    来自:帮助中心

    查看更多 →

  • 在推理生产环境中部署推理服务

    vcache空间。不同模型推理支持max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持max-model-len长度说明。 --gpu-memory-utilization:NPU使用显存比例,复用原vLLM入参名称,默认为0

    来自:帮助中心

    查看更多 →

  • 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)

    主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理

    来自:帮助中心

    查看更多 →

  • 附录:大模型推理常见问题

    max_model_len 解决方法: 修改config.json文件中"seq_length"值,"seq_length"需要大于等于 --max-model-len值。 config.json存在模型对应路径下,例如:/data/nfs/benchmark/tokeniz

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)

    来自:帮助中心

    查看更多 →

  • 支持主流开发语言

    内置多款开源工具与自研引擎一起提供丰富检查规则(9000+)。 梳理各类场景需要,内置全面检查规则集、关键检查规则集、移动领域规则集、华为编程规范规则集等50+规则集,便于用户开箱即用。更多规则集详情,请参见代码检查规则集列表。 用户也可基于规则库定制满足场景专项需求检查规则集

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.910)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)

    来自:帮助中心

    查看更多 →

  • 第三方推理框架迁移到ModelArts Standard推理自定义引擎

    e等多种推理引擎后端,并且支持多模型并发、动态batch等功能,能够提高GPU使用率,改善推理服务性能。 当从第三方推理框架迁移到使用ModelArts推理模型管理和服务管理时,需要对原生第三方推理框架镜像构建方式做一定改造,以使用ModelArts推理平台模型版本管

    来自:帮助中心

    查看更多 →

  • 昇腾云服务6.3.905版本说明

    SDXL基于Standard适配PyTorch NPUFinetune高性能训练指导 SDXL基于DevServer适配PyTorch NPUFinetune高性能训练指导 SDXL基于DevServer适配PyTorch NPULoRA训练指导 Open-Sora基于DevServer适配PyTorch

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 使用llm-compressor工具量化 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.911)

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.906)

    来自:帮助中心

    查看更多 →

  • 基于NCAD几何处理引擎处理几何数据应用

    基于NCAD几何处理引擎处理几何数据应用 方案概述 资源和成本规划 实施步骤 附录 文档修订历史

    来自:帮助中心

    查看更多 →

  • 推理模型量化

    推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.910)

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了