AI开发平台ModelArts
AI开发平台ModelArts

    本产品内“”的所有结果

      本产品内“”的所有结果

      • 最新动态
      • 功能总览
      • 服务公告
        • ModelArts产品发布公告
        • ModelArts版本发布说明
          • ModelArts版本配套关系表
          • ModelArts产品HDK版本策略
          • ModelArts容器镜像EOS公告
          • ModelArts标准算力集群(Standard Cluster)的Kubernetes版本策略
          • ModelArts轻量算力集群(Lite Cluster)/标准算力集群(Standard Cluster)节点操作系统版本配套关系表
        • 昇腾云版本发布说明
          • 昇腾云服务6.5.906版本说明
          • 昇腾云服务6.5.906.1版本说明
          • 历史发布版本
            • 昇腾云服务6.5.905版本说明
            • 昇腾云服务6.5.902版本说明
            • 昇腾云服务6.5.901版本说明
            • 昇腾云服务6.3.912版本说明
            • 昇腾云服务6.3.911版本说明
            • 昇腾云服务6.3.910版本说明
            • 昇腾云服务6.3.909版本说明
        • ModelArts产品变更公告
          • 网络调整公告
          • 预测API的域名停用公告
        • ModelArts Studio(MaaS)模型发布公告
      • 产品介绍
        • 图解ModelArts
          • 初识ModelArts
          • 初识Workflow
        • 什么是ModelArts
        • ModelArts业务选型
        • 产品优势
        • 应用场景
        • 功能介绍
          • Standard功能介绍
            • Standard Workflow
            • Standard数据管理
            • Standard开发环境
            • Standard模型训练
            • Standard模型部署
            • Standard资源管理
            • Standard支持的AI框架
          • MaaS大模型即服务平台功能介绍
          • Lite Cluster&Server介绍
          • AI Gallery功能介绍
        • AI开发基础知识
          • AI开发基本流程介绍
          • ModelArts中常用概念
        • 安全
          • 责任共担
          • 资产识别与管理
          • 身份认证与访问控制
          • 数据保护技术
          • 审计与日志
          • 服务韧性
          • 监控安全风险
          • 故障恢复
          • 更新管理
          • 认证证书
          • 安全边界
        • 约束与限制
        • 权限管理
        • 与其他云服务的关系
        • 计费说明
        • 配额与限制
      • 计费说明
        • 计费概述
        • 计费模式
          • ModelArts计费模式概述
          • 包年/包月
          • 按需计费
        • 计费项(ModelArts Standard)
          • Workflow计费项
          • 数据管理计费项
          • 开发环境计费项
          • 模型训练计费项
          • 模型管理计费项
          • 推理部署计费项
          • 专属资源池计费项
        • 计费项(ModelArts Studio)
          • ModelArts Studio(MaaS)模型服务价格
            • ModelArts Studio(MaaS)文本对话模型
            • ModelArts Studio(MaaS)视频生成模型
            • ModelArts Studio(MaaS)图片生成模型
            • ModelArts Studio(MaaS)图像理解模型
          • ModelArts Studio(MaaS)模型推理计费项
          • ModelArts Studio(MaaS)模型调优计费项
          • ModelArts Studio(MaaS)模型压缩计费项
        • 计费样例
        • 变更计费模式
        • 续费
          • 续费概述
          • 手动续费
          • 自动续费
        • 费用账单
        • 欠费说明
        • 停止计费
        • 成本管理
        • 计费FAQ
          • 如何查看ModelArts中正在收费的作业?
          • 如何查看ModelArts消费详情?
          • 如果不再使用ModelArts,如何停止收费?
          • ModelArts Standard数据管理相关计费FAQ
          • ModelArts标注完样本集后,如何保证退出后不再产生计费?
          • 训练作业如何收费?
          • 为什么项目删除完了,仍然还在计费?
          • 欠费后,ModelArts的资源是否会被删除?
          • ModelArts Standard训练作业和模型部署如何收费?
        • 历史文档待下线
          • 套餐包
      • 快速入门
        • ModelArts入门指引
        • 使用ModelArts Studio(MaaS)的DeepSeek-R1模型框架实现对话问答
        • 使用ModelArts Studio(MaaS)的Qwen2-7B模型框架实现对话问答
        • 使用ModelArts Standard自定义算法实现手写数字识别
        • 使用ModelArts Standard一键完成商超商品识别模型部署
        • ModelArts入门实践
      • ModelArts Studio(MaaS)用户指南
        • ModelArts Studio(MaaS)使用场景和使用流程
        • 配置ModelArts Studio(MaaS)访问授权
          • 创建IAM用户并授权使用ModelArts Studio(MaaS)
          • 配置ModelArts委托授权以使用ModelArts Studio(MaaS)
          • 配置用户缺失的ModelArts Studio(MaaS)相关服务权限
        • 准备ModelArts Studio(MaaS)资源
        • ModelArts Studio(MaaS)在线推理服务
          • 在ModelArts Studio(MaaS)模型广场查看预置模型
          • 在ModelArts Studio(MaaS)预置服务中体验免费服务
          • 在ModelArts Studio(MaaS)预置服务中开通商用服务
          • 在ModelArts Studio(MaaS)预置服务中创建自定义接入点
          • 使用ModelArts Studio(MaaS)部署模型服务
          • 在ModelArts Studio(MaaS)管理我的服务
            • 在ModelArts Studio(MaaS)启动/停止/删除服务
            • 在ModelArts Studio(MaaS)扩缩容模型服务实例数
            • 在ModelArts Studio(MaaS)修改模型服务QPS
            • 在ModelArts Studio(MaaS)升级模型服务
          • 调用ModelArts Studio(MaaS)部署的模型服务
          • ModelArts Studio(MaaS) API调用规范
            • 对话Chat/POST
            • 图片生成
            • 视频生成
              • 创建视频生成任务
              • 查询视频生成任务
            • 获取模型列表Models/GET
            • 错误码
          • 使用ModelArts Studio(MaaS)创建多轮对话
        • ModelArts Studio(MaaS)在线体验
          • 在ModelArts Studio(MaaS)体验文本对话
          • 在ModelArts Studio(MaaS)体验图像理解
          • 在ModelArts Studio(MaaS)体验图片生成
          • 在移动端体验ModelArts Studio(MaaS)文本对话
        • ModelArts Studio(MaaS)模型管理
          • 在ModelArts Studio(MaaS)创建模型
          • 使用ModelArts Studio(MaaS)压缩模型
        • ModelArts Studio(MaaS)模型训练
          • 使用ModelArts Studio(MaaS)调优模型
        • ModelArts Studio(MaaS)应用中心
          • ModelArts Studio(MaaS)应用管理
            • ModelArts Studio(MaaS)应用广场概述
            • 在ModelArts Studio(MaaS)应用广场一键复制应用
            • 在ModelArts Studio(MaaS)应用管理创建应用
          • ModelArts Studio(MaaS)MCP管理
            • ModelArts Studio(MaaS)MCP概述
            • 在ModelArts Studio(MaaS)MCP广场开通预置MCP服务
            • 在ModelArts Studio(MaaS)创建自定义MCP服务
          • 在ModelArts Studio(MaaS)应用体验中心查看应用解决方案
        • ModelArts Studio(MaaS)管理与统计
          • 在ModelArts Studio(MaaS)管理API Key
          • 查看ModelArts Studio(MaaS)调用数据和监控指标
            • 在ModelArts Studio(MaaS)查看在线推理的调用数据和监控指标
            • 在CES查看ModelArts Studio(MaaS)调用数据和监控指标
        • ModelArts Studio(MaaS)模型能力
          • 在ModelArts Studio(MaaS)中通过Function Calling扩展大语言模型交互能力
            • Function Calling介绍
            • 在Dify中配置支持Function Calling的模型使用
            • 通过Function Calling扩展大语言模型对外部环境的理解
        • ModelArts Studio(MaaS)业务最佳实践
          • 使用ModelArts Studio(MaaS) DeepSeek API搭建AI应用
      • ModelArts Standard用户指南
        • ModelArts Standard使用流程
        • ModelArts Standard准备工作
          • 配置ModelArts Standard访问授权
            • 快速配置ModelArts委托授权
            • 创建IAM用户并授权使用ModelArts
          • 创建并管理工作空间
          • 创建OBS桶用于ModelArts存储数据
        • ModelArts Standard资源管理
          • Standard资源池功能介绍
          • 创建Standard专属资源池
          • 管理Standard专属资源池
            • 查看Standard专属资源池详情
            • 扩缩容Standard专属资源池
            • 升级Standard专属资源池驱动
            • 修复Standard专属资源池故障节点
            • 修改Standard专属资源池支持的作业类型
            • 迁移Standard专属资源池和网络至其他工作空间
            • 配置Standard专属资源池可访问公网
            • 使用TMS标签实现资源分组管理
            • 管理Standard专属资源池的逻辑子池
            • 删除Standard专属资源池和网络
          • 管理Standard专属资源池插件
            • Standard专属资源池插件概述
            • 节点故障检测(ModelArts Node Agent)
            • 指标监控插件(ModelArts Metric Collector)
            • AI套件(NV GPU)
            • AI套件(ModelArts Device Plugin)
            • Volcano调度器(Volcano Scheduler)
            • 节点本地域名解析加速(NodeLocal DNSCache)
            • 云原生日志采集插件
            • 云原生监控插件(kube-prometheus-stack)
        • 使用自动学习实现零代码AI开发
          • 自动学习简介
          • 使用自动学习实现图像分类
            • 准备图像分类数据
            • 创建图像分类项目
            • 标注图像分类数据
            • 训练图像分类模型
            • 部署图像分类服务
          • 使用自动学习实现物体检测
            • 准备物体检测数据
            • 创建物体检测项目
            • 标注物体检测数据
            • 训练物体检测模型
            • 部署物体检测服务
          • 使用自动学习实现预测分析
            • 准备预测分析数据
            • 创建预测分析项目
            • 训练预测分析模型
            • 部署预测分析服务
          • 使用自动学习实现声音分类
            • 准备声音分类数据
            • 创建声音分类项目
            • 标注声音分类数据
            • 训练声音分类模型
            • 部署声音分类服务
          • 使用自动学习实现文本分类
            • 准备文本分类数据
            • 创建文本分类项目
            • 标注文本分类数据
            • 训练文本分类模型
            • 部署文本分类服务
          • 使用窍门
            • 创建项目时,如何快速创建OBS桶及文件夹?
            • 自动学习生成的模型,存储在哪里?支持哪些其他操作?
        • 使用Workflow实现低代码AI开发
          • 什么是Workflow
          • 运行第一条Workflow
          • 管理Workflow
            • 查找Workflow工作流
            • 查看Workflow工作流运行记录
            • 管理Workflow工作流
            • 重试/停止/运行Workflow节点
          • 开发第一条Workflow
          • 开发Workflow命令参考
            • 开发Workflow的核心概念介绍
            • 配置Workflow参数
            • 配置Workflow的输入输出目录
            • 创建Workflow节点
              • 创建Workflow数据集节点
              • 创建Workflow数据集标注节点
              • 创建Workflow数据集导入节点
              • 创建Workflow数据集版本发布节点
              • 创建Workflow训练作业节点
              • 创建Workflow模型注册节点
              • 创建Workflow服务部署节点
            • 构建Workflow多分支运行场景
              • Workflow多分支运行介绍
              • 构建条件节点控制分支执行
              • 配置节点参数控制分支执行
              • 配置多分支节点数据
            • 编排Workflow
            • 发布Workflow
              • 发布Workflow到ModelArts
              • 发布Workflow到AI Gallery
            • 在Workflow中更新已部署的服务
            • Workflow高阶能力
              • 在Workflow中使用大数据能力(MRS)
              • 在Workflow中指定仅运行部分节点
        • 使用Notebook进行AI开发调试
          • Notebook使用场景
          • 创建Notebook实例(默认页面)
          • 创建Notebook实例(新版页面)
          • 管理Notebook实例
            • 查找Notebook实例
            • 更新Notebook实例
            • 启动/停止/删除实例
            • 保存Notebook实例
            • 动态扩充云硬盘EVS容量
            • 动态挂载OBS并行文件系统
            • 查看Notebook实例事件
            • Notebook Cache盘告警上报
          • 通过JupyterLab在线使用Notebook实例
            • 使用JupyterLab在线开发和调试代码
            • JupyterLab常用功能介绍
            • 在JupyterLab使用Git克隆代码仓
            • 在JupyterLab中创建定时任务
            • 上传文件至JupyterLab
              • 上传本地文件至JupyterLab
              • 克隆GitHub开源仓库文件到JupyterLab
              • 上传OBS文件到JupyterLab
              • 上传远端文件至JupyterLab
            • 下载JupyterLab文件到本地
            • 在JupyterLab中使用TensorBoard可视化作业
          • 通过PyCharm远程使用Notebook实例
            • 使用PyCharm Toolkit插件连接Notebook
            • 使用PyCharm手动连接Notebook
            • 使用PyCharm上传数据至Notebook
          • 通过VS Code远程使用Notebook实例
            • VS Code连接Notebook方式介绍
            • VS Code一键连接Notebook
            • VS Code ToolKit连接Notebook
            • VS Code手动连接Notebook
            • 在VS Code中上传下载文件
          • 通过SSH工具远程使用Notebook
          • 使用CodeLab免费体验Notebook
          • ModelArts CLI命令参考
            • ModelArts CLI命令功能介绍
            • (可选)本地安装ma-cli
            • ma-cli auto-completion自动补全命令
            • ma-cli configure鉴权命令
            • ma-cli image镜像构建支持的命令
            • ma-cli ma-job训练作业支持的命令
            • ma-cli dli-job提交DLI Spark作业支持的命令
            • 使用ma-cli obs-copy命令复制OBS数据
          • 在Notebook中使用MoXing命令
            • MoXing Framework功能介绍
            • Notebook中快速使用MoXing
            • mox.file与本地接口的对应关系和切换
            • MoXing常用操作的样例代码
            • MoXing进阶用法的样例代码
        • 数据准备与处理
          • 数据准备使用流程
          • 创建ModelArts数据集
          • 导入数据到ModelArts数据集
            • 数据导入方式介绍
            • 从OBS导入数据到ModelArts数据集
              • 从OBS导入数据到数据集场景介绍
              • 从OBS目录导入数据到数据集
              • 从Manifest文件导入数据到数据集
              • 从OBS目录导入数据规范说明
              • 从Manifest文件导入规范说明
            • 从DWS导入数据到ModelArts数据集
            • 从DLI导入数据到ModelArts数据集
            • 从MRS导入数据到ModelArts数据集
            • 从本地上传数据到ModelArts数据集
          • 处理ModelArts数据集中的数据
            • 数据处理场景介绍
            • 创建ModelArts数据校验任务
            • 创建ModelArts数据清洗任务
            • 创建ModelArts数据选择任务
            • 创建ModelArts数据增强任务
            • 管理和查看数据处理任务
          • 标注ModelArts数据集中的数据
            • 数据标注场景介绍
            • 通过人工标注方式标注数据
              • 创建ModelArts人工标注作业
              • 人工标注图片数据
              • 人工标注文本数据
              • 人工标注音频数据
              • 人工标注视频数据
              • 管理标注数据
            • 通过智能标注方式标注数据
              • 创建智能标注作业
              • 确认智能标注作业的数据难例
              • 使用自动分组智能标注作业
            • 通过团队标注方式标注数据
              • 团队标注使用说明
              • 创建和管理团队
              • 创建团队标注任务
              • 审核并验收团队标注任务结果
              • 管理团队和团队成员
            • 管理标注作业
          • 发布ModelArts数据集中的数据版本
          • 分析ModelArts数据集中的数据特征
          • 导出ModelArts数据集中的数据
            • 导出ModelArts数据集中的数据到OBS
            • 导出ModelArts数据集中的数据为新数据集
            • 导出ModelArts数据集中的数据到AI Gallery
            • 入门案例:快速创建一个物体检测的数据集
        • 使用ModelArts Standard训练模型
          • 模型训练使用流程
          • 准备模型训练代码
            • 预置框架启动文件的启动流程说明
            • 开发用于预置框架训练的代码
            • 开发用于自定义镜像训练的代码
            • 自定义镜像训练作业配置实例间SSH免密互信
          • 准备模型训练镜像
          • 创建调试训练作业
            • 使用JupyterLab创建并调试训练作业
            • 使用PyCharm ToolKit创建并调试训练作业
            • 使用VS Code创建并调试训练作业
          • 创建算法
          • 创建生产训练作业
          • 创建生产训练作业(新版页面)
          • 分布式模型训练
            • 分布式训练功能介绍
            • 创建单机多卡的分布式训练(DataParallel)
            • 创建多机多卡的分布式训练(DistributedDataParallel)
            • 示例:创建DDP分布式训练(PyTorch+GPU)
            • 示例:创建DDP分布式训练(PyTorch+NPU)
          • 模型训练存储加速
          • 训练作业动态路由加速
          • 增量模型训练
          • 自动模型优化(AutoSearch)
            • 自动模型优化介绍
            • 创建自动模型优化的训练作业
          • 模型训练高可靠性
            • 训练作业容错检查
            • 训练日志失败分析
            • 训练作业卡死检测
            • 训练作业卡死重启
            • 设置断点续训练
            • 设置无条件自动重启
          • 超节点亲和组实例数配置
          • 管理模型训练作业
            • 查看训练作业详情
            • 训练作业流程可视化
            • 查看训练作业资源占用情况
            • 查看模型评估结果
            • 查看训练作业事件
            • 查看训练作业日志
            • 修改训练作业优先级
            • 使用Cloud Shell调试生产训练作业
            • 保存调试模式训练作业镜像
            • 复制、停止或删除训练作业
            • 管理训练容器环境变量
            • 查看训练作业标签
            • 管理训练实验
            • 查看训练作业监控指标
        • 使用ModelArts Standard部署模型并推理预测
          • 推理部署使用场景
          • 创建模型
            • 创建模型不同方式的场景介绍
            • 从训练作业中导入模型文件创建模型
            • 从OBS中导入模型文件创建模型
            • 从容器镜像中导入模型文件创建模型
            • 从AI Gallery订阅模型
          • 创建模型规范参考
            • 模型包结构介绍
            • 模型配置文件编写说明
            • 模型推理代码编写说明
            • 自定义引擎创建模型规范
            • 自定义脚本代码示例
          • 将模型部署为实时推理作业
            • 实时推理的部署及使用流程
            • 部署模型为在线服务
            • 访问在线服务支持的认证方式
              • 通过Token认证的方式访问在线服务
              • 通过AK/SK认证的方式访问在线服务
              • 通过APP认证的方式访问在线服务
            • 访问在线服务支持的访问通道
              • 通过公网访问通道的方式访问在线服务
              • 通过VPC访问通道的方式访问在线服务
              • 通过VPC高速访问通道的方式访问在线服务
            • 访问在线服务支持的传输协议
              • 使用WebSocket协议的方式访问在线服务
              • 使用Server-Sent Events协议的方式访问在线服务
          • 将模型部署为批量推理服务
          • 管理ModelArts模型
            • 查看ModelArts模型详情
            • 查看ModelArts模型事件
            • 管理ModelArts模型版本
            • 发布ModelArts模型
          • 管理同步在线服务
            • 查看在线服务详情
            • 查看在线服务的事件
            • 管理在线服务生命周期
            • 修改在线服务配置
            • 在云监控平台查看在线服务性能指标
            • 集成在线服务API至生产环境中应用
            • 设置在线服务故障自动重启
          • 管理批量推理作业
            • 查看批量服务详情
            • 查看批量服务的事件
            • 管理批量服务生命周期
            • 修改批量服务配置
        • 制作自定义镜像用于ModelArts Standard
          • 自定义镜像使用场景
          • ModelArts支持的预置镜像列表
            • ModelArts预置镜像更新说明
            • ModelArts统一镜像列表
            • Notebook专属预置镜像列表
            • 训练专属预置镜像列表
            • 推理专属预置镜像列表
          • 制作自定义镜像用于创建Notebook
            • Notebook的自定义镜像制作方法
            • 在ECS上构建自定义镜像并在Notebook中使用
            • 在Notebook中通过Dockerfile从0制作自定义镜像
            • 在Notebook中通过镜像保存功能制作自定义镜像
          • 制作自定义镜像用于训练模型
            • 训练作业的自定义镜像制作流程
            • 使用预置镜像制作自定义镜像用于训练模型
            • 已有镜像迁移至ModelArts用于训练模型
            • 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend)
            • 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
            • 从0制作自定义镜像用于创建训练作业(MPI+CPU/GPU)
            • 从0制作自定义镜像用于创建训练作业(Tensorflow+GPU)
            • 从0制作自定义镜像用于创建训练作业(MindSpore+Ascend)
          • 制作自定义镜像用于推理
            • 模型的自定义镜像制作流程
            • 在Notebook中通过镜像保存功能制作自定义镜像用于推理
            • 在Notebook中通过Dockerfile从0制作自定义镜像用于推理
            • 在ECS中通过Dockerfile从0制作自定义镜像用于推理
        • ModelArts Standard资源监控
          • ModelArts Standard资源监控概述
          • 在ModelArts控制台查看监控指标
          • 在AOM控制台查看ModelArts所有监控指标
          • 使用Grafana查看AOM中的监控指标
            • 安装配置Grafana
              • 在Windows上安装配置Grafana
              • 在Linux上安装配置Grafana
              • 在Notebook上安装配置Grafana
            • 配置Grafana数据源
            • 配置仪表盘查看指标数据
        • 使用CTS审计ModelArts Standard服务
          • ModelArts Standard支持云审计的关键操作
          • 查看ModelArts Standard相关审计日志
      • ModelArts Lite Server用户指南
        • Lite Server使用前必读
          • Lite Server使用流程
          • Lite Server高危操作一览表
          • Lite Server算力资源和镜像版本配套关系
        • Lite Server资源开通(旧版页面)
        • Lite Server资源开通(新版页面)
        • Lite Server资源配置
          • Lite Server资源配置流程
          • 配置Lite Server网络
          • 配置Lite Server存储
          • 配置Lite Server软件环境
            • NPU服务器上配置Lite Server资源软件环境
        • Lite Server资源使用
          • LLM/AIGC/数字人基于Server适配NPU的训练推理指导
          • NPU日志收集上传
          • GPU日志收集上传
        • Lite Server资源管理
          • 查看Lite Server服务器详情
          • 启动或停止Lite Server服务器
          • 同步Lite Server服务器状态
          • 切换或重置Lite Server服务器操作系统
          • 制作Lite Server服务器操作系统
          • Lite Server资源热备管理
          • 修改Lite Server服务器名称
          • 授权修复Lite Server节点
        • Lite Server插件管理
          • 安装Lite Server AI插件
          • 升级Lite Server中的昇腾驱动固件版本
          • Lite Server节点故障诊断
          • Lite Server节点一键式压测
        • Lite Server超节点管理
          • Lite Server超节点扩容和缩容
          • Lite Server超节点定期压测
          • 开启超节点HCCL通信算子级重执行机制
        • 监控Lite Server资源
          • 使用CES监控Lite Server单节点NPU资源
          • 使用CES监控Snt9b23超节点健康状况
        • Lite Server管理CloudPond的NPU资源
        • 使用CTS审计Lite Server服务操作
        • 退订Lite Server资源
      • ModelArts Lite Cluster用户指南
        • Lite Cluster使用前必读
          • Lite Cluster使用流程
          • Lite Cluster高危操作一览表
          • 不同机型对应的软件配套版本
        • Lite Cluster资源开通
        • Lite Cluster资源配置
          • Lite Cluster资源配置流程
          • 配置Lite Cluster网络
          • 配置kubectl工具
          • 配置Lite Cluster存储
          • (可选)配置驱动
          • (可选)配置镜像预热
        • Lite Cluster资源使用
          • 在Lite Cluster资源池上使用Snt9B完成分布式训练任务
          • 在Lite Cluster资源池上使用ranktable路由规划完成PyTorch NPU分布式训练
          • 在Lite Cluster资源池上使用Snt9B完成推理任务
          • 在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断
          • 在Lite Cluster挂载SFS Turbo
          • 在Lite Cluster资源池设置并启用高可用冗余节点
          • 在Lite Cluster跨区域访问其他服务
        • Lite Cluster资源管理
          • Lite Cluster资源管理介绍
          • 管理Lite Cluster资源池
          • 管理Lite Cluster节点池
          • 管理Lite Cluster节点
          • 扩缩容Lite Cluster资源池
          • 升级Lite Cluster资源池驱动
          • 升级Lite Cluster资源池单个节点驱动
          • 监控Lite Cluster资源
            • 使用AOM查看Lite Cluster监控指标
            • 使用Prometheus查看Lite Cluster监控指标
          • 释放Lite Cluster资源
        • Lite Cluster插件管理
          • Lite Cluster插件概述
          • 节点故障检测(ModelArts Node Agent)
          • 指标监控插件(ModelArts Metrics Collector)
          • AI套件(ModelArts Device Plugin)
          • Volcano调度器
          • 集群弹性引擎
      • ModelArts用户指南(AI Gallery)
        • AI Gallery(新版)
          • AI Gallery使用流程
          • 发布和管理AI Gallery模型
            • 构建模型
              • 自定义模型规范
              • 自定义镜像规范
              • 使用AI Gallery SDK构建自定义模型
            • 托管模型到AI Gallery
            • 发布模型到AI Gallery
            • 管理AI Gallery模型
          • 发布和管理AI Gallery数据集
            • 托管数据集到AI Gallery
            • 发布数据集到AI Gallery
            • 管理AI Gallery数据集
          • 发布和管理AI Gallery项目
          • 发布和管理AI Gallery镜像
            • 托管镜像到AI Gallery
            • 发布镜像到AI Gallery
            • 管理AI Gallery镜像
          • 发布和管理AI Gallery中的AI应用
            • 发布本地AI应用到AI Gallery
            • 将AI Gallery中的模型部署为AI应用
            • 管理AI Gallery中的AI应用
          • 使用AI Gallery微调大师训练模型
          • 使用AI Gallery在线推理服务部署模型
          • Gallery CLI配置工具指南
            • 安装Gallery CLI配置工具
            • 使用Gallery CLI配置工具下载文件
            • 使用Gallery CLI配置工具上传文件
          • 计算规格说明
        • AI Gallery(旧版)
          • AI Gallery简介
          • 免费资产和商用资产
          • 入驻AI Gallery
          • 我的Gallery介绍
          • 订阅使用
            • 查找和收藏资产
            • 订阅免费算法
            • 订阅免费模型
            • 下载数据
            • 使用Notebook代码样例
            • 使用镜像
            • 使用AI案例
            • 订阅Workflow
          • 发布分享
            • 发布免费算法
            • 发布免费模型
            • 发布数据
            • 发布Notebook
          • 参加活动
            • 报名实践活动(实践)
            • 发布技术文章(AI说)
          • 合作伙伴
            • 注册伙伴
            • 发布解决方案
          • 需求广场
            • 发布需求
      • 最佳实践
        • ModelArts最佳实践案例列表
        • 昇腾能力应用地图
        • DeepSeek基于MaaS推理和应用
          • 基于ModelArts Studio(MaaS) DeepSeek API和Dify快速构建网站智能客服
          • 基于ModelArts Studio(MaaS) DeepSeek API和Cherry Studio快速构建个人AI智能助手
          • 基于ModelArts Studio(MaaS) DeepSeek API和Cursor快速构建代码编辑器
          • 基于ModelArts Studio(MaaS) DeepSeek API和Cline快速构建AI编程助手
          • 基于ModelArts Studio(MaaS) DeepSeek API和RAGFlow快速构建AI助理
          • 基于ModelArts Studio(MaaS) DeepSeek API和Deep Research快速实现行业洞察
          • 在ModelArts Studio(MaaS)基于Qwen2-7B模型实现新闻自动分类
        • DeepSeek@Qwen3基于Lite Server&Cluster推理
          • DeepSeek模型基于ModelArts Lite Server适配NPU的PD分离推理解决方案
            • 流程与约束
            • 方案规划
            • 资源规划
            • 准备Server资源环境
              • 购买并开通资源
              • 网络配置
              • 存储配置
                • 创建并挂载SFS Turbo
                • 基于tmpfs配置内存缓存(可选)
            • 准备、安装部署依赖
              • 部署依赖包版本说明
              • 获取权重文件
                • 准备FP8权重
                • 准备W8A8权重
              • 获取推理镜像
              • 检查环境
              • 安装开源K8s
              • 安装Volcano
              • 安装Device Plugin
              • 安装KubeInfer
            • 基于KubeInfer的推理部署
              • 部署准备
                • KubeInfer部署方案介绍
                • 基于KubeInfer的部署yaml文件说明
                • 生成部署定义yaml
              • PD分离部署推理服务
              • 扩缩容推理服务(可选)
              • 升级推理服务(可选)
            • 接入层部署(可选)
              • 购买APIG实例并管理API
              • 购买ELB和WAF并接入WAF
              • 调用API
            • 日志采集与转储
              • 接入层日志采集与转储(可选)
              • 推理层日志管理
                • 推理层日志采集与转储
                • 推理层日志定期清理
            • 查看指标、配置告警
              • 配置接入层监控告警(可选)
              • 配置推理层监控告警
                • 在CES中查看指标并配置告警
                • 在Prometheus查看vLLM业务指标
            • 常见运维操作指导
              • 多实例推理服务无感升级指导
            • 特性补充说明
              • 推理部署端口规划与冲突操作指导
              • PD分离部署下图编译缓存使用操作
              • PD分离部署下硬件故障手动恢复机制
            • 权重量化补充说明
              • W8A8量化替换配置文件 - config.json
              • MTP融合权重
              • 首次加载权重较慢
            • FAQ
          • DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案
            • 流程与约束
            • 方案规划
            • 资源规划
            • 准备Cluster资源环境
              • 购买并开通资源
                • 购买Cluster专属集群
                • 修改Cluster集群配置
              • 配置kubectl访问集群网络
              • 存储配置
                • 创建并挂载SFS Turbo
                • 基于tmpfs配置内存缓存(可选)
            • 准备、安装部署依赖
              • 部署依赖包版本说明
              • 获取权重文件
                • 准备FP8权重
                • 准备W8A8权重
              • 获取推理镜像
              • 检查环境
              • 安装KubeInfer
            • 基于KubeInfer的推理部署
              • 部署准备
                • KubeInfer部署方案介绍
                • 基于KubeInfer的部署yaml文件说明
                • 生成部署定义yaml
              • PD分离部署推理服务
              • 扩缩容推理服务(可选)
              • 升级推理服务(可选)
            • 接入层部署(可选)
              • 购买APIG实例并管理API
              • 购买ELB和WAF并接入WAF
              • 调用API
            • 日志采集与转储
              • 接入层日志采集与转储(可选)
              • 推理层日志管理
                • 推理层日志采集与转储
                • 推理层日志定期清理
            • 查看指标、配置告警
              • 配置接入层监控告警(可选)
              • 配置推理层监控告警
                • 在CCE、AOM中查看指标并配置告警
                • 在Prometheus查看vLLM业务指标
            • 常见运维操作指导
              • 多实例推理服务无感升级指导
            • 特性补充说明
              • 推理部署端口规划与冲突操作指导
              • PD分离部署下图编译缓存使用操作
              • PD分离部署下硬件故障手动恢复机制
            • 权重量化补充说明
              • W8A8量化替换配置文件 - config.json
              • MTP融合权重
              • 首次加载权重较慢
          • Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案
            • 流程与约束
            • 方案规划
            • 资源规划
            • 准备Server资源环境
              • 购买并开通资源
              • 网络配置
              • 存储配置
                • 创建并挂载SFS Turbo
                • 基于tmpfs配置内存缓存(可选)
            • 准备、安装部署依赖
              • 版本与部署依赖说明
              • 获取权重文件
              • 获取推理镜像
              • 检查环境
              • 安装开源K8s
              • Volcano的安装与升级
                • 安装Volcano
                • 升级Volcano(可选)
              • Device Plugin的安装与升级
                • 安装Device Plugin
                • 升级Device Plugin(可选)
              • KubeInfer的安装与升级
                • 安装KubeInfer
                • 升级KubeInfer(可选)
            • 基于KubeInfer的推理部署
              • 部署准备
                • KubeInfer部署方案介绍
                • 基于KubeInfer的部署yaml文件说明
                • 生成部署定义yaml
              • 单机部署推理服务
              • LoadBalancer类型K8s service创建(可选)
              • 扩缩容推理服务(可选)
              • 升级推理服务(可选)
            • 接入层部署(可选)
              • 购买APIG实例并管理API
              • 购买ELB和WAF并接入WAF
              • 调用API
            • 日志采集与转储
              • 接入层日志采集与转储(可选)
              • 推理层日志管理
                • 推理层日志采集与转储
                • 推理层日志定期清理
            • 查看指标、配置告警
              • 配置接入层监控告警(可选)
              • 配置推理层监控告警
                • 在CES中查看指标并配置告警
                • 在Prometheus查看vLLM业务指标
            • 常见运维操作指导
              • 多实例推理服务手动摘流指导
              • 多实例推理服务无感升级指导
            • FAQ
          • Qwen3模型基于ModelArts Lite Cluster适配NPU的混部推理解决方案
            • 流程与约束
            • 方案规划
            • 资源规划
            • 准备Cluster资源环境
              • 购买并开通资源
                • 购买Cluster专属集群
                • 修改Cluster集群配置
              • 配置kubectl访问集群网络
              • 存储配置
                • 创建并挂载SFS Turbo
                • 基于tmpfs配置内存缓存(可选)
            • 准备、安装部署依赖
              • 版本与部署依赖说明
              • 获取权重文件
              • 获取推理镜像
              • 检查环境
              • KubeInfer的安装与升级
                • 安装KubeInfer
                • 升级KubeInfer(可选)
            • 基于KubeInfer的推理部署
              • 部署准备
                • KubeInfer部署方案介绍
                • 基于KubeInfer的部署yaml文件说明
                • 生成部署定义yaml
              • 单机部署推理服务
              • LoadBalancer类型K8s service创建(可选)
              • 扩缩容推理服务(可选)
              • 升级推理服务(可选)
            • 接入层部署(可选)
              • 购买APIG实例并管理API
              • 购买ELB和WAF并接入WAF
              • 调用API
            • 日志采集与转储
              • 接入层日志采集与转储(可选)
              • 推理层日志管理
                • 推理层日志采集与转储
                • 推理层日志定期清理
            • 查看指标、配置告警
              • 配置接入层监控告警(可选)
              • 配置推理层监控告警
                • 在CCE、AOM中查看指标并配置告警
                • 在Prometheus查看vLLM业务指标
            • 常见运维操作指导
              • 多实例推理服务手动摘流指导
              • 多实例推理服务无感升级指导
        • LLM大语言模型推理
          • 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.906)
            • Ascend-vLLM介绍
            • 支持的模型列表
            • 各模型支持的最小卡数和最大序列
            • 版本说明和要求
            • 推理服务部署
              • 准备推理环境
              • 启动推理服务(大语言模型)
              • 启动推理服务(多模态模型)
            • 推理关键特性使用
              • 量化
                • W4A16量化
                • W8A8量化
              • Prefix Caching
              • 投机推理
                • 投机推理使用说明
                • N-Gram投机
              • 图模式
              • Chunked Prefill
              • Structured Outputs
              • Tool Calling
              • Reasoning Outputs
            • 推理服务精度评测
            • 推理服务性能评测
              • 语言模型推理性能测试
              • 多模态模型推理性能测试
              • 获取模型推理的Profiling数据
            • 附录
              • Ascend-vLLM推理常见问题
          • LLM大语言模型推理历史版本文档
            • 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导(6.5.905)
              • Ascend-vLLM介绍
              • 支持模型列表
              • 支持的推理特性
                • 推理特性列表
                • Reasoning Outputs
                • CANN Graph
              • 资源规划、准备环境
                • 各模型支持的最小卡数和最大序列
                • 准备资源环境
              • 部署依赖包
                • 部署依赖包版本说明
                • 安装KubeInfer
                  • Cluster安装kubeinfer
                • 获取配套软件、基础镜像
              • Cluster部署推理服务
                • 部署准备
                • 基于K8s Deployment单机部署推理服务
                • 基于KubeInfer多机部署推理服务
              • Server部署推理服务
                • 部署准备
                • 基于Docker单机、多机部署
              • 在线推理请求测试
                • LLM推理请求测试
                • 多模态模型推理请求测试
              • 推理服务精度评测
              • 推理服务性能评测
                • 语言模型推理性能测试
                • 多模态模型推理性能测试
                • 获取模型推理的Profiling数据
              • 附录
                • Ascend-vLLM推理常见问题
                • 部署kubeinfer插件脚本
                • run_vllm_single_node.sh
                • run_vllm_multi_node.sh
                • vllm_single_node.yaml
                • vllm_multi_node.yaml
                • wait_ki_rank_table_completed.py
                • get_ip_list.py
                • ray_worker_checker.py
                • rank_table_tools.py
            • 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.902)
              • Ascend-vLLM介绍
              • 支持的模型列表
              • 版本说明和要求
              • 准备推理环境
              • 启动推理服务
                • 启动推理服务(大语言模型)
                • 启动推理服务(多模态模型)
              • Reasoning Outputs
              • 推理服务精度评测
              • 推理服务性能评测
                • 语言模型推理性能测试
                • 多模态模型推理性能测试
                • 获取模型推理的Profiling数据
              • 附录
                • 各模型支持的最小卡数和最大序列
                • Ascend-vLLM推理常见问题
            • 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.901)
              • Ascend-vLLM介绍
              • 支持的模型列表
              • 版本说明和要求
              • 推理服务部署
                • 准备推理环境
                • 启动推理服务
              • 推理关键特性使用
                • 量化
                  • W4A16量化
                  • W8A8量化
                  • W8A16量化
                  • kv-cache-int8量化
                • 剪枝
                • 分离部署
                  • PD分离部署使用说明
                  • PD分离部署性能调优理论基础
                  • PD分离部署手动配比调优(推荐)
                  • PD分离部署自动配比调优
                  • PD分离性能调优工具使用说明
                • Prefix Caching
                • multi-step
                • 投机推理
                  • 投机推理使用说明
                  • Eagle投机小模型训练
                • 图模式
                • 多模态
                • Chunked Prefill
                • multi-lora
                • guided-decoding
              • 推理服务精度评测
              • 推理服务性能评测
                • 语言模型推理性能测试
                • 多模态模型推理性能测试
                • 获取模型推理的Profiling数据
              • 附录
                • 各模型支持的最小卡数和最大序列
                • Ascend-vLLM推理常见问题
            • 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)
              • 场景介绍
              • 准备工作
                • 准备资源
                • 准备权重
                • 准备代码
                • 准备镜像
                • 准备Notebook
              • 在Notebook调试环境中部署推理服务
              • 在推理生产环境中部署推理服务
              • 推理精度测试
              • 推理性能测试
              • 推理模型量化
                • 使用AWQ量化工具转换权重
                • 使用SmoothQuant量化工具转换权重
                • 使用kv-cache-int8量化
                • 使用GPTQ量化
              • Eagle投机小模型训练
              • 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
              • 附录:大模型推理常见问题
            • 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.911)
              • 推理场景介绍
              • 部署推理服务
                • 非分离部署推理服务
                • 分离部署推理服务
              • 推理性能测试
                • 语言模型推理性能测试
                • 多模态模型推理性能测试
              • 推理精度测试
              • 推理模型量化
                • 使用AWQ量化
                • 使用SmoothQuant量化
                • 使用kv-cache-int8量化
                • 使用GPTQ量化
                • 使用llm-compressor工具量化
              • Eagle投机小模型训练
              • 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
              • 附录:大模型推理常见问题
        • LLM大语言模型训练
          • 主流开源大模型基于ModelArts Lite Server适配AscendFactory PyTorch NPU训练指导(New)
            • 方案概述
            • 支持的模型列表
            • 各模型支持的训练特性
            • 各模型支持的最小卡数和序列长度
            • 版本软件说明和要求
            • 训练准备工作
              • 准备Lite Server环境
              • 准备软件包、权重、训练数据集
              • 准备镜像
            • 执行训练任务
            • 查看训练输出结果
            • 日志采集与存储
            • 配置监控告警(可选)
            • 配置调优及故障恢复
              • 配置调优
              • 断点续训
            • 训练服务配置说明
              • 参数配置说明
                • MindSpeed-LLM
                • Llama-Factory
                • VeRL
                • MindSpeed-RL
                • MindSpeed-MM
              • tokenizer文件修改
              • 训练数据说明
              • VeRL数据处理样例脚本
            • 常见错误原因和解决方法
          • LLM大语言模型训练历史版本文档
            • 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.905)
              • 方案概述
              • 支持的模型列表
              • 版本说明和要求
              • 准备工作
                • 场景组合方式
                • ModelArts Lite Server
                • ModelArts Standard
                  • 准备资源
                  • 准备数据、权重和代码
                  • 准备镜像
              • 执行训练任务
                • ModelArts Lite Server环境
                • ModelArts Standard环境
              • 训练结果输出
              • 训练服务评测
              • 训练服务配置说明
                • 参数配置说明
                  • MindSpeed-LLM
                  • Llama-Factory
                  • VeRL
                • tokenizer文件修改
                • 数据说明
                • 模型最小卡数配置
                • VeRL数据处理样例脚本
              • 常见错误原因和解决方法
            • 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.905)
              • 方案概述
              • 支持的模型列表
              • 版本说明和要求
              • 准备工作
                • 准备环境
                • 准备代码、权重、数据
                • 准备镜像
              • 执行训练任务
              • 训练结果输出
              • 训练脚本说明参考
                • 数据说明
                • 模型最小卡数配置
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • 工作负载Pod异常
            • 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导(6.5.902)
              • 方案概述
              • 支持的模型列表
              • 版本说明和要求
              • 准备工作
                • 场景组合方式
                • ModelArts Lite Server
                • ModelArts Standard
                  • 准备资源
                  • 准备数据、权重和代码
                  • 准备镜像
              • 执行训练任务
                • ModelArts Lite Server环境
                • ModelArts Standard环境
              • 训练结果输出
              • 训练服务评测
              • 训练服务配置说明
                • 参数配置说明
                  • MindSpeed-LLM
                  • Llama-Factory
                • tokenizer文件修改
                • 断点续训和故障快恢说明
                • 数据说明
                • 模型最小卡数配置
              • 常见错误原因和解决方法
            • 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.902)
              • 方案概述
              • 支持的模型列表
              • 版本说明和要求
              • 准备工作
                • 准备环境
                • 准备代码、权重、数据
                • 准备镜像
              • 执行训练任务
              • 训练结果输出
              • 训练脚本说明参考
                • 断点续训和故障快恢说明
                • 数据说明
                • 模型最小卡数配置
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • 工作负载Pod异常
            • 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.5.901)
              • 场景介绍
              • 准备工作
                • 准备环境
                • 准备代码
                • 准备镜像环境
                • DockerFile构建镜像(可选)
                • 准备数据(可选)
              • 执行训练任务
                • ascendfactory-cli方式启动(推荐)
                • demo.sh方式启动(历史版本)
              • 查看日志和性能
              • 训练benchmark工具
                • 工具介绍及准备工作
                • 训练性能测试
                • 训练精度测试
              • 训练脚本说明
                • Yaml配置文件参数配置说明
                • 模型NPU卡数、梯度累积值取值表
                • 各个模型训练前文件替换
                • NPU_Flash_Attn融合算子约束
                • BF16和FP16说明
                • 录制Profiling
              • 附录:训练常见问题
            • 主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
              • 场景介绍
              • 准备工作
                • 准备环境
                • 准备代码
                • 准备数据
                • 准备镜像
              • 执行训练任务
                • 执行训练任务(推荐)
                • 执行训练任务(历史版本)
              • 查看日志和性能
              • 训练评测
                • 工具介绍及准备工作
                • 训练性能测试
                • 训练精度测试
              • 训练脚本说明参考
                • 训练参数配置说明【旧】
                • 训练tokenizer文件说明
                • 断点续训和故障快恢说明
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • 保存ckpt时超时报错
            • 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
              • 场景介绍
              • 准备工作
                • 准备环境
                • 准备代码
                • 准备数据
                • 准备镜像环境
              • 训练任务
                • 执行训练任务(推荐)
                • 执行训练任务(历史版本)
              • 查看日志和性能
              • 训练脚本说明参考
                • 训练参数配置说明【旧】
                • 训练tokenizer文件说明
                • 断点续训和故障快恢说明
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • 工作负载Pod异常
                • mc2融合算子报错
            • 主流开源大模型基于Standard+OBS+SFS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
              • 场景介绍
              • 准备工作
                • 准备资源
                • 准备数据
                • 准备权重
                • 准备代码
                • 准备镜像
                  • 镜像方案说明
                  • ECS获取和上传基础镜像
                  • 使用基础镜像
                  • ECS中构建新镜像
              • 执行训练任务
                • 执行训练任务【新】
                • 执行训练任务【旧】
              • 查看日志和性能
              • 训练脚本说明
                • 训练启动脚本说明和参数配置【旧】
                • 训练tokenizer文件说明
                • 断点续训和故障快恢说明
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • 保存ckpt时超时报错
                • mc2融合算子报错
            • 主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)
              • 场景介绍
              • 准备工作
                • 准备资源
                • 准备数据
                • 准备权重
                • 准备代码
                • 准备镜像
                  • 镜像方案说明
                  • ECS获取和上传基础镜像
                  • ECS中构建新镜像(可选)
                • 准备Notebook(可选)
              • 执行训练任务
                • 执行训练任务(推荐)
                • 执行训练任务(历史版本)
              • 查看日志和性能
              • 训练脚本说明
                • 训练启动脚本说明和参数配置
                • 训练tokenizer文件说明
                • 断点续训和故障快恢说明
              • 常见错误原因和解决方法
                • 显存溢出错误
                • 网卡名称错误
                • mc2融合算子报错
        • MLLM多模态模型训练推理
          • Bunny-Llama-3-8B-V基于Lite Server适配PyTorch NPU的训练指导(6.5.901)
          • Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
            • 场景介绍
            • 准备工作
              • 准备资源
              • 准备数据
              • 准备权重
              • 准备代码
              • 将数据预热到SFS Turbo
              • 准备镜像
                • 镜像方案说明
                • ECS获取基础镜像
                • ECS中构建新镜像
                • ECS中上传新镜像
            • SFT全参微调训练
            • LoRA微调训练
            • 查看日志和性能
            • 训练脚本说明
              • 训练脚本参数说明
              • 不同模型推荐的参数与NPU卡数设置
              • 训练tokenizer文件说明
            • 常见错误原因和解决方法
              • 显存溢出错误
              • 网卡名称错误
              • 联网下载SimSun.ttf时可能会遇到网络问题
              • 在运行finetune_ds.sh 时遇到报错
          • Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
            • 场景介绍
            • 准备工作
              • 准备资源
              • 准备数据
              • 准备权重
              • 准备代码
              • 准备镜像
                • 镜像方案说明
                • ECS获取基础镜像
                • ECS中构建新镜像
                • ECS中上传新镜像
            • SFT全参微调训练
            • LoRA微调训练
            • 查看日志和性能
            • 训练脚本说明
              • 训练脚本存放目录说明
              • 不同模型推荐的参数与NPU卡数设置
              • 训练tokenizer文件说明
            • 常见错误原因和解决方法
              • 显存溢出错误
              • 网卡名称错误
              • 联网下载SimSun.ttf时可能会遇到网络问题
              • 在运行finetune_ds.sh 时遇到报错
          • Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912)
          • MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导(6.3.912)
          • MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导(6.3.910)
          • InternVL2基于Lite Server适配PyTorch NPU训练指导(6.3.912)
          • LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导(6.3.912)
          • LLaVA模型基于Lite Server适配PyTorch NPU预训练指导(6.3.912)
          • Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导(6.3.912)
          • LLaMA-VID基于Lite Server适配PyTorch NPU推理指导(6.3.910)
          • moondream2基于Lite Server适配PyTorch NPU推理指导
        • 图像生成模型训练推理
          • Diffusers、ComfyUI套件基于ModelArts Lite Server适配PyTorch NPU的推理指导(6.5.907)
          • Stable Diffusion XL基于ModelArtsNotebook的推理指导(6.5.907)
          • VAR/XAR/RandAR/Infinity自回归图像生成模型基于Lite Server适配NPU推理指导(6.5.905)
          • DeepSeek Janus-Pro模型基于ModelArts Lite Server适配PyTorch NPU推理指导(6.5.902)
          • SD3.5基于Lite Server适配PyTorch NPU的训练指导(6.5.901)
          • Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导(6.3.909)
          • Open-Clip基于Lite Server适配PyTorch NPU训练指导
          • AIGC工具tailor使用指导
        • 视频生成模型训练推理
          • Wan系列视频生成模型基于Lite Server适配Pytorch NPU的推理指导(6.5.907)
          • Wan2.1系列、HunyuanVideo和Cogvideo视频生成模型基于Lite Server适配Pytorch NPU的推理指导(6.5.906)
          • Wan2.1-VACE-1.3B模型基于ModelArts Lite Server适配PyTorch NPU推理指导(6.5.906)
          • Wan2.1系列文/图生视频模型基于ModelArts Lite Server适配PyTorch NPU训练指导(6.5.906)
          • CogVideoX1.5 5b 和 CogVideoX 5b模型基于Lite Server全量8卡序列并行推理指导(6.5.901)
          • CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量微调指导(6.5.901)
          • CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导(6.3.911)
          • Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导(6.3.910)
        • 内容审核模型训练推理
          • Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910)
          • Yolov8基于Lite Server适配MindSpore Lite推理指导(6.3.909)
          • Paraformer基于Lite Server适配PyTorch NPU推理指导(6.3.911)
        • 自动驾驶模型训练推理
          • MapTRv2模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • OpenVLA模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • PointPillar模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • Sparse4D模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • OpenEMMA模型基于ModelArts Lite Server适配PyTorch NPU推理指导
          • Senna模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • SparseDrive模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • UniAD模型基于ModelArts Lite Server适配PyTorch NPU训练指导
          • VAD模型基于ModelArts Lite Server适配PyTorch NPU训练指导
        • GPU业务迁移至昇腾训练推理
          • 训练迁移指导(PyTorch)
            • 迁移流程
            • 代码迁移
            • 精度调试
              • 精度问题概述
              • 精度调优总体思路
              • 精度调优前准备工作
              • msprobe精度分析工具使用指导
            • 性能调优
              • 调优流程
              • 性能诊断
              • 性能可视化
          • 案例:Dit模型训练迁移
            • 场景介绍及环境准备
            • 训练迁移适配
            • 精度对齐
              • 长训Loss比对结果
              • 使用Msprobe工具分析偏差
              • Loss对齐结果
            • 性能调优
              • Profiling数据采集
              • 使用Advisor工具分析生成调优建议
              • 调优前后性能对比
          • 推理迁移指导(MindSporeLite)
            • 简介
            • 昇腾迁移快速入门案例
            • 迁移评估
            • 环境准备
            • 模型适配
              • 基于MindSpore Lite的模型转换
              • 动态shape
            • 精度校验
            • 性能调优
            • 迁移过程使用工具概览
            • 常见问题
              • MindSpore Lite问题定位指南
              • 模型转换报错如何查看日志和定位?
              • 日志提示Compile graph failed
              • 日志提示Custom op has no reg_op_name attr
            • 推理业务迁移评估表
          • 案例:SD1.5推理迁移
            • 场景介绍
            • 迁移环境准备
            • pipeline应用准备
            • 应用迁移
              • 模型适配
              • pipeline代码适配
            • 迁移效果校验
            • 模型精度调优
              • 场景介绍
              • 精度问题诊断
              • 精度问题处理
            • 性能调优
              • 单模型性能测试工具Mindspore lite benchmark
              • 单模型性能调优AOE
            • 常见问题
          • 迁移调优工具链
            • 工具总览
            • 精度调试:msprobe
              • 数据dump指导
              • advisor异常值分析
              • API预检
              • 精度比对
              • 梯度监控
            • 精度调试:TensorBoard可视化
            • 性能调优: MA-Advisor性能诊断
              • advisor调优总体步骤
              • 创建诊断任务
              • 创建调试训练作业并执行性能诊断任务
              • 查看诊断报告
        • Standard权限管理
          • ModelArts权限管理基本概念
          • 权限控制方式
            • IAM
            • 依赖和委托
            • 工作空间
          • 典型场景配置实践
            • 个人用户快速配置ModelArts访问权限
            • 配置ModelArts基本使用权限
              • 场景描述
              • Step1 创建用户组并加入用户
              • Step2 为用户配置云服务使用权限
              • Step3 为用户配置ModelArts的委托访问授权
              • Step4 测试用户权限
            • 给子账号配置开发环境基本使用权限
            • 给子账号配置训练作业基本使用权限
            • 给子账号配置部署上线基本使用权限
            • 管理员和开发者权限分离
            • 给子账号配置查看所有Notebook实例的权限
            • 使用Cloud Shell登录训练容器
            • 不允许子账号使用公共资源池创建作业
            • 委托授权ModelArts云服务使用SFS Turbo
            • 给子账号配置文件夹级的SFS Turbo访问权限
          • FAQ
            • 使用ModelArts时提示“权限不足”,如何解决?
        • Standard开发环境
          • 将Notebook的Conda环境迁移到SFS磁盘
          • 使用ModelArts VSCode插件调试训练ResNet50图像分类模型
        • Standard模型训练
          • 使用ModelArts Standard自定义算法实现手写数字识别
          • 基于ModelArts Standard运行训练作业
            • 在ModelArts Standard上运行训练作业的场景介绍
            • 在ModelArts Standard运行训练作业的准备工作
            • 在ModelArts Standard上运行单机单卡训练作业
            • 在ModelArts Standard上运行单机多卡训练作业
            • 在ModelArts Standard上运行多机多卡训练作业
            • 在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输
        • Standard推理部署
          • ModelArts Standard推理服务访问公网方案
          • 端到端运维ModelArts Standard推理服务方案
          • 使用自定义引擎在ModelArts Standard创建模型
          • 使用大模型在ModelArts Standard创建模型部署在线服务
          • 第三方推理框架迁移到ModelArts Standard推理自定义引擎
          • ModelArts Standard推理服务支持VPC直连的高速访问通道配置
          • ModelArts Standard的WebSocket在线服务全流程开发
          • 从0-1制作自定义镜像并创建模型
          • 使用AppCode认证鉴权方式进行在线预测
        • 安全配置最佳实践
        • 历史待下线案例
          • Standard自动学习
            • 使用ModelArts Standard自动学习实现口罩检测
            • 使用ModelArts Standard自动学习实现垃圾分类
          • 使用AI Gallery的订阅算法实现花卉识别
          • 使用ModelArts PyCharm插件调试训练ResNet50图像分类模型
          • 使用ModelArts Standard一键完成商超商品识别模型部署
          • 专属资源池训练
            • 资源选择推荐
            • 步骤总览
            • 资源购买
            • 基本配置
              • 权限配置
                • 配置IAM权限
                • 配置ModelArts委托权限
                • 配置SWR组织权限
                • 测试用户权限
              • 创建网络
              • 专属资源池VPC打通
              • ECS服务器挂载SFS Turbo存储
              • 在ECS中创建ma-user和ma-group
              • obsutil安装和配置
              • (可选)工作空间配置
            • 调试与训练
              • 单机单卡
                • 线下容器镜像构建及调试
                • 上传镜像
                • 上传数据和算法至OBS(首次使用时需要)
                • 使用Notebook进行代码调试
                • 创建训练任务
                • 监控资源
              • 单机多卡
                • 准备镜像
                • 上传数据和算法至SFS(首次使用时需要)
                • 使用Notebook进行代码调试
                • 创建训练任务
              • 多机多卡
                • 线下容器镜像构建及调试
                • 上传数据至OBS(首次使用时需要)
                • 上传算法至SFS
                • 创建训练任务
            • FAQ
              • run.sh脚本测试ModelArts训练整体流程
              • ModelArts环境挂载目录说明
              • infiniband驱动的安装
              • 如何保证训练和调试时文件路径保持一致
          • 推理部署
          • DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导
      • API参考
        • 使用前必读
        • API概览
        • 如何调用API
          • 构造请求
          • 认证鉴权
          • 返回结果
        • Workflow工作流管理
          • 获取Workflow工作流列表
          • 新建Workflow工作流
          • 删除Workflow工作流
          • 查询Workflow工作流
          • 修改Workflow工作流
          • 总览Workflow工作流
          • 查询Workflow待办事项
          • 在线服务鉴权
          • 创建在线服务包
          • 获取Execution列表
          • 新建Workflow Execution
          • 删除Workflow Execution
          • 查询Workflow Execution
          • 更新Workflow Execution
          • 管理Workflow Execution
          • 管理Workflow StepExecution
          • 获取Workflow工作流节点度量信息
          • 新建消息订阅Subscription
          • 删除消息订阅Subscription
          • 查询消息订阅Subscription详情
          • 更新消息订阅Subscription
          • 创建工作流定时调度
          • 查询工作流定时调度详情
          • 删除工作流定时调度信息
          • 更新工作流定时调度信息
        • 开发环境管理
          • 创建Notebook实例
          • 查询Notebook实例列表
          • 查询所有Notebook实例列表
          • 查询Notebook实例详情
          • 更新Notebook实例
          • 删除Notebook实例
          • 通过运行的实例保存成容器镜像
          • 查询Notebook支持的有效规格列表
          • 查询Notebook支持的可切换规格列表
          • 查询运行中的Notebook可用时长
          • Notebook时长续约
          • 启动Notebook实例
          • 停止Notebook实例
          • 获取动态挂载OBS实例信息列表
          • 动态挂载OBS
          • 获取动态挂载OBS实例详情
          • 动态卸载OBS
          • 添加资源标签
          • 删除资源标签
          • 查询Notebook资源类型下的标签
          • 查询支持的镜像列表
          • 注册自定义镜像
          • 查询用户镜像列表
          • 查询镜像详情
          • 删除镜像
        • 训练管理
          • 创建算法
          • 查询算法列表
          • 查询算法详情
          • 更新算法
          • 删除算法
          • 获取支持的超参搜索算法
          • 创建训练实验
          • 创建训练作业
          • 查询训练作业详情
          • 更新训练作业描述
          • 删除训练作业
          • 终止训练作业
          • 查询训练作业指定任务的日志(预览)
          • 查询训练作业指定任务的日志(OBS链接)
          • 查询训练作业指定任务的运行指标
          • 查询训练作业列表
          • 查询超参搜索所有trial的结果
          • 查询超参搜索某个trial的结果
          • 获取超参敏感度分析结果
          • 获取某个超参敏感度分析图像的路径
          • 提前终止自动化搜索作业的某个trial
          • 获取自动化搜索作业yaml模板的信息
          • 获取自动化搜索作业yaml模板的内容
          • 创建训练作业标签
          • 删除训练作业标签
          • 查询训练作业标签
          • 获取训练作业事件列表
          • 创建训练作业镜像保存任务
          • 查询训练作业镜像保存任务
          • 获取训练配额
          • 获取训练作业流程阶段信息列表
          • 获取训练作业支持的公共规格
          • 获取训练作业支持的AI预置框架
        • 模型管理
          • 查询模型runtime
          • 查询AI应用列表
          • 创建AI应用
          • 查询AI应用详情
          • 删除AI应用
        • APP认证管理
          • 获取APP列表
          • 创建APP
          • 查询APP详情
          • 删除APP
          • 增加AppCode
          • 重置AppCode
          • 删除AppCode
          • 重置AppSecret
          • 获取用户绑定APP的api列表
          • 注册API并授权给APP
          • 删除API
          • 授权API至APP
          • 更新API授权
          • 解除API对APP的授权
          • 获取API授权关系列表
          • 创建API
          • 查询API
          • 查询API和APP
          • 查询APP的API认证信息
          • 查询APP是否存在
        • 服务管理
          • 通过patch操作对服务进行更新
          • 查询服务监控信息
          • 查询服务列表
          • 部署服务
          • 查询支持的服务部署规格
          • 查询服务详情
          • 更新服务配置
          • 删除服务
          • 更新模型服务的单个属性
          • 查询专属资源池列表
          • 查询服务事件日志
          • 启动停止边缘节点服务实例
          • 查询服务更新日志
          • 添加资源标签
          • 删除资源标签
          • 查询推理服务标签
          • 查询推理VPC访问通道信息的API
        • 资源管理
          • 查询OS的配置参数
          • 查询插件模板
          • 查询资源池节点列表
          • 批量删除节点
          • 批量对节点功能上锁
          • 批量对节点功能解锁
          • 批量重启节点
          • 节点规格变更
          • 查询事件列表
          • 创建网络资源
          • 查询网络资源列表
          • 查询网络资源
          • 删除网络资源
          • 更新网络资源
          • 查询资源实时利用率
          • 创建资源池
          • 查询资源池列表
          • 查询资源池
          • 删除资源池
          • 更新资源池
          • 资源池监控
          • 资源池统计
          • 查询资源规格列表
          • 查询资源池作业列表
          • 查询专属资源池作业统计信息
        • DevServer管理
          • 查询用户所有DevServer实例列表
          • 创建DevServer
          • 查询DevServer实例详情
          • 删除DevServer实例
          • 实时同步用户所有DevServer实例状态
          • 启动DevServer实例
          • 停止DevServer实例
          • 创建DevServer超节点标签
          • 删除DevServer超节点标签
          • 查询DevServer超节点标签
          • 重装DevServer服务器操作系统镜像
          • 切换DevServer服务器操作系统镜像
          • 切换DevServer超节点服务器操作系统镜像
          • 查询用户所有超节点实例详情
          • 删除DevServer超节点实例
          • 重启DevServer实例
          • 启动DevServer超节点服务器
          • 停止DevServer超节点服务器
          • 查询租户DevServer列表
          • 查询DevServer镜像详情
          • 查询DevServer镜像列表
        • 授权管理
          • 查看授权列表
          • 配置授权
          • 删除授权
          • 创建ModelArts委托
        • 工作空间管理
          • 查询工作空间详情
          • 修改工作空间
          • 删除工作空间
          • 查询工作空间配额
          • 修改工作空间配额
          • 查询工作空间列表
          • 创建工作空间
        • 配额管理
          • 查询OS的配额
        • 资源标签管理
          • 查询资源池的所有标签
          • 查询资源池上的标签
        • 节点池管理
          • 查询节点池列表
          • 创建节点池
          • 查询指定节点池详情
          • 更新节点池
          • 删除节点池
          • 查询节点池的节点列表
        • 应用示例
          • 创建图像分类数据集并进行标注任务
          • 创建并完成图像分类的智能标注任务
          • 开发环境的应用示例
          • 以PyTorch框架创建训练作业(新版训练)
          • 创建和修改工作空间
          • 管理ModelArts服务的委托授权
        • 权限策略和授权项
          • 策略及授权项说明
          • 数据管理权限
          • 开发环境权限
          • 训练作业权限
          • 模型管理权限
          • 服务管理权限
          • 工作空间管理权限
          • DevServer权限
        • 历史API
          • 数据管理(旧版)
            • 查询数据集列表
            • 创建数据集
            • 查询数据集详情
            • 更新数据集
            • 删除数据集
            • 查询数据集的统计信息
            • 查询数据集监控数据
            • 查询数据集的版本列表
            • 创建数据集标注版本
            • 查询数据集版本详情
            • 删除数据集标注版本
            • 查询样本列表
            • 批量添加样本
            • 批量删除样本
            • 查询单个样本信息
            • 获取样本搜索条件
            • 分页查询团队标注任务下的样本列表
            • 查询团队标注的样本信息
            • 查询数据集标签列表
            • 创建数据集标签
            • 批量修改标签
            • 批量删除标签
            • 按标签名称更新单个标签
            • 按标签名称删除标签及仅包含此标签的文件
            • 批量更新样本标签
            • 查询数据集的团队标注任务列表
            • 创建团队标注任务
            • 查询团队标注任务详情
            • 启动团队标注任务
            • 更新团队标注任务
            • 删除团队标注任务
            • 创建团队标注验收任务
            • 查询团队标注验收任务报告
            • 更新团队标注验收任务状态
            • 查询团队标注任务统计信息
            • 查询团队标注任务成员的进度信息
            • 团队成员查询团队标注任务列表
            • 提交验收任务的样本评审意见
            • 团队标注审核
            • 批量更新团队标注样本的标签
            • 查询标注团队列表
            • 创建标注团队
            • 查询标注团队详情
            • 更新标注团队
            • 删除标注团队
            • 向标注成员发送邮件
            • 查询所有团队的标注成员列表
            • 查询标注团队的成员列表
            • 创建标注团队的成员
            • 批量删除标注团队成员
            • 查询标注团队成员详情
            • 更新标注团队成员
            • 删除标注团队成员
            • 查询数据集导入任务列表
            • 创建导入任务
            • 查询数据集导入任务的详情
            • 查询数据集导出任务列表
            • 创建数据集导出任务
            • 查询数据集导出任务的状态
            • 同步数据集
            • 查询数据集同步任务的状态
            • 查询智能标注的样本列表
            • 查询单个智能标注样本的信息
            • 分页查询智能任务列表
            • 启动智能任务
            • 获取智能任务的信息
            • 停止智能任务
            • 查询处理任务列表
            • 创建处理任务
            • 查询数据处理的算法类别
            • 查询处理任务详情
            • 更新处理任务
            • 删除处理任务
            • 查询数据处理任务的版本列表
            • 创建数据处理任务版本
            • 查询数据处理任务的版本详情
            • 删除数据处理任务的版本
            • 查询数据处理任务版本的结果展示
            • 停止数据处理任务的版本
          • 开发环境(旧版)
            • 创建开发环境实例
            • 查询开发环境实例列表
            • 查询开发环境实例详情
            • 更新开发环境实例信息
            • 删除开发环境实例
            • 管理开发环境实例
          • 训练管理(旧版)
            • 训练作业
              • 创建训练作业
              • 查询训练作业列表
              • 查询训练作业版本详情
              • 删除训练作业版本
              • 查询训练作业版本列表
              • 创建训练作业版本
              • 停止训练作业版本
              • 更新训练作业描述
              • 删除训练作业
              • 获取训练作业日志的文件名
              • 查询预置算法
              • 查询训练作业日志
            • 训练作业参数配置
              • 创建训练作业参数
              • 查询训练作业参数列表
              • 更新训练作业参数
              • 删除训练作业参数
              • 查询训练作业参数详情
            • 可视化作业
              • 创建可视化作业
              • 查询可视化作业列表
              • 查询可视化作业详情
              • 更新可视化作业描述
              • 删除可视化作业
              • 停止可视化作业
              • 重启可视化作业
            • 资源和引擎规格接口
              • 查询作业资源规格
              • 查询作业引擎规格
            • 作业状态参考
        • 附录
          • 状态码
          • 错误码
          • 获取项目ID和名称
          • 获取账号名和账号ID
          • 获取用户名和用户ID
      • SDK参考
        • 文档导读
        • SDK简介
        • 快速开始
        • (可选)本地服务器安装ModelArts SDK
        • Session鉴权
          • (可选)Session鉴权
          • 用户名密码认证模式
          • 用户AK-SK认证模式
        • OBS管理
          • OBS管理概述
          • 文件传输(推荐)
          • 上传文件至OBS
          • 上传文件夹至OBS
          • 从OBS下载文件
          • 从OBS下载文件夹
        • 数据管理
          • 数据集管理
            • 查询数据集列表
            • 创建数据集
            • 查询数据集详情
            • 更新数据集
            • 删除数据集
          • 数据集版本管理
            • 查询数据集版本列表
            • 创建数据集版本
            • 查询数据集版本详情
            • 删除数据集版本
          • 样本管理
            • 查询样本列表
            • 查询单个样本详情
            • 批量删除样本
          • 导入任务管理
            • 查询导入任务列表
            • 创建导入任务
            • 查询导入任务状态
          • 导出任务管理
            • 查询导出任务列表
            • 创建导出任务
            • 查询导出任务状态
          • Manifest管理
            • Manifest管理概述
            • 解析Manifest文件
            • 创建和保存Manifest文件
            • 解析Pascal VOC文件
            • 创建和保存Pascal VOC文件
          • 标注任务管理
            • 创建标注任务
            • 查询数据集的标注任务列表
            • 查询标注任务详情
        • 训练管理
          • 训练作业
            • 创建训练作业
            • 训练作业调测
              • 使用SDK调测单机训练作业
              • 使用SDK调测多机分布式训练作业
            • 查询训练作业列表
            • 查询训练作业详情
            • 更新训练作业描述
            • 删除训练作业
            • 终止训练作业
            • 查询训练日志
            • 查询训练作业的运行指标
          • 资源和引擎规格接口
            • 查询资源规格列表
            • 查询引擎规格列表
        • 模型管理
          • 模型调试
          • 导入模型
          • 查询模型列表
          • 查询模型对象列表
          • 查询模型详情
          • 删除模型
        • 服务管理
          • 服务管理概述
          • 在开发环境中部署本地服务进行调试
          • 部署在线服务
          • 查询服务详情
          • 推理服务测试
          • 查询服务列表
          • 查询服务对象列表
          • 更新服务配置
          • 查询服务监控信息
          • 查询服务日志
          • 删除服务
      • 场景代码示例
      • 故障排除
        • 通用问题
          • ModelArts中提示OBS相关错误
          • ModelArts中提示ModelArts.7211: 账号已受限
        • 开发环境
          • 环境配置故障
            • Notebook提示磁盘空间已满
            • Notebook中使用Conda安装Keras 2.3.1报错
            • Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx
            • Notebook中已安装对应库,仍报错import numba ModuleNotFoundError: No module named 'numba'
            • JupyterLab中文件保存失败,如何解决?
            • 用户结束kernelgateway进程后报错Server Connection Error,如何恢复?
            • SSH偶现拒绝访问问题,报错:Not allowed at this time
          • 实例故障
            • 创建Notebook失败,查看事件显示JupyterProcessKilled
            • 创建Notebook实例后无法打开页面,如何处理?
            • 使用pip install时出现“没有空间”的错误
            • 出现“save error”错误,可以运行代码,但是无法保存
            • 单击Notebook的打开按钮时报“请求超时”错误?
            • 出现ModelArts.6333错误,如何处理?
            • 打开Notebook实例提示token不存在或者token丢失如何处理?
          • 代码运行故障
            • Notebook运行代码报错,在'/tmp'中找不到文件
            • Notebook无法执行代码,如何处理?
            • 运行训练代码,出现dead kernel,并导致实例崩溃
            • 如何解决训练过程中出现的cudaCheckError错误?
            • 开发环境提示空间不足,如何解决?
            • 如何处理使用opencv.imshow造成的内核崩溃?
            • 使用Windows下生成的文本文件时报错找不到路径?
            • 创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理?
          • JupyterLab插件故障
            • git插件密码失效如何解决?
          • VS Code连接开发环境失败故障处理
            • 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口
            • 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接
            • VS Code连接开发环境失败时的排查方法
            • 远程连接出现弹窗报错:Could not establish connection to xxx
            • 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决?
            • 连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决?
            • 连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决?
            • 远程连接处于retry状态如何解决?
            • 报错“The VS Code Server failed to start”如何解决?
            • 报错“Permissions for 'x:/xxx.pem' are too open”如何解决?
            • 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决?
            • 报错“Connection permission denied (publickey)”如何解决
            • 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决?
            • 报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决?
            • 报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决?
            • 报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决?
            • 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决?
            • 报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决?
            • 报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决?
            • VS Code连接远端Notebook时报错“XHR failed”
            • VS Code连接后长时间未操作,连接自动断开
            • VS Code自动升级后,导致远程连接时间过长
            • 使用SSH连接,报错“Connection reset”如何解决?
            • 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
            • VS Code连接开发环境时报错Missing GLIBC,Missing required dependencies
            • 使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题
            • 使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配
          • 自定义镜像故障
            • Notebook自定义镜像故障基础排查
            • 镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon,Cannot pause container xxx”如何解决?
            • 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决?
            • 保存镜像时报错“too many layers in your image”如何解决?
            • 镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决?
            • 镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.”
            • 使用自定义镜像创建Notebook后打开没有kernel
            • 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决?
            • 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found)
            • 用户使用torch报错Unexpected error from cudaGetDeviceCount
            • 旧版镜像启动后无权限访问
          • 其他故障
            • Notebook中无法打开“checkpoints”文件夹
            • 创建新版Notebook无法使用已购买的专属资源池,如何解决?
            • 在Notebook中使用tensorboard命令打开日志文件报错Permission denied
        • 训练作业
          • OBS操作相关故障
            • 读取文件报错,如何正确读取文件
            • TensorFlow-1.8作业连接OBS时反复出现提示错误
            • TensorFlow在OBS写入TensorBoard到达5GB时停止
            • 保存模型时出现Unable to connect to endpoint错误
            • OBS复制过程中提示“BrokenPipeError: Broken pipe”
            • 日志提示“ValueError: Invalid endpoint: obs.xxxx.com”
            • 日志提示“errorMessage:The specified key does not exist”
            • tensorboard显示502 bad gateway
          • 云上迁移适配故障
            • 无法导入模块
            • 训练作业日志中提示“No module named .*”
            • 如何安装第三方包,安装报错的处理方法
            • 下载代码目录失败
            • 训练作业日志中提示“No such file or directory”
            • 训练过程中无法找到so文件
            • ModelArts训练作业无法解析参数,日志报错
            • 训练输出路径被其他作业使用
            • PyTorch1.0引擎提示“RuntimeError: std:exception”
            • MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
            • 使用moxing适配OBS路径,pandas读取文件报错
            • 日志提示“Please upgrade numpy to >= xxx to use this pandas version”
            • 重装的包与镜像装CUDA版本不匹配
            • 创建训练作业提示错误码ModelArts.2763
            • 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'”
            • 系统容器异常退出
          • 硬盘限制故障
            • 下载或读取文件报错,提示超时、无剩余空间
            • 复制数据至容器中空间不足
            • Tensorflow多节点作业下载数据到/cache显示No space left
            • 日志文件的大小达到限制
            • 日志提示"write line error"
            • 日志提示“No space left on device”
            • OOM导致训练作业失败
            • 常见的磁盘空间不足的问题和解决办法
          • 外网访问限制
            • 日志提示“ Network is unreachable”
            • 运行训练作业时提示URL连接超时
          • 权限问题
            • 训练作业访问OBS时,日志提示“stat:403 reason:Forbidden”
            • 日志提示"Permission denied"
          • GP相关问题
            • 日志提示"No CUDA-capable device is detected"
            • 日志提示“RuntimeError: connect() timed out”
            • 日志提示“cuda runtime error (10) : invalid device ordinal at xxx”
            • 日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess”
            • 训练作业找不到GP
          • 业务代码问题
            • 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
            • 日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
            • 训练作业失败,返回错误码139
            • 训练作业失败,如何使用开发环境调试训练代码?
            • 日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
            • 日志报错“DataFrame.dtypes for data must be int, float or bool”
            • 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
            • 日志提示“Out of bounds nanosecond timestamp”
            • 日志提示“Unexpected keyword argument passed to optimizer”
            • 日志提示“no socket interface found”
            • 日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”
            • 日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'”
            • 日志提示“No module name 'unidecode'”
            • 分布式Tensorflow无法使用“tf.variable”
            • MXNet创建kvstore时程序被阻塞,无报错
            • 日志出现ECC错误,导致训练作业失败
            • 超过最大递归深度导致训练作业失败
            • 使用预置算法训练时,训练失败,报“bndbox”错误
            • 训练作业状态显示“审核作业初始化”
            • 训练作业进程异常退出
            • 训练作业进程被kill
          • 预置算法运行故障
            • 日志提示“label_map.pbtxt cannot be found”
            • 日志提示“root: XXX valid number is 0”
            • 日志提示“ValueError: label_map not match”
            • 日志提示“Please set the train_url to an empty obs directory”
            • 日志提示“UnboundLocalError: local variable 'epoch'”
            • 使用订阅算法训练结束后没有显示模型评估结果
            • 使用python3.6-torch1.4版本镜像环境安装MMCV报错
          • 训练作业卡死
            • 训练作业卡死检测定位
            • 复制数据卡死
            • 训练前卡死
            • 训练中途卡死
            • 训练最后一个epoch卡死
          • 训练作业运行失败
            • 训练作业运行失败排查指导
            • 训练作业运行失败,出现NCCL报错
            • 自定义镜像训练作业失败定位思路
            • 使用自定义镜像创建的训练作业一直处于运行中
            • 使用自定义镜像创建训练作业找不到启动文件
            • 训练作业的监控内存指标持续升高直至作业失败
            • 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map.pbtxt cannot be found
            • 训练作业训练失败报错:TypeError: unhashable type: ‘list’
          • 专属资源池创建训练作业
            • 创建训练作业界面无云存储名称和挂载路径排查思路
            • 创建训练作业时出现“实例挂卷失败”的事件
          • 训练作业性能问题
            • 训练作业性能降低
          • Ascend相关问题
            • Cann软件与Ascend驱动版本不匹配
            • 训练作业的日志出现detect failed(昇腾预检失败)
        • 推理部署
          • 模型管理
            • 创建模型失败,如何定位和处理问题?
            • 导入模型提示该账号受限或者没有操作权限
            • 用户创建模型时构建镜像或导入文件失败
            • 创建模型时,OBS文件目录对应镜像里面的目录结构是什么样的?
            • 通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志
            • 通过OBS创建模型时,构建日志中提示pip下载包失败
            • 通过自定义镜像创建模型失败
            • 导入模型后部署服务,提示磁盘不足
            • 创建模型成功后,部署服务报错,如何排查代码问题
            • 自定义镜像导入配置运行时依赖无效
            • 通过API接口查询模型详情,model_name返回值出现乱码
            • 导入模型提示模型或镜像大小超过限制
            • 导入模型提示单个模型文件超过5G限制
            • 订阅的模型一直处于等待同步状态
            • 创建模型失败,提示模型镜像构建任务超时,没有构建日志
          • 服务部署
            • 自定义镜像模型部署为在线服务时出现异常
            • 部署的在线服务状态为告警
            • 服务启动失败
            • 服务部署、启动、升级和修改时,拉取镜像失败如何处理?
            • 服务部署、启动、升级和修改时,镜像不断重启如何处理?
            • 服务部署、启动、升级和修改时,容器健康检查失败如何处理?
            • 服务部署、启动、升级和修改时,资源不足如何处理?
            • 模型使用CV2包部署在线服务报错
            • 服务状态一直处于“部署中”
            • 服务启动后,状态断断续续处于“告警中”
            • 服务部署失败,报错No Module named XXX
            • IEF节点边缘服务部署失败
            • 批量服务输入/输出obs目录不存在或者权限不足
            • 部署在线服务出现报错No CUDA runtime is found
            • 使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错
            • 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments
            • 内存不足如何处理?
            • 在线服务数量限制默认为11个:ModelArts.3520
            • 部署服务时报错exitcode:127
            • 部署服务时报错pod has unbound immediate PersistentVolumeClaims
          • 服务预测
            • 服务预测失败
            • 服务预测失败,报错APIG.XXXX
            • 在线服务预测报错ModelArts.4206
            • 在线服务预测报错ModelArts.4302
            • 在线服务预测报错ModelArts.4503
            • 在线服务预测报错MR.0105
            • 在线服务预测报错ModelArts.2803
            • 请求超时返回Timeout
            • 自定义镜像导入模型部署上线调用API报错
            • 在线服务预测报错DL.0105
            • 时序预测-time_series_v2算法部署在线服务预测报错
        • MoXing
          • 使用MoXing复制数据报错
          • 如何关闭Mox的warmup
          • Pytorch Mox日志反复输出
          • moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune?
          • 训练作业使用MoXing复制数据较慢,重复打印日志
          • MoXing如何访问文件夹并使用get_size读取文件夹大小?
        • API/SDK
          • 安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError”
          • ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错
          • 调用API创建训练作业,训练作业异常
          • 用户执行huaweicloud.com相关API超时
        • 资源池
          • 创建资源池失败
          • Standard资源池节点故障定位
          • 资源池推理服务一直初始化中如何解决
          • 专属资源池关联SFS Turbo显示异常
        • ModelArts Studio(MaaS)
          • ModelArts Studio(MaaS)模型调优作业运行失败,报错:Modelarts.6001
          • ModelArts Studio(MaaS)模型服务部署失败,报错:jod failed: real time create service failed
          • 在ModelArts Studio(MaaS)创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务,显示创建失败
          • 在ModelArts Studio(MaaS)创建训练任务,显示创建失败
        • Lite Server
          • GPU裸金属服务器使用EulerOS内核误升级如何解决
          • GPU A系列裸金属服务器没有任务但GPU被占用如何解决
          • GPU A系列裸金属服务器无法获取显卡如何解决
          • GPU裸金属服务器无法Ping通如何解决
          • GPU A系列裸金属服务器RoCE带宽不足如何解决?
          • 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed
          • 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案
          • 裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案
        • Lite Cluster
          • 资源池创建失败的原因与解决方法?
          • 如何定位和处理Cluster资源池节点故障
          • 特权池信息数据显示均为0%如何解决?
          • 重置节点后无法正常使用?
          • 如何根据Cluster节点故障自动恢复业务
      • 常见问题
        • 权限相关
          1. 使用ModelArts时提示“权限不足”,如何解决?
          2. 在Notebook中如何实现IAM用户隔离?
          3. 如何获取访问密钥?
        • 存储相关
          1. 在ModelArts中如何查看OBS目录下的所有文件?
        • Standard Workflow
          1. 如何定位Workflow运行报错
        • Standard数据准备
          1. 在ModelArts数据集中添加图片对图片大小有限制吗?
          2. 如何将本地标注的数据导入ModelArts?
          3. 在ModelArts中数据标注完成后,标注结果存储在哪里?
          4. 在ModelArts中如何将标注结果下载至本地?
          5. 在ModelArts中进行团队标注时,为什么团队成员收不到邮件?
          6. ModelArts团队标注的数据分配机制是什么?
          7. 如何将两个ModelArts数据集合并?
          8. 在ModelArts中同一个账户,图片展示角度不同是为什么?
          9. 在ModelArts中智能标注完成后新加入数据需要重新训练吗?
          10. 在ModelArts中如何将图片划分到验证集或者训练集?
          11. 在ModelArts中物体检测标注时能否自定义标签?
          12. ModelArts数据集新建的版本找不到怎么办?
          13. 如何切分ModelArts数据集?
          14. 如何删除ModelArts数据集中的图片?
        • Standard Notebook
          1. ModelArts的Notebook是否支持Keras引擎?
          2. 如何在ModelArts的Notebook中上传下载OBS文件?
          3. ModelArts的Notebook实例upload后,数据会上传到哪里?
          4. 在ModelArts中如何将Notebook A的数据复制到Notebook B中?
          5. 在ModelArts的Notebook中如何对OBS的文件重命名?
          6. 在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据?
          7. 在ModelArts的Notebook中,如何访问其他账号的OBS桶?
          8. 在ModelArts的Notebook中JupyterLab默认工作路径是什么?
          9. 如何查看ModelArts的Notebook使用的cuda版本?
          10. 在ModelArts的Notebook中如何获取本机外网IP?
          11. ModelArts的Notebook有代理吗?如何关闭?
          12. 在ModelArts的Notebook中内置引擎不满足使用需要时,如何自定义引擎IPython Kernel?
          13. 在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件?
          14. 在ModelArts的Notebook实例重启时,数据集会丢失吗?
          15. 在ModelArts的Notebook的Jupyterlab可以安装插件吗?
          16. 在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练?
          17. 如何在ModelArts的Notebook的CodeLab上安装依赖?
          18. 在ModelArts的Notebook中安装远端插件时不稳定要怎么办?
          19. 在ModelArts的Notebook中实例重新启动后要怎么连接?
          20. 在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办?
          21. 在ModelArts的Notebook中使用VS Code如何查看远端日志?
          22. 在ModelArts的Notebook中如何打开VS Code的配置文件settings.json?
          23. 在ModelArts的Notebook中如何设置VS Code背景色为豆沙绿?
          24. 在ModelArts的Notebook中如何设置VS Code远端默认安装的插件?
          25. 在ModelArts的VS Code中如何把本地插件安装到远端或把远端插件安装到本地?
          26. 在ModelArts的Notebook中,如何使用昇腾多卡进行调试?
          27. 在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多?
          28. 在ModelArts的Notebook中使用MoXing时,如何进行增量训练?
          29. 在ModelArts的Notebook中如何查看GPU使用情况?
          30. 在ModelArts的Notebook中如何在代码中打印GPU使用信息?
          31. 在ModelArts的Notebook中JupyterLab的目录、Terminal的文件和OBS的文件之间的关系是什么?
          32. 如何在ModelArts的Notebook实例中使用ModelArts数据集?
          33. pip介绍及常用命令
          34. 在ModelArts的Notebook中不同规格资源/cache目录的大小是多少?
          35. 资源超分对在ModelArts的Notebook实例有什么影响?
          36. 如何在Notebook中安装外部库?
          37. 在ModelArts的Notebook中,访问外网速度不稳定怎么办?
          38. Notebook是否支持使用gdb工具?
          39. CodeLab打开Terminal后超时
          40. 为什么在ModelArts的Notebook中训练出现昇腾910的NPU-2 AIcore使用率低,但HBM使用率高的情况?
          41. 如何在ModelArts的Notebook或Lite Server环境里查看CANN路径?
        • Standard模型训练
          1. 在ModelArts训练得到的模型欠拟合怎么办?
          2. 在ModelArts中训练好的模型如何获取?
          3. 在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练?
          4. 在ModelArts上训练模型如何配置输入输出数据?
          5. 在ModelArts上如何提升训练效率并减少与OBS的交互?
          6. 在ModelArts中使用Moxing复制数据时如何定义路径变量?
          7. 在ModelArts上如何创建引用第三方依赖包的训练作业?
          8. 在ModelArts训练时如何安装C++的依赖库?
          9. 在ModelArts训练作业中如何判断文件夹是否复制完毕?
          10. 如何在ModelArts训练作业中加载部分训练好的参数?
          11. ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办?
          12. 在ModelArts训练代码中,如何获取依赖文件所在的路径?
          13. 如何获取ModelArts训练容器中的文件实际路径?
          14. ModelArts训练中不同规格资源“/cache”目录的大小是多少?
          15. ModelArts训练作业为什么存在/work和/ma-user两种超参目录?
          16. 如何查看ModelArts训练作业资源占用情况?
          17. 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
        • Standard推理部署
          1. 如何将Keras的.h5格式的模型导入到ModelArts中?
          2. ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数?
          3. 在ModelArts中使用自定义镜像创建在线服务,如何修改端口?
          4. ModelArts平台是否支持多模型导入?
          5. 在ModelArts中导入模型对于镜像大小有什么限制?
          6. ModelArts在线服务和批量服务有什么区别?
          7. ModelArts在线服务和边缘服务有什么区别?
          8. 在ModelArts中部署模型时,为什么无法选择Ascend Snt3资源?
          9. ModelArts线上训练得到的模型是否支持离线部署在本地?
          10. ModelArts在线服务预测请求体大小限制是多少?
          11. ModelArts部署在线服务时,如何避免自定义预测脚本python依赖包出现冲突?
          12. ModelArts在线服务预测时,如何提高预测速度?
          13. 在ModelArts中调整模型后,部署新版本模型能否保持原API接口不变?
          14. ModelArts在线服务的API接口组成规则是什么?
          15. ModelArts在线服务处于运行中时,如何填写request header和request body?
        • Standard镜像相关
          1. 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook?
          2. 如何登录并上传镜像到SWR?
          3. 在Dockerfile中如何给镜像设置环境变量?
          4. 如何通过docker镜像启动容器?
          5. 如何在ModelArts的Notebook中配置Conda源?
          6. ModelArts的自定义镜像软件版本匹配有哪些注意事项?
          7. 镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么?
          8. 如何保证自定义镜像能不因为超过35G而保存失败?
          9. 如何减小本地或ECS构建镜像的目的镜像的大小?
          10. 镜像过大,卸载原来的包重新打包镜像,最终镜像会变小吗?
          11. 在ModelArts镜像管理注册镜像报错ModelArts.6787怎么处理?
          12. 用户如何设置默认的kernel?
        • Standard专属资源池
          1. ModelArts支持使用ECS创建专属资源池吗?
          2. 在ModelArts中1个节点的专属资源池,能否部署多个服务?
          3. 在ModelArts中公共资源池和专属资源池的区别是什么?
          4. ModelArts中的作业为什么一直处于等待中?
          5. ModelArts控制台为什么能看到创建失败被删除的专属资源池?
          6. ModelArts训练专属资源池如何与SFS弹性文件系统配置对等连接?
        • ModelArts Studio(MaaS)
          1. 什么是Token?
          2. 在ModelArts Studio(MaaS) 创建API Key后需要等待多久才能生效?
          3. ModelArts Studio(MaaS)的API Key是否支持跨区域使用?
          4. 在ModelArts Studio(MaaS)配置模型服务接口地址时需要注意什么格式问题?
          5. 在ModelArts Studio(MaaS)如何正确获取模型名称?
          6. ModelArts Studio(MaaS)调优数据集异常日志说明
          7. 如果模型服务的RPM数值为300,可以1秒直接发送300个请求吗?
        • Edge
          1. 在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议?
        • API/SDK
          1. ModelArts SDK、OBS SDK和MoXing的区别是什么?
          2. ModelArts的API或SDK支持模型下载到本地吗?
          3. ModelArts通过OBS的API访问OBS中的文件,属于内网还是公网访问?
          4. 调用ModelArts API接口创建训练作业和部署服务时,如何填写资源池的参数?
        • Lite Server
          1. GPU A系列裸金属服务器如何进行RoCE性能带宽测试?
          2. GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法?
          3. 如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic?
          4. 如何禁止Ubuntu 20.04内核自动升级?
          5. 哪里可以了解Atlas800训练服务器硬件相关内容
          6. 使用GPU A系列裸金属服务器有哪些注意事项?
          7. GPU A系列裸金属服务器如何更换NVIDIA和CUDA?
        • Lite Cluster
          1. Cluster资源池如何进行NCCl Test?
      • 视频帮助
      • 文档下载
      • 通用参考
        • 产品术语
        • 云服务等级协议(SLA)
        • 白皮书资源
        • 支持区域
        • 系统权限