tensorflow和keras 更多内容
  • 高性能调度

    间亲和性反亲和性配置计算task优先级Node优先级的算法。通过在Job内配置task之间的亲和性反亲和性策略,并使用task-topology算法,可优先将具有亲和性配置的task调度到同一个节点上,将具有反亲和性配置的Pod调度到不同的节点上。同样是处理亲和性反亲和性

    来自:帮助中心

    查看更多 →

  • 在Notebook中通过Dockerfile从0制作自定义镜像用于推理

    通过功能,上传dockerfile文件模型包文件到Notebook中,默认工作目录/home/ma-user/work/。 dockerfile文件的具体内容可以参见Dockerfile模板。模型包文件需要用户自己准备,样例内容参见模型包文件样例。 图2 上传dockerfile文件模型包文件 打开Terminal终端,解压model

    来自:帮助中心

    查看更多 →

  • 功能咨询

    如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? 如何查询 自定义镜像 的cudacudnn版本? Moxing安装文件如何获取? 如何使用soft NMS方法降低目标框堆叠度 多节点训练TensorFlow框架ps节点作为server会一直挂着,ModelArts是怎么判定训练任务

    来自:帮助中心

    查看更多 →

  • 创建自动模型优化的训练作业

    创建自动模型优化的训练作业 背景信息 如果用户使用的AI引擎pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64,并且优化

    来自:帮助中心

    查看更多 →

  • ModelArts最佳实践案例列表

    DevServer的训练过程,训练使用PyTorch框架昇腾NPU计算资源。 应用于AIGC多模态视频编码器。 数字人场景 样例 场景 说明 Wav2Lip推理基于DevServer适配PyTorch NPU推理指导(6.3.907) Wav2Lip训练基于DevServer适配PyTorch NPU训练指导(6

    来自:帮助中心

    查看更多 →

  • 导入/转换ModelArts开发模型

    需要通过此参数指定“NCHW”。 net_format 优选数据格式,即指定网络算子优先选用的数据格式,“ND(N=4)”“5D”。仅在网络中算子的输入数据同时支持“ND”“5D”两种格式时,指定该参数才生效。“ND”表示模型中算子按“NCHW”转换成通用格式,“5D”表示模型中算子按

    来自:帮助中心

    查看更多 →

  • 如何使用soft NMS方法降低目标框堆叠度

    如何使用soft NMS方法降低目标框堆叠度 目前华为云AI市场订阅的算法YOLOv3-Ascend(物体检测/TensorFlow)中可以使用soft NMS,YOLOv5算法文档中没有看到相关支持的信息,需要自定义算法进行使用。 父主题: 功能咨询

    来自:帮助中心

    查看更多 →

  • 替换TFJob

    "template": { "spec": { "containers": [ {

    来自:帮助中心

    查看更多 →

  • 批量计算

    在CCE集群中部署使用Kubeflow 在CCE集群中部署使用Caffe 在CCE集群中部署使用Tensorflow 在CCE集群中部署使用Flink 在CCE集群中部署使用ClickHouse 在CCE集群中部署使用Spark

    来自:帮助中心

    查看更多 →

  • 基本概念

    基本概念 AI引擎 可支持用户进行机器学习、深度学习、模型训练作业开发的框架,如TensorflowSpark MLlibMXNetPyTorch、华为自研AI框架MindSpore等。 数据集 某业务下具有相同数据格式的数据逻辑集合。 特征操作 特征操作主要是对数据集进行特征处理。

    来自:帮助中心

    查看更多 →

  • 准备数据

    另一个方式,是配置 MRS 集群的安全组策略,开放部分端口提供给计算节点。 必须确保互通的ip端口: KrbServer的ip,以及tcp端口21730 udp端口(21732,21731) zookeeper的ip端口(2181) Hive-server的ip端口(10000) MRS Manager的TCP端口(9022)

    来自:帮助中心

    查看更多 →

  • 引擎版本和规格

    引擎版本规格 查询数据库引擎的版本 查询数据库规格 查询引擎列表 查询实例可变更规格 父主题: API(推荐)

    来自:帮助中心

    查看更多 →

  • 引擎版本和规格

    引擎版本规格 查询数据库规格 父主题: 历史API

    来自:帮助中心

    查看更多 →

  • 使用Kubeflow和Volcano实现典型AI训练任务

    到2个GPU。但是TFJob1TFJob2均需要4块GPU卡才能运行起来。这样TFJob1TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,PsWorker存在很频繁的数据交互,所以PsWorker之间的带宽直接影响了训练的效率。

    来自:帮助中心

    查看更多 →

  • 模型配置文件编写说明

    } ] } } 配置文件 代码中request结构response结构中的data参数是json schema数据结构。data/properties里面的内容对应“模型输入”“模型输出”。 1 2 3 4 5 6 7 8 9 10 11

    来自:帮助中心

    查看更多 →

  • 硬盘限制故障

    硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device”

    来自:帮助中心

    查看更多 →

  • SQL和DataFrame

    SQLDataFrame Spark SQL ROLLUPCUBE使用的注意事项 Spark SQL在不同DB都可以显示临时表 如何在Spark命令中指定参数值 SparkSQL建表时的目录权限 为什么不同服务之间互相删除UDF失败 Spark SQL无法查询到Parquet类型的Hive表的新插入数据

    来自:帮助中心

    查看更多 →

  • 基础支撑系统

    型进行分析优化时进行模型比对评估;支持模型以镜像方式存储导入;支持查询模型版本详情,包括模型名称、ID、状态、版本号、部署类型、事件的信息; 提供模型存储、查询删除的能力,支持多种类型AI引擎的统一管理;支持从训练作业导入模型、支持从O对象存储导入模型、支持导入用户自定义

    来自:帮助中心

    查看更多 →

  • 使用JupyterLab在线开发和调试代码

    erLab官网文档。 图3 JupyterLab主页 不同AI引擎的Notebook,打开后Launcher页面呈现的NotebookConsole内核及版本均不同,图3仅作为示例,请以实际控制台为准。 准备训练数据代码文件,上传到JupyterLab中。具体参见上传本地文件至JupyterLab。

    来自:帮助中心

    查看更多 →

  • Argo作业

    可单击“添加角色”,添加多个角色。 角色名称 输入角色名称。要求如下: 长度范围为1~10个字符。 名称由小写字母、数字、中划线(-)点(.)组成。 中划线(-)点(.)必须以字母或数字隔开。 以小写字母开头结尾。 实例数量 输入实例数量。 容器配置 容器配置参数,请参见表5。 可单击“添加容器”,添加多个容器。

    来自:帮助中心

    查看更多 →

  • 制作自定义镜像用于训练模型

    已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU) 从0制作自定义镜像用于创建训练作业(MPI+CPU/GPU) 从0制作自定义镜像用于创建训练作业(Tensorflow+GPU) 从0制作自定义镜像用于创建训练作业(MindSpore+Ascend)

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了