基础支撑系统
工业AI开发平台设计
本次工业AI开发平台采用华为ModelArts AI技术平台。华为ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及模型部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
“一站式”是指AI开发的各个环节,包括数据处理、模型训练、模型部署都可以在ModelArts上完成。从技术上看,ModelArts底层支持各种异构计算资源,开发者可以根据需要灵活选择使用,而不需要关心底层的技术。同时,ModelArts支持Tensorflow、PyTorch、MindSpore等主流开源的AI开发框架,也支持开发者使用自研的算法框架,匹配您的使用习惯。
ModelArts的理念就是让AI开发变得更简单、更方便。
ModelArts是一个一站式的开发平台,能够支撑开发者从数据到AI应用的全流程开发过程。包含数据处理、模型训练、模型管理、模型部署等操作。
ModelArts支持应用到图像分类、物体检测应用场景。
为了满足工业互联网平台的业务发展需求,华为设计的工业AI开发平台提供但不限于以下能力:
包含数据管理、模型开发训练、模型管理部署、资源调度引擎等功能模块,并配置管理标书中给定规模的AI训练资源。
具体功能介绍:
- 整体系统:系统采用B/S架构,无需安装插件,无需下载客户端
- 数据处理与标注:提供新建标注数据集功能,数据类型需涵盖图像、视频、文本、表格、音频;可设置数据集名称;支持按比例进行数据切分;支持将同一数据集发布为不同版本,对数据集进行跟踪与回溯;支持以Pascal Voc格式进行数据集导出与导入;支持清单文件(manifest)格式进行数据集导入;标注工具提供2D框、多边形、点、直线等标注图形;支持数据可视化标注,查看标注详情;支持标注框颜色按照物体类型区分。
- 开发环境:预置主流AI引擎,如TensorFlow、MindSpore等开源框架;支持通过自定义镜像构建开发环境;支持自动停止,实现空闲算力自动回收提升资源使用率;支持镜像保存,对化镜像的修改完成持久化保存;支持镜像变更,允许用户在同一个Notebook实例中切换镜像,方便用户灵活调整实例的AI引擎;预置MindInsight实现模型训练可视化;支持通过SSH方式登录开发环境进行远程开发,通过密钥对和远程访问白名单实现开发环境的安全访问;支持开发环境实例选择不同的规格的AI芯片资源;预置MindStudio进行算子开发;提供对开发环境实例创建和管理,包括实例创建,实例运行,实例停止,实例删除;支持
- 训练管理:预置计算框架Tensorflow、Mindspore;提供计算框架及其依赖环境的定期版本更新;支持用户以Docker镜像的方式自定义构建计算框架;;支持作业分组展示,配置列表展示,配置可见性,方便用户对不同实验作业的管理和查询;提供对训练作业创建和管理,包括作业创建,作业终止,作业重建等能力;提供实时日志查看训练作业实时状态,辅助模型调优;支持将实时日志持久化存储到对象存储;支持故障诊断模式,用户可以查看故障诊断数据辅助问题定位;支持查看训练作业历史资源占用情况,资源占用指标包括CPU,MEM,AI芯片利用率,AI芯片显存利用率;支持对不同版本的算法代码进行管理;
- 资源管理:具备不同类型算力资源的统一纳管能力,可纳管国内外主流AI芯片,涵盖英伟达GPU、昇腾NPU等;具备资源调度、分配与管理能力;支持紧凑型资源调度,提升资源使用率;支持资源池扩缩容;支持对专属资源池的资源分配率、使用率查看;支持将开发环境、训练作业部署到公共资源池和专属资源池中;
工业AI运营平台设计
本次工业AI运营平台同样以华为ModelArts AI技术平台为基础进行构建。华为ModelArts是面向AI开发者的一站式开发平台
为了满足人工智能计算中心的业务发展需求,工业AI运营平台提供但不限于以下能力:
包含数据管理、模型管理部署、在线推理、批量推理、工作流引擎平台、AI算法模型资产管理等功能模块,并配置管理标书中给定规模的AI推理资源。
- 整体系统:系统采用B/S架构,无需安装插件,无需下载客户端
- AI应用模型管理:提供管理模型版本变化的能力,记录各版本模型发布时间、模型大小、精度、AI引擎、模型来源等信息,对模型进行分析和优化时进行模型比对和评估;支持模型以镜像方式存储和导入;支持查询模型版本详情,包括模型名称、ID、状态、版本号、部署类型、事件的信息;
提供模型存储、查询和删除的能力,支持多种类型AI引擎的统一管理;支持从训练作业导入模型、支持从O对象存储导入模型、支持导入用户自定义镜像;支持修改AI应用描述;支持将Tensorflow模型格式转换为Mindspore模型格式;
- 部署管理:支持在线推理服务和批量推理服务两种形式部署;支持将AI应用多个版本部署为一个服务,可配置不同版本分流比例;模型部署为在线推理服务时,平台自动配置对外Rest API 接口,以提供实时推理服务,通过AKSK认证保证服务的安全访问;在线服务Rest API接口使用时,支持从公网发起预测请求同时支持从租户VPC发起预测请求;支持多种节点规格进行在线推理服务与批量推理服务部署;支持服务部署在专属资源池或公共资源池中;支持对在线服务每秒内能够被访问的次数上限进行配置;支持在线推理服务设置自动停止时间,实现空闲算力自动回收,提升资源使用率;支持对在线服务的配置、更新、事件进行记录,对在线服务的变更进行跟踪与回溯;支持查看在线推理服务实时资源占用情况,资源占用指标包括CPU,内存,AI芯片;支持查看在线推理服务实时日志;支持在线服务滚动升级,实现平滑更新在线服务的AI应用版本;支持对在线服务的查询,更新,对在线服务进行启停;支持从控制台发起预测请求进行在线服务效果测试;支持对在线推理服务进行数据采集,采集到的数据自动上传至对象存储;
- 资源管理:具备不同类型算力资源的统一纳管能力,可纳管国内外主流AI芯片,涵盖英伟达GPU、昇腾NPU等;具备资源调度、分配与管理能力;支持紧凑型资源调度,提升资源使用率;支持资源池扩缩容;支持对专属资源池的资源分配率、使用率查看;支持将开发环境、训练作业、推理服务部署到公共资源池和专属资源池中;
- AI Hub:通过AI Hub实现AI算法模型资产管理。支持对算法、数据集、workflow的资产进行发布、订阅、版本管理、查询、编辑、收藏;支持资产目录,支持通过标签摘选资产,支持收藏和取消收藏资产
- workflow:通过workflow构建工作流引擎平台。
支持通过工作流进行有向无环图(Directed Acyclic Graph,DAG)的开发;支持工作流,支持定义作业节点、模型注册节点、服务部署节点、条件节点;支持流水线工具,支持覆盖数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤;支持工作流的启动、重试、停止、继续运行等基本功能;支持查看工作流节点的运行状态、启动时间以及运行时长;支持工作流目录统一规划,支持资源配置管理和参数配置管理;
支持从 AI Hub订阅Workflow;支持Workflow进行管理包括启停、查询、删除;支持将数据标注、模型训练、AI应用管理、服务部署、服务更新等能力进行流程编排;支持对历史Workflow运行的参数以及状态记录,方便回溯与对比;
产品设计3D模型搜索
中小型制造企业通过长年累月的积累形成了庞大的3D模型库 ,但是这些模型由于各种原因存在标签标注模糊、不准确或“一物多码”等情况,单一且传统的关键字检索方式无法有效的从海量模型中快速并准确的找到所需模型进行重用,从而导致如设计效率低下、无序设计所导致的物料管理成本、集采成本大幅增加等诸多成本管理问题因此,通过更为智能且多样的数据信息及模型检索方式来快速找到并重用数据对于企业实现提效降本将尤为重要。
3D模型搜索引擎支持包括3D形状检索、2D形状检索、关键词检索、属性查询、组合检索等多搜索方式,企业可以利用引擎快速搭建3D模型管理和检索应用,帮助设计工程师快速地查找已有设计图档并进行重用,从而提高工作效率。同时,引擎帮助企业提升零件标准化率,节约成本。
3D模型搜索引擎可支持3D模型管理、3D模型搜索、3D模型批量操作以及引擎平台部署服务,底层依赖华为云盘古大模型、向量检索引擎、容器引擎以及各种数据服务。3D模型管理服务为用户提供模型索引库创建、更新、删除和模型数据的入库、更新、查询、删除接口,支持用户构建和管理3D模型索引库。3D模型搜索服务为用户提供库内数据的各种搜索接口,用户可利用该接口对库中模型数据进行多种不同模态的检索。3D模型批量操作服务为用户提供批量的数据操作功能,包括批量数据入库、更新、删除和批量数据的重复率分析等。引擎平台部署服务是将引擎进行容器化部署,减少对部署环境以及底层的依赖。
数字化转型与精益生产方法论实践学习平台
工业4.0时代下,充分利用数字化优势使能行业发展是工业互联网产教培训平台致力探索研究的核心,当前,人才缺乏已成为影响我国工业互联网创新发展的重要因素,各行业不仅需要OT和IT复合型人才,也需要企业管理、行业领军、专业技术、产业工人等多维度、多层次人才。更广范围、更深程度、更高水平的融合发展是平台建设的宗旨。
工业模型管理平台
华为云工业模型管理平台(DME)基于华为内部支撑华为工业应用的通用数据管理底座基础上,构建数据模型驱动能力,为工业数据管理软件提供通用工业数据管理引擎能力。
针对各个工业软件对工业模型管理平台整体技术要求高、业务需求复杂、千DM千场景等的要求下,华为云工业模型管理平台,构建数据模型驱动和元模型驱动多租架构的工业模型管理平台,架构设计思想为万物皆模型,一切皆数据,架构示意如下:
- 底层为基础数据,数据会统一有元数据进行定义和描述;
- 元元数据将底层数据进行定义和描述,元数据由底层抽象的元元数据组成,同时元数据被数据模型定义;
- 数据模型驱动,数据模型可定义和描述业务对象实体、关系、功能、API、UI、权限、数据图谱;
- 工业模型管理平台提供各类元数据引擎,未来可扩展支持流程、规则、数据质量、报表等元数据引擎;
- 基于元数据引擎构建工业数据管理应用设计能力;
- 根据设计服务及其所定义的元数据自动生成工业数据原理引擎:构建模型驱动、功能可配置、服务可编排、一键可发布的统一能力。真正做到设计即开发。
华为云工业模型管理平台总体架构如下:
工业服务开发者平台
工业服务开发者平台包括代码管理,代码扫描,项目协同,数据安全,后台管理及小程序版本等功能。