识别图像中的文字_文字识别套件使用简介-华为云

文字识别套件使用简介

文字识别套件使用简介 ModelArts Pro 是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力，提供预置工作流和模型，提升企业AI应用的开发效率，降低开发难度。文字识别套件基于丰富的文字识别算法和行业知识积累，帮助客户快速构建满足不同业务场景需求的文字

来自：帮助中心

查看更多 →
什么是图像识别

推荐、广告营销等领域。图1 媒资图像标签示例图名人识别利用深度神经网络模型对图片内容进行检测，准确识别图像中包含的影视明星、网红人物等。主体识别利用后台算法来检测图像中的主体内容，识别主体内容的坐标信息。图2 主体识别示例图翻拍识别利用深度神经网络算法判断条形码图

来自：帮助中心

查看更多 →
华为图像识别（体验）

BS提供的URL。置信度阈值置信度的阈值（0~100），低于此置信数的标签，将不会返回。默认值：60。标签语言类型返回标签的语言类型。zh：中文；en：英文。默认值为zh。最多返回标签数最多返回的标签数，默认值： 50。输出参数用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表4。

来自：帮助中心

查看更多 →
约束与限制

图像各边的像素大小在15到8192px之间。图像中身份证区域有效占比超过25%，保证整张身份证内容及其边缘包含在图像内。支持图像中身份证任意角度的水平旋转。支持少量扭曲，扭曲后图像中的身份证长宽比与实际身份证相差不超过10%。能处理反光、暗光等干扰的图片但影响识别精度。目前支持识别单张身份证的正面或者反面。

来自：帮助中心

查看更多 →
图像识别SDK简介

SDK）是对图像识别提供的REST API进行的封装，以简化用户的开发工作。用户通过添加依赖或下载的方式调用API即可实现使用图像识别业务能力的目的。接口与API对应关系图像识别接口与API对应关系请参见表1。表1 接口与API对应关系表接口 API 媒资图像标签 POST

来自：帮助中心

查看更多 →
工作流介绍

测试图片的模板，并且能正确识别测试图片中的识别区文字。评估应用部署服务模板图片评估后，可以部署模板至文字识别开发套件中，开发属于自己的文字识别应用，此应用用于识别自己所上传的多模板样式的图片。部署服务父主题：多模板分类工作流

来自：帮助中心

查看更多 →
准备数据

受技术与成本多种因素制约，文字识别服务存在一些约束限制。以通用文字识别API为例，输入数据存在以下约束。其他API的的使用约束请参见约束与限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15px到8192px之间。图像中识别区域有效占比超过

来自：帮助中心

查看更多 →
工作流介绍

区分不同的模板。框选参照字段框选识别区在图片模板中框选识别区，确定模板图片中需要识别的文字位置。框选识别区模板总览检查所有模板是否已正确配置。模板总览评估通过上传测试图片，在线评估模板分类情况和模板的文字识别情况，保证能在多个模板情况下正确分类测试图片的模板，并且能正确识别测试图片中的识别区文字。

来自：帮助中心

查看更多 →
行业套件介绍

中的文字，提供高精度的文字识别模型，保证结构化信息提取精度。通用单模板工作流通过构建文字识别模板，识别单个板式图片中的文字，提供高精度的文字识别模型，保证结构化信息提取精度。多模板分类工作流支持用户自定义多个文字识别模板，通过模型训练，自动识别图片所需使用的模板，从而支持从大量不同板式图像中提取结构化信息。

来自：帮助中心

查看更多 →
自定义OCR介绍

作流，自主构建文字识别模板，识别模板图片中的文字，提供高精度的文字识别模型，保证结构化信息提取精度。通用单模板工作流通过构建文字识别模板，识别单个板式图片中的文字，提供高精度的文字识别模型，保证结构化信息提取精度。多模板分类工作流支持用户自定义多个文字识别模板，通过AI分

来自：帮助中心

查看更多 →
使用单模板工作流开发应用

ModelArts Pro的文字识别套件提供了通用单模板工作流，通过工作流指引可构建文字识别模板，识别单个板式图片中的文字，快速实现文档、票证等场景的文字识别。本章节提供一个身份证样例，帮助您快速熟悉使用文字识别套件中的通用单模板工作流开发应用的过程。通过上传模板图片、框选参照字段和识别区，自动

来自：帮助中心

查看更多 →
对接OCR识别图片中文字

与前提条件中的“SK”的值。打包当前配置选中该选项后，应用打包时会将当前配置的连接器信息一并打出。例如，如果应用包发布到运行环境，当前配置默认会被同步到运行环境中。如果不勾选，则内容不会打包发布到运行环境，此时需要您参考管理应用中的连接器中操作，创建对应的连接器。默认为选中，对信息敏感的场景，建议不勾选。

来自：帮助中心

查看更多 →
功能体验与试用

功能体验与试用文字识别（Optical Character Recognition，OCR）是指对图像文件的打印字符进行检测识别，将图像中的文字转换成可编辑的文本格式。OCR通过API提供服务能力，用户需要通过编程来处理识别结果。在开通OCR前，请先使用OCR体验馆体验服务功

来自：帮助中心

查看更多 →
使用流程简介

OCR服务需要用户通过调用API接口，将图片或扫描件中的文字识别成可编辑的文本，然后返回JSON格式的识别结果，用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。关于文字识别的相关声明请参见文字识别服务声明。文字识别服务等级协议请参见华为云服务等级协议。

来自：帮助中心

查看更多 →
使用多模板工作流开发应用

IFF格式的图片。图像各边的像素大小在100px到4096px之间。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。支持图像任意角度的水平旋转。目前不支持复杂背景（如户外自然场景、防伪水印等）和文字扭曲图像的文字识别。用于训练多模板分类器的训练集，需

来自：帮助中心

查看更多 →
华为类

华为类华为图像识别华为图像识别（体验）华为图像搜索华为文字识别华为文字识别（体验）华为人脸识别华为语音识别华为语言生成华为语言理解华为机器翻译华为机器翻译（体验）华为天气服务华为天气（体验）华为会议（体验）华为云OBS 华为短信华为短信（体验）华为空气质量（体验）

来自：帮助中心

查看更多 →
（可选）授权子账号使用图像识别服务

返回用户组列表，单击新建用户组右侧的“权限配置”，在“权限管理”页签中查看已经配置好的权限。如图4所示。图4 权限管理步骤2：创建IAM用户 IAM用户与企业中的实际员工或是应用程序相对应，有唯一的安全凭证，可以通过加入一个或多个用户来获得用户组的权限。关于IAM用户的创建方式请参见如下步骤。

来自：帮助中心

查看更多 →
应用场景

全方位检测：提供多模态综合审核方案，对视频内容中的画面、声音、文字进行全方位解析。内容审核 -文档网盘存储与共享精准检测网盘用户上传文档内包含的图片及文本中存在的敏感、色情、违禁等风险内容，规避平台内容风险。企业内部文档对企业内部文档进行全面图文内容合规检测，识别潜在的违规内容，维护企业形象。

来自：帮助中心

查看更多 →
使用连接器对接云服务

对接Redis实现AstroZero对象数据缓存能力对接 CSS 实现在应用中调用分布式搜索对接OCR识别图片中文字对接IEF管理边缘节点对接ModelArts Pro实现在应用中使用文字识别和自然语言处理能力对接ModelArt识别图像和文字对接SMN发送短信对接Message& SMS 发送短信

来自：帮助中心

查看更多 →
华为内容审核（体验）

图片URL路径与上传图片二选一公网URL/华为云OBS提供的URL。上传图片与图片URL路径二选一上传图片的地址，支持JPG/PNG/BMP格式。输出参数用户可以在之后的执行动作中调用该输出参数，输出参数说明请参考表2。表2 图像内容审核输出参数说明参数说明审核结果明细审核结果明细。

来自：帮助中心

查看更多 →
解读识别结果

按照图片文字从上到下、从左到右排列。 words为识别出来的文本内容，confidence表示该字段的置信度。 location表示文字块的区域位置信息，采用图像坐标系，第一个文字块左上角顶点为[140,45]。 extracted_data表示图片中包含的联系人信息，仅在设置了

来自：帮助中心

查看更多 →