python识别图片内的文字_使用流程简介-华为云

使用流程简介

OCR服务需要用户通过调用API接口，将图片或扫描件中的文字识别成可编辑的文本，然后返回JSON格式的识别结果，用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。关于文字识别的相关声明请参见文字识别服务声明。文字识别服务等级协议请参见华为云服务等级协议。

来自：帮助中心

查看更多 →
通用类

通用表格识别提取表格内的文字和所在行列位置信息，适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化，恢复结构化信息。通用文字识别提取图片内的文字及其对应位置信息，并能够根据文字在图片中的位置进行结构化整理工作。手写文字识别识别文档中的手写文字信息，并将识别的结构化结果返回给用户。

来自：帮助中心

查看更多 →
文字识别套件使用简介

文字识别套件使用简介 ModelArts Pro 是为企业级AI应用打造的专业开发套件。基于华为云的先进算法和快速训练能力，提供预置工作流和模型，提升企业AI应用的开发效率，降低开发难度。文字识别套件基于丰富的文字识别算法和行业知识积累，帮助客户快速构建满足不同业务场景需求的文字

来自：帮助中心

查看更多 →
如何选购合适的API

如何选购合适的API 文字识别服务（OCR）提供四种类型的API：通用类、证件类、票据类、智能分类。除此之外，您也可以使用ModelArts Pro服务提供的“文字识别套件”零代码搭建出专属的文字识别系统。通用类通用表格识别：提取表格内的文字和所在行列位置信息。通用文字识别：提取图片内的文字及其对应位置信息。

来自：帮助中心

查看更多 →
约束与限制

要多并发请求，请提前联系我们。名片识别只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在15到8192px之间。图像中名片的有效占比超过60%，保证整张名片内容包含在图像内。支持图像中名片的任意角度的水平旋转（需开启方向检测）。能处理

来自：帮助中心

查看更多 →
提取图片中的文字暗水印（文件地址版本）

提取图片中的文字暗水印（文件地址版本）功能介绍对指定存储地址信息（目前支持OBS）的已嵌入文字暗水印的图片提取文字暗水印，支持的图片格式为：*.jpg, *.jpeg, *.jpe, *.png, *.bmp, *.dib, *.rle, *.tiff, *.tif, *.ppm

来自：帮助中心

查看更多 →
API概览

API概览通过使用文字识别服务的自研API，您可以使用文字识别服务的所有功能，如表1所示。文字识别服务当前支持通用类、证件类、票据类和智能分类四种不同类型的接口。您可以通过在线体验，体验接口的识别效果。对于固定板式的图片，如果当前接口不满足您的业务需求，可以使用ModelArts

来自：帮助中心

查看更多 →
对接ModelArt识别图像和文字

私有访问密钥，与访问密钥ID结合使用的密钥，对请求进行加密签名，可标识发送方，并防止请求被修改。配置为前提条件中“SK”的值。区域选择对接ModelArts的服务区域。项目ID ModelArts服务区域，对应的项目ID。描述根据实际需求，输入连接器的描述信息。取值范围：1~255个字符。

来自：帮助中心

查看更多 →
如何提高识别精度

如何提高识别精度尽量使用文字清晰度高、无反光的图片。进行图片采集时，尽量提高待识别文字区域占比，减少无关背景占比，保持图片内文字清晰人眼可辨认。若图片有旋转角度，算法支持自动修正，建议图片不要过度倾斜。图片尺寸方面，建议最长边不超过8192像素，最短边不小于15像素，图像长宽比例维持常见水平

来自：帮助中心

查看更多 →
OCR服务使用简介

OCR服务使用简介文字识别（Optical Character Recognition，简称OCR）指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。 OCR以开放API（Application Programming Interface，应用程序

来自：帮助中心

查看更多 →
方案概述

描后的照片上传至OBS桶内即可自动进行证件信息识别，识别成功后会自动将识别结果存放到指定的OBS桶里，用户可直接从桶中取出的证件信息内容。人证核身：用户只需要将人脸信息上传至OBS桶中，上传后可在已经存储了身份证识别信息的桶内自动调取身份证号和姓名并与人脸信息一起进行人证核身，人

来自：帮助中心

查看更多 →
使用单模板工作流开发应用

ModelArts Pro的文字识别套件提供了通用单模板工作流，通过工作流指引可构建文字识别模板，识别单个板式图片中的文字，快速实现文档、票证等场景的文字识别。本章节提供一个身份证样例，帮助您快速熟悉使用文字识别套件中的通用单模板工作流开发应用的过程。通过上传模板图片、框选参照字段和识别区，自动

来自：帮助中心

查看更多 →
方案概述

人的姓名、电话、地址，面单上的物流编码、三段码、条形码等信息。方案优势支持多场景支持电子面单识别和网络图片识别，打通服务壁垒，提供更好的业务场景支持。电子面单识别支持多家物流公司版式，能在多种复杂因素下（模糊、缺角、褶皱、阴影）准确识别。简单易用用户只需要将需要识别的图

来自：帮助中心

查看更多 →
工作流介绍

在图片模板中框选识别区，确定模板图片中需要识别的文字位置。框选识别区评估应用通过上传与模板图片同一板式的测试图片，评估图片识别结果是否正确。评估应用部署服务模板图片评估后，可以部署模板至文字识别开发套件中，开发属于自己的文字识别应用，此应用用于识别自己所上传的模板样式的图片。部署服务父主题：通用单模板工作流

来自：帮助中心

查看更多 →
工作流介绍

框选识别区评估通过上传与模板图片同一板式的测试图片，评估图片识别结果是否正确。评估调用指南生成模板ID和自定义文字识别接口，用于识别自己所上传的模板样式的图片。提供标准API和常用编程语言的SDK，可快速开发属于自己的文字识别应用。调用指南父主题：通用单模板工作流

来自：帮助中心

查看更多 →
本地调用

本地调用本章节以通用表格识别为例，介绍如何使用OCR Python SDK在本地进行开发。该接口可以识别表格图片中的文字内容，并将识别结果以JSON格式返回给用户。返回结果包含两类：纯文本区（text）和表格区（table），并返回表格结构（row, column）和文本信息。

来自：帮助中心

查看更多 →
方案概述

创建用于存储发票识别与验真结果的OBS桶，企业业务系统定时从该桶中获取结果并处理。函数工作流：用于实现调用文字识别服务的业务逻辑，当OBS桶收到上传的发票文件后，会自动通知函数调用文字识别服务，并将结果存放到指定的OBS桶里。文字识别服务：提供发票识别与验真服务，识别用户上传的发票内容以及对接国税局系统进行真伪验证。

来自：帮助中心

查看更多 →
上传模板图片

上传模板图片在使用单模板工作流开发应用之前，必须要明确文字识别的模板类型，明确以哪张图片作为模板训练文字识别模型，基于自己的业务需求制定针对性的文字识别模型。例如上传某一格式的发票图片作为模板，训练的文字识别模型就能识别并提取同格式发票上的关键字段。前提条件已授权ModelArts服务和对象存储服务（OBS）。

来自：帮助中心

查看更多 →
票据类

票据类功能介绍增值税发票识别通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段，快速将增值税发票上的文字信息识别出来，用于后续的进一步处理，节省大量的人工录入成本。机动车销售发票识别自动识别机动车销售发票图片内的文本内容，并返回结构化字

来自：帮助中心

查看更多 →
解读识别结果

按照图片文字从上到下、从左到右排列。 words为识别出来的文本内容，confidence表示该字段的置信度。 location表示文字块的区域位置信息，采用图像坐标系，第一个文字块左上角顶点为[140,45]。 extracted_data表示图片中包含的联系人信息，仅在设置了

来自：帮助中心

查看更多 →
框选识别区

框选识别区应尽量扩大识别区范围，使所框选识别区覆盖字段值可能出现的区域。在右侧“框选识别区”中填写“框选字段”，选择“字段类型”。 “字段类型”指待识别文字的内容，您可以在默认字段类型中选择，当前可选择的默认字段类型包括“日期”、“小写金额”、“大写金额”、“数字”、“数字和英文”、“编号”、“性别”，每个识别区可选择多个字段类型。

来自：帮助中心

查看更多 →