识别多页图片上文字_多模板分类工作流-华为云

多模板分类工作流

多模板分类工作流工作流介绍上传模板图片定义预处理框选参照字段框选识别区训练分类器评估应用部署服务编辑应用自定义字段类型删除应用父主题：文字识别套件

来自：帮助中心

查看更多 →
方案概述

S桶内获取识别出的姓名、身份证号、人脸信息并调用人证核身服务 IVS进行人证核身，并将结果转存到OBS桶里。文字识别 OCR和人证核身服务 IVS：提供证件识别和人证核身服务，识别用户上传的证件图片以及人脸图片核对，并将结果以JSON格式返回。方案优势支持场景多支持身份证

来自：帮助中心

查看更多 →
通用类

功能介绍通用表格识别提取表格内的文字和所在行列位置信息，适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化，恢复结构化信息。通用文字识别提取图片内的文字及其对应位置信息，并能够根据文字在图片中的位置进行结构化整理工作。手写文字识别识别文档中的手写文

来自：帮助中心

查看更多 →
部署服务

发布模板后，在“应用开发>部署”页面，您可以进行如下操作。 “评估”：单击“评估”，继续上传测试图片评估模板。 “继续编辑”：单击“继续编辑”，返回“应用开发>上传模板图片”页面，重新创建模板。 “返回列表”：单击“返回列表”，返回至应用详情页。 “调用API和SDK”：下方调用指南区域，可直接调用API或S

来自：帮助中心

查看更多 →
解读识别结果

了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置、置信度等信息。 result字段仅在API调用成功后返回。 words_block_count表示文字块识别结果，本示例中，识别出2个文字块，分别代表图片中的2行文字。 words_block_list表示文字块列表，按照图片文字从上到下、从左到右排列。

来自：帮助中心

查看更多 →
银行回单识别

银行回单识别功能介绍支持对银行回单版式进行文字识别及键值对提取，实现高效的自动化结构化返回。该接口的使用限制请参见约束与限制，详细使用指导请参见OCR服务使用简介章节。约束与限制支持JPEG、JPG、PNG、BMP、TIFF、PDF格式，多页PDF默认识别第一页。图像

来自：帮助中心

查看更多 →
框选识别区

框选识别区在文字识别过程中，需要确定图片中识别的文字位置，这就需要在图片模板中框选识别区。识别区指图片中待识别的文字位置。所有需要识别的图片中都会包含此识别区的字段，且位置固定不变，因此模型可以通过识别区找到需要识别内容的位置。前提条件已在自定义OCR控制台选择“通用单模

来自：帮助中心

查看更多 →
框选参照字段

框选参照字段在文字识别过程中，套件会检查所识别图片与模板图片是否为同一种模板，并将识别图片校正后再提取结构化信息，支持图片平移、旋转与拉伸变换。为了检查并校正待识别的图片，这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板，通过参照字段的位置来校正待识别图片。

来自：帮助中心

查看更多 →
修订记录

发票识别、道路运输证识别。 2022-08 身份证识别新增翻拍告警功能。 2022-08 网络图片识别支持字体类型检测、支持竖行文本识别、支持多朝向文本识别。 2022-08 OCR支持企业项目管理，支持不同企业项目分别进行财务统计，当前支持北京四区域部署的API。 2022-07

来自：帮助中心

查看更多 →
编辑应用

编辑模板配置信息登录“ ModelArts Pro >文字识别套件”控制台。默认进入“应用开发>工作台”页面。在“我的应用”页签下，选择应用并单击“操作”列的“查看”。进入“应用资产”页面。图1 进入应用资产在“模板列表”页签，选择模板名称，单击操作列的“编辑”。图2 模板列表

来自：帮助中心

查看更多 →
驾驶证识别

请保证被检测图片所在的存储服务稳定可靠，推荐使用OBS服务存储图片数据。 url中不能存在中文字符，若存在，中文需要进行utf8编码。 side 否 String 检测驾驶证的主页、副页。 front: 驾驶证主页 back: 驾驶证副页 double_side：驾驶证双页信息如果

来自：帮助中心

查看更多 →
智能文档解析

与url二选一。图片或PDF格式，base64编码，要求base64编码后大小不超过10M。图像尺寸不小于15×15像素，最长边不超过8192像素，支持JPG/PNG/BMP/TIFF格式。 PDF以144dpi的分辨率转为图像进行文档解析，需符合上述图像尺寸规定。若PDF有多页，当前仅对第1页进行识别。

来自：帮助中心

查看更多 →
编辑应用

已存在创建的模板应用。编辑模板配置信息登录“文字识别>自定义OCR”控制台。默认进入“应用开发>工作台”页面。在“我的应用”页签下，选择应用并单击“操作”列的“查看”。进入“应用资产”页面。图1 进入应用资产在“模板列表”页签，选择模板名称，单击操作列的“编辑”。图2

来自：帮助中心

查看更多 →
提取图片中的文字暗水印（文件地址版本）

提取图片中的文字暗水印（文件地址版本）功能介绍对指定存储地址信息（目前支持OBS）的已嵌入文字暗水印的图片提取文字暗水印，支持的图片格式为：*.jpg, *.jpeg, *.jpe, *.png, *.bmp, *.dib, *.rle, *.tiff, *.tif, *.ppm

来自：帮助中心

查看更多 →
识别字符出现错误如何优化？

来修正识别结果。情形2：单模板工作流识别出错，且大部分字段为空或错误。解决办法：请检查参照字段是否框选正确，或尝试框选更多参照字段（框选办法参照框选参照字段），如果新增参照字段后仍有问题，请检查识别图片与模板图片是否为同一个版式，如果为新版式，请考虑创建新模板或使用多模板分类工作流。

来自：帮助中心

查看更多 →
使用流程简介

OCR服务需要用户通过调用API接口，将图片或扫描件中的文字识别成可编辑的文本，然后返回JSON格式的识别结果，用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。关于文字识别的相关声明请参见文字识别服务声明。文字识别服务等级协议请参见华为云服务等级协议。

来自：帮助中心

查看更多 →
OCR

类特殊字符，长度为1～128个字符。图片路径是需要识别的图片在OBS上的路径。识别类型是可识别的图片类型, 当前仅支持通用文字识别。可支持扫描文件、电子文档、书籍、票据和表单等多种场景的文字识别。识别结果存储目录是指定识别结果存储的OBS目录。表2 高级参数参数

来自：帮助中心

查看更多 →
框选参照字段

框选参照字段在文字识别过程中，套件会检查所识别图片与模板图片是否为同一种模板，并将识别图片校正后再提取结构化信息，支持图片平移、旋转与拉伸变换。为了检查并校正待识别的图片，这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板，通过参照字段的位置来校正待识别图片。

来自：帮助中心

查看更多 →
应用场景

。支持特殊声音识别：支持特殊声音识别模型，如娇喘、呻吟、敏感声纹等。内容审核-视频内容审核 -视频有以下应用场景：视频平台/社区：精准识别平台上的违规视频内容，帮助平台规避内容风险： 360度全方位检测：提供多模态综合审核方案，对视频内容中的画面、声音、文字进行全方位解析。

来自：帮助中心

查看更多 →
通用表格识别

y坐标;坐标原点为图片左上角，x轴沿水平方向，y轴沿竖直方向。表8 WordsListIem 参数参数类型描述 words String 文字块识别结果。 confidence Float 字段的平均置信度，置信度越大，表示本次识别的对应字段的可靠性越高，在统计意义上，置信度越大

来自：帮助中心

查看更多 →
行驶证识别

请保证被检测图片所在的存储服务稳定可靠，推荐使用OBS服务存储图片数据。 url中不能存在中文字符，若存在，中文需要进行utf8编码。 side 否 String 检测行驶证的主页或副页。 front: 行驶证主页 back: 行驶证副页 double_side：行驶证双页信息如果

来自：帮助中心

查看更多 →