怎样进行图片文字识别

概述

。您可以使用本文档提供文字识别服务API的描述、语法、参数说明及样例等内容，进行相关操作，例如文字识别包含的通用类、证件类和票据类等具体接口使用说明。不同区域所部署的接口不同，详情请参见终端节点；接口所支持的全部操作请参见2 API概览。在调用文字识别API之前，请确保已经充分了解文字识别相关概念。

来自：帮助中心

查看更多 →
框选参照字段

框选参照字段在文字识别过程中，套件会检查所识别图片与模板图片是否为同一种模板，并将识别图片校正后再提取结构化信息，支持图片平移、旋转与拉伸变换。为了检查并校正待识别的图片，这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板，通过参照字段的位置来校正待识别图片。

来自：帮助中心

查看更多 →
文字识别SDK简介

文字识别SDK简介文字识别SDK概述文字识别（Optical Character Recognition，简称OCR）将图片或扫描件中的文字识别成可编辑的文本。可代替人工录入，提升业务效率。支持身份证、驾驶证、行驶证、发票、通用表格、通用文字等场景文字识别。文字识别以开放API（Application

来自：帮助中心

查看更多 →
图片

图片地址：支持输入图片地址，来展示图片。链接：设置单击图片后，跳转的链接地址。图片设置：设置图片填充方式，并选择对应图片。数据在数据中，配置图片组件的数据来源，更多介绍请参见数据接入。交互在交互中，配置图片与其他组件或页面之间的交互能力。更多交互介绍，请参见交互设置。父主题：媒体

来自：帮助中心

查看更多 →
上传模板图片

某一格式的发票图片作为模板，配置文字识别模型就能识别并提取同格式发票上的关键字段。前提条件已在“自定义OCR”控制台选择“通用单模板工作流”创建应用，详情请见6.2新建应用。提前准备待识别的图片，图片要求请见图片要求。图片要求保证图片质量：不能有损坏的图片；目前支持的格

来自：帮助中心

查看更多 →
训练分类器

训练分类器确定模板图片的参照字段和识别区后，多模板分类工作流在模板数量较多，或版式相似度较高的情况下，建议针对不同的模板上传对应的训练集数据，用于训练模板分类模型，使服务能够精准地分类多个模板图片，然后对多个模板图片进行文字识别和结构化提取。前提条件已在文字识别套件控制台选择“

来自：帮助中心

查看更多 →
图片

图片图片组件用于展示图片的UI元素，提供直观的视觉信息。在左侧组件区域，从“常用控件”中，选择“图片”组件，并拖拽至设计区，如图1所示。图1 拖拽图片组件到设计区并设置属性基础配置上传图片：将文件拖拽上传区域内，或单击上传图片模块进行上传。上传图片支持jpg、jpeg

来自：帮助中心

查看更多 →
图片

图片图片作为一个基本组件，用于展示图片，用户可以通过“图片地址”属性，来选择图片。图片可以从本地上传，也可以来自服务器上的图片库。在标准页面设计界面，从“基本组件 > 基本”中，拖拽“图片”组件至页面工作区域，如图1。图1 图片查看组件帮助将鼠标放在对应的组件上，单击，可查看组件说明。

来自：帮助中心

查看更多 →
图片

使用相对地址：使用图片的相对路径。高级设置在高级设置中，可设置图片填充类型。图3 高级设置图4 图片设置页面图5 上传图片/视频单击“选择图片”，在页面单击目录后的和，可管理图片目录。单击“上传图片/视频”，可进行上传操作。选择“填充”表示图片不保证保持原有比例，图片拉伸填满整个容器。

来自：帮助中心

查看更多 →
图片

不透明度：设置图表在画布上的透明度，可通过滑动条进行设置，也可手动输入百分比，比例越大透明程度越低。图1 尺寸位置全局样式图片：选择图片，您可以通过如下三种方式加载图片到大屏中。在“图片”后显示“url”的框中输入图片的地址。单击“图片”下方的虚线框，选择图片。直接拖动图片至“图片”下方的虚线框中。图

来自：帮助中心

查看更多 →
使用FunctionGraph函数对OBS中的图片进行压缩

同工作。步骤三：创建图片压缩函数创建空白函数，配置代码环境和创建OBS应用事件源触发器，以实现对OBS源桶中上传或更新的图片自动进行压缩。步骤四：验证图片压缩上传原始图片到OBS源桶，图片压缩函数自动执行，在OBS目标桶中生成压缩后的图片，验证图片压缩函数正常运行。步骤一：创建两个OBS桶

来自：帮助中心

查看更多 →
使用单模板工作流开发应用

ModelArts Pro 的文字识别套件提供了通用单模板工作流，通过工作流指引可构建文字识别模板，识别单个板式图片中的文字，快速实现文档、票证等场景的文字识别。本章节提供一个身份证样例，帮助您快速熟悉使用文字识别套件中的通用单模板工作流开发应用的过程。通过上传模板图片、框选参照字段和识别

来自：帮助中心

查看更多 →
文字识别的监控指标

文字识别的监控指标功能说明本节定义了文字识别服务上报云监控服务的监控指标的命名空间，监控指标列表和维度定义，用户可以通过云监控服务提供管理控制台或API接口来检索文字识别服务产生的监控指标和告警信息。命名空间 SYS.OCR 监控指标详情表1 OCR支持的监控指标指标ID

来自：帮助中心

查看更多 →
图解文字识别

图解文字识别

来自：帮助中心

查看更多 →
开通文字识别服务

开通文字识别服务 OCR服务提供的开通方式有以下两种，用户可以任选其一进行开通服务。按需计费开通服务进入文字识别官网主页，单击“立即使用”，进入文字识别控制台。在“总览”页面，选择需要使用的服务，执行开通操作，默认的计费方式采用按需计费。图1 服务开通服务开通成功后，开通状态将显示为“已开通”。

来自：帮助中心

查看更多 →
框选参照字段

框选参照字段在文字识别过程中，套件会检查所识别图片与模板图片是否为同一种模板，并将识别图片校正后再提取结构化信息，支持图片平移、旋转与拉伸变换。为了检查并校正待识别的图片，这就需要在模板图片中指定参照字段。通过参照字段的文字内容来判断是否属于同一种模板，通过参照字段的位置来校正待识别图片。

来自：帮助中心

查看更多 →
定义预处理

使用多模板分类工作流上传模板图片后，需要对模板图片进行预处理，通过旋转、裁剪、降噪等操作。图片预处理的目的是保留图片的关键内容，去掉冗余部分，保持图片内容清晰可见，保证模型识别的准确性。前提条件已在文字识别套件控制台选择“多模板分类工作流”新建应用，并上传模板图片，详情请见上传模板图片。定义预处理

来自：帮助中心

查看更多 →
方案概述

FunctionGraph：用于实现调用文字识别服务的业务逻辑，当OBS桶收到上传的发票文件后，会自动通知函数调用文字识别服务，并将结果存放到指定的OBS桶里。文字识别 OCR：提供发票识别与验真服务，识别用户上传的发票内容以及对接国税局系统进行真伪验证。创建一个EventGrid触发器，该触发器关联事件网格

来自：帮助中心

查看更多 →
定义预处理

使用通用单模板工作流上传模板图片后，需要对模板图片进行预处理，通过旋转、裁剪、降噪等操作。图片预处理的目的是保留图片的关键内容，去掉冗余部分，保持图片内容清晰可见，保证模型识别的准确性。前提条件已在文字识别套件控制台选择“通用单模板工作流”新建应用，并上传模板图片，详情请见上传模板图片。定义预处理

来自：帮助中心

查看更多 →
附录

附录名词解释基本概念、云服务简介、专有名词解释：文字识别服务 OCR：文字识别（Optical Character Recognition，简称OCR）是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式，以JSON格式返回识别结果。对象存储服务

来自：帮助中心

查看更多 →
使用多模板工作流开发应用

Pro的文字识别套件提供了多模板工作流，通过工作流指引支持自定义多个文字识别模板，通过模型训练，自动识别图片所属模板，从而支持从大量不同板式图像中提取结构化信息。本章节提供一个票证类型的样例，帮助您快速熟悉使用文字识别套件中的多模板工作流开发应用的过程。通过上传模板图片、框选参

来自：帮助中心

查看更多 →