识别pdf图片中的文字并且朗读出来

附录

Service，OBS）是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力。函数工作流 FunctionGraph：FunctionGraph是一项基于事件驱动的函数托管计算服务。使用FunctionGraph函数，只需编写业务函数代码并设置运行的条件，无需配置和管理

来自：帮助中心

查看更多 →
开始使用

登录华为云对象存储服务控制台，查看部署完成后，自动创建的OBS桶列表。图1 对象存储服务控制台选择用于上传和存储发票图片或者PDF文件的桶“ocr-invoice-image-bucket”，上传示例发票图片或者电子发票pdf文件。图2 上传待识别发票选择用于存放结果的“ocr-invoice-r

来自：帮助中心

查看更多 →
对话交互后接口（inaction=9）

body True 实体在文本中的开始索引位置实体在文本中的开始索引位置 endIndex String body True 实体在文本中的结束索引位置实体在文本中的结束索引位置 type String body True 抽取的实体类型用于标注此实体的识别类型，不需要填入表单 entity

来自：帮助中心

查看更多 →
创建应用

在文字识别控制台左侧导航栏选择“自定义OCR”。默认进入“我的应用”页签。图1 文字识别控制台在“我的应用”页签下，单击“创建应用”。进入“创建应用”页面。图2 创建应用您也可以单击“我的工作流”，切换至“我的工作流”页签，选择工作流并单击卡片中的“创建应用”。根据业务需求填写“应用名称”、“应用

来自：帮助中心

查看更多 →
开始使用

登录华为云对象存储服务控制台，查看自动创建的OBS桶列表：图1 对象存储服务控制台选择用于上传和存储发票图片或者PDF文件的桶“ocr-invoice-recognition-and-verification-image”，上传示例发票图片或者电子发票pdf文件：图2 上传待识别发票选择用于存放结果的“oc

来自：帮助中心

查看更多 →
使用单模板工作流开发应用

只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。图像各边的像素大小在100px到4096px之间。图像中识别区域有效占比超过80%，保证所有文字及其边缘包含在图像内。支持图像任意角度的水平旋转。目前不支持复杂背景（如户外自然场景、防伪水印等）和文字扭曲图像的文字识别。步骤2：新建应用登录ModelArts

来自：帮助中心

查看更多 →
调用指南

调用指南评估模板应用后，就完成模板制作，开发属于自己的文字识别应用，此应用用于识别自己所上传的图片属于哪种模板以及识别图片中的文字。前提条件已在自定义OCR控制台选择“多模板分类工作流”创建应用，并完成评估模板步骤，详情请见评估. 操作步骤在“应用开发>调用指南”页面完成

来自：帮助中心

查看更多 →
图像识别

说明区域图像识别服务所在的区域。项目图像识别服务所在的项目。获取图片方式获取图片的方式，包括API表单参数、Base64编码和URL路径。 API表单参数获取图片方式为“API表单参数”时，工作流的触发器必须为Open API，并通过form-data类型的表单参数上传图片，此处填写表单参数的参数名。

来自：帮助中心

查看更多 →
上传模板图片

上传模板图片在使用单模板工作流开发应用之前，必须确保需要识别的图片都属于同一类型的模板。同一类模板的图片，它们有相同的版面排布，且要识别的文字类型和位置均要求固定。如果您的图片具有多种模板，请考虑使用“多模板工作流”。确认模板类型后，要准备一张文字清晰的图作为模板图片，模板图中要

来自：帮助中心

查看更多 →
图像识别

图像识别价格说明 04 SDK 图像识别SDK是对图像识别提供的REST API进行的封装，以简化用户的开发工作。用户直接调用Image SDK提供的接口函数即可实现使用图像识别业务能力的目的。 SDK文档媒资图像标签名人识别主体识别翻拍识别图像标签常见问题了解更多常见问题、案例和解决方案

来自：帮助中心

查看更多 →
评估应用

上传模板图片”、“定义预处理”、“框选参照字段”、“框选识别区”步骤，单击“下一步”，进入“评估”页面。本地上传图片图2 评估模板在“应用开发>评估”页面，默认进入“本地上传”页签。单击“上传图片”，或者拖拽测试图片至虚线框内上传图片区域，上传本地的图片作为测试图片。测试图片上传成功后，右侧会显示识别结果。

来自：帮助中心

查看更多 →
准备数据

。其他API的的使用约束请参见API参考。只支持识别JPG、PNG、JPEG、BMP格式的图片。 application/json请求的body中，请使用标准Json格式。 Base64编码中请勿使用回车换行。系统不保存用户图片。图片大小小于8MB，由于过大图片会导致时延较

来自：帮助中心

查看更多 →
语义识别图元

除匹配到的意图中的槽位数据。通常在允许客户中途修改信息时设置为“清空当前上下文缓存”。清空会话缓存：清空当前流程实例的所有变量的值。清空当前上下文缓存：清空当前意图的变量值，通常用于多次执行同一个语义识别，清除上一次留存的意图数据。意图个数：允许返回匹配的多个意图时设置，需

来自：帮助中心

查看更多 →
识别结果后处理

l路径，例如D:\local\test.xlsx", response) 使用PDF进行文字识别本示例将PDF文件转换为图片，并调用网络图片识别API，获取识别结果。前提条件开通网络图片识别。参考本地调用，安装OCR Python SDK。并执行pip install fitz命令和pip

来自：帮助中心

查看更多 →
对话初始化接口（inaction=8）

String body False 接入方跟OIAP约定的User To User类型的随路数据参数，使用场景为：在与其他的平台对接时，如果呼叫是从其他的第三方的平台转移过来的呼叫，使用该参数携带SIP Header UUI信息。该参数的取值记录日志时会匿名化处理，保存数据库时会加密处理

来自：帮助中心

查看更多 →
对话转接后请求（inaction=11）

body True 实体在文本中的开始索引位置实体在文本中的开始索引位置 endIndex String body True 实体在文本中的结束索引位置实体在文本中的结束索引位置 type String body True 抽取的实体类型用于标注此实体的识别类型,不需要填入表单 entity

来自：帮助中心

查看更多 →
增值税发票识别

增值税发票识别功能介绍识别增值税发票的类别，并以JSON格式返回识别的结构化结果，支持识别图片、PDF、OFD文件。该接口的使用限制请参见约束与限制，详细使用指导请参见OCR服务使用简介章节。发票验真API请参见发票验真。图1 增值税发票示例图图2 区块链发票示例图图3 全电发票示例图（专用发票）

来自：帮助中心

查看更多 →
印章识别

F格式，多页PDF默认识别第一页，或者您可以指定要识别的页码。图像各边的像素大小在15px到8192px之间。支持单图多印章识别。支持图像中印章任意角度的水平旋转。支持圆形章、椭圆章、方形章、三角章和菱形章的检测和识别。能处理反光、暗光等干扰的图片但影响识别精度。调用方法

来自：帮助中心

查看更多 →
评估

评估确定模板图片的参照字段和识别区后，需要对模板图片进行评估和考察。您可以通过上传测试图片，在线评估模板的识别情况，保证能正确识别同样模板下其他图片中的识别区文字。前提条件已在自定义OCR控制台选择“通用单模板工作流”创建应用，并完成框选识别区步骤，详情请见框选识别区。进入评估页面

来自：帮助中心

查看更多 →
银行回单识别

图像各边的像素大小在15px到8192px之间。支持同时返回单张图像中存在的多张回单识别结果。图像中key值对应的value值为空时，不会返回对应的键值对。目前不支持复杂背景（如户外自然场景、防伪水印等）和文字扭曲图像的文字识别。文字识别服务属于公有云服务，线上用户资源共享，如果需要多并发请求，请提前联系我们。

来自：帮助中心

查看更多 →
定义预处理

：单击图标重置图片为初始状态，即未进行任何处理的状态。：单击图标，在“图片裁剪”窗口调整图片裁剪范围，然后单击“裁剪”，调整图片的大小。：单击图标，在“图片旋转”窗口，鼠标选中调整图片的方向，然后单击“确认”，调整图片的方向。：单击图标，向左旋转图片90°。：单击图标，向右旋转图片90°。：单击图标，缩小图片大小。

来自：帮助中心

查看更多 →