本文导读

功能介绍
约束与限制
调用方法
前提条件
URI
请求参数
响应参数
请求示例
响应示例
SDK代码示例
状态码
错误码

展开导读

文档首页/ 文字识别 OCR/ API参考/ API/ 通用表格识别

通用表格识别

更新时间：2025-01-23 GMT+08:00

在线调试

CLI示例

查看PDF

功能介绍

识别表格图片中的文字内容，并将识别的结果以JSON格式返回给用户。返回结果将图片区域（words_region）划分为两类：纯文本区（text）和表格区（table），并返回表格结构（row, column）和文本信息。该接口的使用限制请参见约束与限制，详细使用指导请参见OCR服务使用简介章节。

图1 通用表格示例图
点击放大

约束与限制

只支持识别PNG、JPG、JPEG、BMP、TIFF格式图片。
图像各边的像素大小在15px到8192px之间。
图像中识别区域有效占比超过80%，保证整张表格及其边缘包含在图像内。
支持图像任意角度的水平旋转。
目前不支持复杂背景（如户外自然场景、防伪水印等）和表格线扭曲图像的文字识别。
支持中英文以及部分繁体字。

调用方法

请参见如何调用API。

前提条件

在使用之前，需要您完成服务申请和认证鉴权，具体操作流程请参见开通服务和认证鉴权章节。

说明：

用户首次使用需要先申请开通。服务只需要开通一次即可，后面使用时无需再次申请。如未开通服务，调用服务时会提示ModelArts.4204报错，请在调用服务前先进入控制台开通服务，并注意开通服务区域与调用服务的区域保持一致。

URI

POST /v2/{project_id}/ocr/general-table

表1 路径参数
参数	是否必选	说明
endpoint	是	终端节点，即调用API的请求地址。不同服务不同区域的endpoint不同，您可以从终端节点中获取。例如，OCR服务在“华北-北京四”区域的“endpoint”为“ocr.cn-north-4.myhuaweicloud.com”。
project_id	是	项目ID，您可以从获取项目ID中获取。

请求参数

表2 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	用户Token。用于获取操作API的权限。获取Token接口响应消息头中X-Subject-Token的值即为Token。
Content-Type	是	String	发送的实体的MIME类型，参数值为“application/json”。
Enterprise-Project-Id	否	String	企业项目ID。OCR支持通过企业项目管理（EPS）对不同用户组和用户的资源使用，进行分账。获取方法：进入“企业项目管理”页面，单击企业项目名称，在企业项目详情页获取Enterprise-Project-Id（企业项目ID）。企业项目创建步骤请参见用户指南。说明：创建企业项目后，在传参时，有以下三类场景。携带正确的ID，正常使用OCR服务，账单的企业项目会被分类到企业ID对应的企业项目中。携带格式正确但不存在的ID，正常使用OCR服务，账单的企业项目会显示对应不存在的企业项目ID。不携带ID或格式错误ID（包含特殊字符等），正常使用OCR服务，账单的企业项目会被分类到"default"中。

表3 请求Body参数
参数	是否必选	类型	说明
image	否	String	该参数与url二选一。图片的Base64编码，要求Base64编码后大小不超过10MB。图片最短边不小于15px，最长边不超过8192px，支持JPEG、JPG、PNG、BMP、TIFF格式。图片Base64编码示例如/9j/4AAQSkZJRgABAg...，带有多余前缀会产生The image format is not supported报错。
url	否	String	该参数与image二选一。图片大小不超过10MB，图片的url路径目前支持：公网http/https url例如https://support.huaweicloud.com/api-ocr/zh-cn_image_0282767866.png OBS提供的url，使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权，详情参见配置OBS访问权限。说明：接口响应时间依赖于图片的下载时间，如果图片下载时间过长，会返回接口调用失败。请保证被检测图片所在的存储服务稳定可靠，推荐使用OBS服务存储图片数据。 url中不能存在中文字符，若存在，中文需要进行utf8编码。
return_text_location	否	Boolean	返回文本块坐标及单元格坐标信息，可选值如下所示。 true：返回文本块和单元格坐标 false：不返回如果未传入该参数时默认为false，即不返回。
return_char_location	否	Boolean	返回单字符的坐标信息，可选值包括： true：返回单字符的坐标 false：不返回未传入该参数时默认为false，即不返回。如果此参数为true时，return_text_location必须为true
return_confidence	否	Boolean	是否返回置信度的开关，可选值如下所示。 true：返回置信度 false：不返回置信度如果未传入该参数，系统默认为“false”，即不返回置信度。
return_excel	否	Boolean	是否返回表格转换Microsoft Excel的Base64编码字段。可选值包括： true: 返回'excel'字段，表示xlsx格式的表格识别结果的Base64编码 false: 不返回。默认为false 对返回的Excel编码，可用Python函数 base64.b64decode解码后保存为.xlsx文件。
return_rectification_matrix	否	Boolean	可选值包括： true：返回透视变换矩阵 false：不返回未传入该参数时默认为false，即不返回透视变换矩阵。
with_borders	否	Boolean	可选值包括： true：输入图像仅包含有线表格，仅进行有线表格识别。 false: 输入图像可能包含无线表格，同时进行有线表格与无线表格识别。未传入该参数时默认为false，即同时进行有线表格与无线表格识别。当确认输入仅包含有线表格时，该参数设为true可达到更优识别效果。

响应参数

说明：

根据识别的结果，可能有不同的HTTP响应状态码（status code）。例如，200表示API调用成功，400表示调用失败，详细的状态码和响应参数说明如下。

状态码： 200

表4 响应Body参数
参数	参数类型	描述
result	GeneralTableResult object	调用成功时表示调用结果。调用失败时无此字段。

表5 GeneralTableResult
参数	参数类型	描述
words_region_count	Integer	文字区域数目。
words_region_list	Array of WordsRegionList objects	文字区域识别结果列表，输出顺序从左到右，先上后下。
excel	String	表格图像转换为excel的base64编码，图像中的文字和表格按位置写入excel。对返回的excel编码可用base64.b64decode解码并保存为.xlsx文件。

表6 WordsRegionList
参数	参数类型	描述
type	String	文字识别区域类型。 text：文本识别区域; table：表格识别区域。
words_block_count	Integer	子区域识别文字块数目。
words_block_list	Array of GeneralTableWordsBlockList objects	子区域识别文字块列表，输出顺序从左到右，先上后下。

表7 GeneralTableWordsBlockList
参数	参数类型	描述
words	String	文字块识别结果。
confidence	Float	字段的平均置信度，置信度越大，表示本次识别的对应字段的可靠性越高，在统计意义上，置信度越大，准确率越高。置信度由算法给出，不直接等价于对应字段的准确率。
location	Array<Array<Integer>>	文字块位置信息，列表形式，分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角，x轴沿水平方向，y轴沿竖直方向。
words_list	Array of WordsListIem objects	单元格内文字段列表。输出顺序从左到右，从上到下。仅当入参"return_text_location"为true时存在。
rows	Array of integers	文字块占用的行信息，编号从0开始，列表形式，数据类型为Integer。仅在表格区域内有效，即type字段为"table"时该字段有效。
columns	Array of integers	文字块占用的列信息，编号从0开始，列表形式，数据类型为Integer。仅在表格区域内有效，即type字段为"table"时该字段有效。
cell_location	Array<Array<Integer>>	单元格位置信息，列表形式，分别表示单元格4个顶点的x, y坐标;坐标原点为图片左上角，x轴沿水平方向，y轴沿竖直方向。

表8 WordsListIem
参数	参数类型	描述
words	String	文字块识别结果。
confidence	Float	字段的平均置信度，置信度越大，表示本次识别的对应字段的可靠性越高，在统计意义上，置信度越大，准确率越高。置信度由算法给出，不直接等价于对应字段的准确率。
location	Array<Array<Integer>>	文字块位置信息，列表形式，分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角，x轴沿水平方向，y轴沿竖直方向。
char_list	Array of CharListIem objects	单元格内文字段列表。输出顺序从左到右，从上到下。仅当入参"return_text_location"和"return_char_location"同时为true时存在。

表9 CharListIem
参数	参数类型	描述
char	String	单字符识别结果。
char_confidence	Float	单字符的置信度，置信度越大，表示本次识别的文字的可靠性越高，在统计意义上，置信度越大，准确率越高。置信度由算法给出，不直接等价于对应字段的准确率。
char_location	Array<Array<Integer>>	单字符的位置信息，列表形式，分别表示文字块4个顶点的x, y坐标;坐标原点为图片左上角，x轴沿水平方向，y轴沿竖直方向。

状态码： 400

**表10** 响应Body参数
参数	参数类型	描述
error_code	String	调用失败时的错误码，具体请参见错误码。调用成功时不返回此字段。
error_msg	String	调用失败时的错误信息。调用成功时无此字段。

请求示例

说明：

“endpoint”即调用API的请求地址，不同服务不同区域的“endpoint”不同，具体请参见终端节点。
例如，通用表格识别服务部署在“华北-北京四”区域的“endpoint”为“ocr.cn-north-4.myhuaweicloud.com”或“ocr.cn-north-4.myhuaweicloud.cn”，请求URL为“https://ocr.cn-north-4.myhuaweicloud.com/v2/{project_id}/ocr/general-table”，“project_id”为项目ID，获取方法请参见获取项目ID。
如何获取Token请参见认证鉴权。

传入表格图片的base64编码文字识别，并不返回置信度信息

POST https://{endpoint}/v2/{project_id}/ocr/general-table
 Request Header:   
 Content-Type: application/json   
 X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...      
 Request Body:
 {   
    "image":"/9j/4AAQSkZJRgABAgEASABIAAD/4RFZRXhpZgAATU0AKgAAAAg...",
    "return_confidence":false
  }

传入表格图片的url进行文字识别，并不返回置信度信息

POST https://{endpoint}/v2/{project_id}/ocr/general-table
 Request Header:   
 Content-Type: application/json   
 X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG...      
 Request Body:
 {
     "url":"https://BucketName.obs.xxxx.com/ObjectName",
     "return_confidence":false
  }

响应示例

状态码： 200

成功响应示例

{
  "result" : {
    "words_region_count" : 2,
    "words_region_list" : [ {
      "type" : "text",
      "words_block_count" : 1,
      "words_block_list" : [ {
        "words" : "文字区域识别文字块1",
        "confidence" : 0.9991
      } ]
    }, {
      "type" : "table",
      "words_block_count" : 2,
      "words_block_list" : [ {
        "words" : "表格区域识别文字块1",
        "confidence" : 0.9942,
        "rows" : [ 0 ],
        "columns" : [ 0 ]
      }, {
        "words" : "表格区域识别文字块2",
        "confidence" : 0.914,
        "rows" : [ 0 ],
        "columns" : [ 1, 2 ]
      } ]
    } ]
  }
}

状态码： 400

失败响应示例

{
  "result" : {
    "error_code" : "AIS.0103",
    "error_msg" : "The image size does not meet the requirements."
  }
}

SDK代码示例

SDK代码示例如下。

说明：

使用SDK前建议将SDK更新至最新版，防止本地旧版SDK无法使用最新的OCR功能。

Java
Python
Go
更多