自定义字段类型
在应用开发过程中“框选识别区”时会选择“字段类型”,如您框选的文字内容是数字,可选择默认字段类型“数字”。
如果“默认字段类型”不能满足您的业务需求,您可以创建新的字段类型。
前提条件
已在文字识别套件控制台选择“通用单模板工作流”新建应用,详情请见新建应用。
操作步骤
- 登录“ModelArts Pro>文字识别套件”控制台。
默认进入“应用开发>工作台”页面。
- 在“我的应用”页签下,选择应用并单击“操作”列的“查看”。
进入“应用资产”页面。
图1 进入应用资产
- 单击“自定义字段类型”,进入“自定义字段类型”页签。
图2 自定义字段类型
- 单击“创建字段类型”。
弹出“创建字段类型”对话框。
- 填写字段类型信息。
图3 创建字段类型
“字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”。
“字段属性”:选择字段属性,可选择“自定义正则提取”和“自定义字典”,然后按表1填写相关信息。
表1 字段属性参数说明 字段属性
参数
参数说明
举例
自定义字典
取值范围
在识别当前字段类型的文字时,选择字典的取值范围中最相似的取值为最后识别结果。
例如:
“字段类型名称”:“城市”
“字段属性”:“自定义字典”
“取值范围”:“Shenzhen”、“Beijing”、“Xi'an”
在识别“字段类型”为“城市”的文字时,从“Shenzhen”、“Beijing”、“Xi'an”中找出与待识别文字最相似的取值,作为识别结果。
自定义正则提取
预过滤
对初始的待识别文字进行预处理。
左边输入框填写待识别文字中被替换字符的正则表达式。
右边输入框填写所替换的新字符。
不填写时,默认不做预处理。
如果需要多次预处理,可单击,填写新增的预处理规则。
例如:
“字段类型名称”:“出生日期”
“字段属性”:“自定义正则提取”
“预过滤”:“”/“”
“提取”:“\d+年\d+月\d+日”
“后处理”:“年”/“.”、“月”/“.”、
“日”/“”
在识别字段类型为出生日期的文字“2020年1月1日出生”时,首先不做预过滤,然后提取关键字符“2020年1月1日”,最后做后处理,最终提取内容为“2020.1.1”。
提取
对经过“预处理”的文字进行关键字符提取。
在输入框中填写查找关键字符的正则表达式。
不填写时,默认提取全部字段。
如果需要多个提取规则,单击新增提取规则。提取时按从上到下优先级规则提取,选择第一个非空的提取内容作为提取后的内容。
后处理
根据实际情况,对经过“提取”后的文字进行“后处理”。
您也可以在“应用开发>框选识别区”过程中创建新的字段类型,详情请见创建新字段类型。