更新时间:2024-05-11 GMT+08:00

HTML输入

概述

“HTML输入”算子,导入有规则的HTML文件,并将HTML文件中的元素转换成输入字段。

输入与输出

输入:HTML文件

输出:多个字段

参数说明

表1 算子参数说明

参数

含义

类型

是否必填

默认值

父标签

所有字段的上层HTML标签,用于限定搜索范围

string

文件名

自定义一个字段,以当前数据所在的文件名作为该字段值。

string

绝对文件名

配置“文件名”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。

boolean

验证输入字段

是否检验输入字段与值的类型匹配情况,值为“NO”,不检查;值为“YES”,检查。若不匹配则跳过该行。

enum

YES

输入字段

配置输入字段的相关信息:

  • 位置:目标字段对应的位置,从1开始编号。
  • 字段名:配置字段名。
  • 字段所在的标签:字段的标签。
  • 关键字:配置关键字,能够匹配标签所在的内容,支持通配符,例如标签内容为“姓名”,可配置关键字“*姓名*”
  • 类型:配置字段类型。
  • 数据格式:字段类型为“DATE”“TIME”“TIMESTAMP”时,需指定特定时间格式,其他字段类型指定无效。时间格式如:“yyyyMMdd HH:mm:ss”
  • 长度:配置字段长度,字段值太长则按配置的长度截取,“类型”“CHAR”时实际长度不足则空格补齐,“类型”“VARCHAR”时实际长度不足则不补齐。

map

数据处理规则

  • 首先配置父标签,限定搜索范围,父标签要存在,否则取到的内容为空。
  • 配置输入字段,子标签用于精确定位字段所在的标签,相同的标签再通过关键字来精确匹配。
  • 关键字用于匹配字段的内容,配置方法类似于“输入设置”中的“文件过滤器”字段,支持“*”通配符,提供三种标记用于辅助定位,分别为:
    1. “#PART”标记,表示取被通配符“*”所匹配的值,如果存在多个“*”号,可以指定一个序号,按从左到右的顺序,取得对应序号的“*”所配置的内容。例如“#PART1”,表示取第1个“*”号匹配的值;“#PART8”,表示取第8个“*”号匹配的值。
    2. “#NEXT”标记,表示取当前匹配的标签的下一个标签的值。
    3. “#ALL”标记,表示取当前匹配的标签的所有内容作为值。
  • 配置的标签有误时,取到的值为空,不会报错。

样例

源文件如下:

配置“HTML输入”算子,生成三个字段A、B和C:

依次输出这三个字段,结果如下: