更新时间:2024-07-24 GMT+08:00
HTML输入
概述
“HTML输入”算子,导入有规则的HTML文件,并将HTML文件中的元素转换成输入字段。
输入与输出
输入:HTML文件
输出:多个字段
参数说明
参数 |
含义 |
类型 |
是否必填 |
默认值 |
---|---|---|---|---|
父标签 |
所有字段的上层HTML标签,用于限定搜索范围 |
string |
是 |
无 |
文件名 |
自定义一个字段,以当前数据所在的文件名作为该字段值。 |
string |
否 |
无 |
绝对文件名 |
配置“文件名”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。 |
boolean |
否 |
否 |
验证输入字段 |
是否检验输入字段与值的类型匹配情况,值为“NO”,不检查;值为“YES”,检查。如果不匹配则跳过该行。 |
enum |
是 |
YES |
输入字段 |
配置输入字段的相关信息:
|
map |
是 |
无 |
数据处理规则
- 首先配置父标签,限定搜索范围,父标签要存在,否则取到的内容为空。
- 配置输入字段,子标签用于精确定位字段所在的标签,相同的标签再通过关键字来精确匹配。
- 关键字用于匹配字段的内容,配置方法类似于“输入设置”中的“文件过滤器”字段,支持“*”通配符,提供三种标记用于辅助定位,分别为:
- “#PART”标记,表示取被通配符“*”所匹配的值,如果存在多个“*”号,可以指定一个序号,按从左到右的顺序,取得对应序号的“*”所配置的内容。例如“#PART1”,表示取第1个“*”号匹配的值;“#PART8”,表示取第8个“*”号匹配的值。
- “#NEXT”标记,表示取当前匹配的标签的下一个标签的值。
- “#ALL”标记,表示取当前匹配的标签的所有内容作为值。
- 配置的标签有误时,取到的值为空,不会报错。
样例
源文件如下:
配置“HTML输入”算子,生成三个字段A、B和C:
依次输出这三个字段,结果如下:
父主题: Loader输入类算子