更新时间:2025-12-16 GMT+08:00
HTML输入
概述
“HTML输入”算子,导入有规则的HTML文件,并将HTML文件中的元素转换成输入字段。
输入与输出
输入:HTML文件
输出:多个字段
参数说明
参数 | 含义 | 类型 | 是否必填 | 默认值 |
|---|---|---|---|---|
父标签 | 所有字段的上层HTML标签,用于限定搜索范围。 | string | 是 | 无 |
文件名 | 自定义一个字段,以当前数据所在的文件名作为该字段值。 | string | 否 | 无 |
绝对文件名 | 配置“文件名”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。 | boolean | 否 | 否 |
验证输入字段 | 检验输入字段与值的类型匹配情况,值为“NO”,不检查;值为“YES”,检查。若不匹配则跳过该行。 | enum | 是 | YES |
输入字段 | 配置输入字段的相关信息:
| map | 是 | 无 |
数据处理规则
- 首先配置父标签,限定搜索范围,父标签要存在,否则取到的内容为空。
- 配置输入字段,子标签用于精确定位字段所在的标签,相同的标签再通过关键字来精确匹配。
- 关键字用于匹配字段的内容,配置方法类似于“输入设置”中的“文件过滤器”字段,支持“*”通配符,提供三种标记用于辅助定位,分别为:
- “#PART”标记,表示取被通配符“*”所匹配的值,如果存在多个“*”号,可以指定一个序号,按从左到右的顺序,取得对应序号的“*”所配置的内容。例如“#PART1”,表示取第1个“*”号匹配的值;“#PART8”,表示取第8个“*”号匹配的值。
- “#NEXT”标记,表示取当前匹配的标签的下一个标签的值。
- “#ALL”标记,表示取当前匹配的标签的所有内容作为值。
- 配置的标签有误时,取到的值为空,不会报错。
样例
源文件如下:

配置“HTML输入”算子,生成三个字段A、B和C:

依次输出这三个字段,结果如下:

父主题:输入算子

