更新时间:2024-07-24 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
HTML输入
概述
“HTML输入”算子,导入有规则的HTML文件,并将HTML文件中的元素转换成输入字段。
输入与输出
输入:HTML文件
输出:多个字段
参数说明
| 
        参数  | 
      
        含义  | 
      
        类型  | 
      
        是否必填  | 
      
        默认值  | 
     
|---|---|---|---|---|
| 
        父标签  | 
      
        所有字段的上层HTML标签,用于限定搜索范围  | 
      
        string  | 
      
        是  | 
      
        无  | 
     
| 
        文件名  | 
      
        自定义一个字段,以当前数据所在的文件名作为该字段值。  | 
      
        string  | 
      
        否  | 
      
        无  | 
     
| 
        绝对文件名  | 
      
        配置“文件名”引用文件名环境,选中单选框时是带绝对路径的文件名;不选中单选框时是不带路径的文件名。  | 
      
        boolean  | 
      
        否  | 
      
        否  | 
     
| 
        验证输入字段  | 
      
        是否检验输入字段与值的类型匹配情况,值为“NO”,不检查;值为“YES”,检查。如果不匹配则跳过该行。  | 
      
        enum  | 
      
        是  | 
      
        YES  | 
     
| 
        输入字段  | 
      
        配置输入字段的相关信息: 
  | 
      
        map  | 
      
        是  | 
      
        无  | 
     
数据处理规则
- 首先配置父标签,限定搜索范围,父标签要存在,否则取到的内容为空。
 - 配置输入字段,子标签用于精确定位字段所在的标签,相同的标签再通过关键字来精确匹配。
 - 关键字用于匹配字段的内容,配置方法类似于“输入设置”中的“文件过滤器”字段,支持“*”通配符,提供三种标记用于辅助定位,分别为:
    
- “#PART”标记,表示取被通配符“*”所匹配的值,如果存在多个“*”号,可以指定一个序号,按从左到右的顺序,取得对应序号的“*”所配置的内容。例如“#PART1”,表示取第1个“*”号匹配的值;“#PART8”,表示取第8个“*”号匹配的值。
 - “#NEXT”标记,表示取当前匹配的标签的下一个标签的值。
 - “#ALL”标记,表示取当前匹配的标签的所有内容作为值。
 
 - 配置的标签有误时,取到的值为空,不会报错。
 
样例
源文件如下:

配置“HTML输入”算子,生成三个字段A、B和C:

依次输出这三个字段,结果如下:

   父主题: Loader输入类算子