质量作业探查
数据质量探查是借助AI技术和算法来实现质检规则的推荐,并可一键自动创建数据质量作业,在实际运用场景中,可以简化质量规则构建和作业发布的过程。基于AI技术推荐出来的规则包括但不限于布尔类型、枚举类型、纯数字、度量值、邮箱、ip地址、常见证件、标准地址及其他基于参考数据训练出来的校验规则。
设置质量探查
- 在数据目录页面的技术资产搜索结果列表,单击任意数据表,进入数据表详情页面。
- 在“质量探查”页签,设置质量规则并生成质量作业。
- (可选)在质量探查页面左上角设置本次质量探查的“采样行数”,可按需选10、20、50、100。
采样行数表示取样数据的N行。例如,如果采样行数选择10,则表示本次质量探查的采样数据会随机选择10行数据。
- 系统自动采集当前数据目录作业中的字段,生成质量探查表与采样质量图。
图1 质量探查
- 在推荐规则列,选择字段的质量规则,质量规则由AI算法自动识别当前表中的数据特征,推荐匹配的正则规则。
图2 选择质量规则
请至少设置1个字段的质量规则,否则无法生成质量作业。
如果推荐出来的正则中包含中文,对于非UTF-8编码的数据引擎(库)可能不支持。
- 完成设置后,单击“生成质量作业”,跳转至新建质量作业页面,详细操作请参考新建质量作业。
- 生成的质量作业会显示来源为数据目录。
图3 质量作业来源
支持的数据类型
质量探查支持的数据类型如下:
数据类型 |
说明 |
添加到推荐模型中 |
---|---|---|
度量类 |
具有衡量属性的数据(主要基于数据特征及字段名) |
否 |
整数类 |
不是度量、代码、编码的其他数字类型数据。 |
否 |
类别类 |
具有一定可枚举型的文本类型 |
否 |
纯数字代码 |
仅包含数字的代码类型 |
否 |
纯数字编码 |
仅包含数字的编码类 |
否 |
英数代码 |
英文为开头紧跟着数字的代码类型(如:A01) |
否 |
英数编码 |
英文为开头紧跟着数字的编码类型(如:WX12345674) |
否 |
0/1布尔值 |
识别0,1布尔值 |
是 |
Y/N布尔值 |
识别Y,N布尔值(大小写不敏感) |
是 |
YES/NO布尔值 |
识别YES,NO布尔值(大小写不敏感) |
是 |
T/F布尔值 |
识别T,F布尔值(大小写不敏感) |
否 |
是/否布尔值 |
识别是,否布尔值 |
是 |
TRUE/FALSE布尔值 |
识别TRUE,FALSE布尔值(大小写不敏感) |
是 |
URL |
识别包含http(s)://XXXX类的URL |
是 |
uuid32 |
识别36位UUID |
是 |
uuid36 |
识别32位UUID |
否 |
手机号 |
识别手机号(中国) |
是 |
邮箱 |
识别邮箱 |
是 |
ip |
识别ip地址 |
是 |
MAC地址 |
识别MAC地址 |
是 |
统一社会信用代码 |
识别统一社会信用代码 |
否 |
网址 |
识别网址(www.XXX) |
否 |
UNIX时间戳 |
支持10位和13位UNIX时间戳 |
是 |
s级时间戳 |
支持yyyy-mm-dd hh:MM:ss; yyyy-mm-ddhh:MM:ss;yyyymmddhhMMss;yyyymmdd hhMMss;hh:mm:ss |
是(部分) |
ms级时间戳 |
支持yyyymmddhhMMssSSS;yyyy-mm-dd hh:MM:ss.S;yyyy-mm-dd hh:MM:ss.SS;yyyy-mm-dd hh:MM:ss.SSS |
是(部分) |
日期(年月,年月日,日月年,时分秒) |
支持yyyymmdd;yyyy-mm;yyyy/mm;yyyymm;yyyy-mm-dd;yyyy-mm-d;yyyy-m-dd;yyyy-m-d;yyyy/mm/dd;yyyy/mm/d;yyyy/m/dd;yyyy/m/d;dd/mm/yyyy;d/mm/yyyy;dd/m/yyyy;d/m/yy |
是(部分) |
时间周期类型 |
识别时间周期:秒|分钟|小时|日|周|旬|月|季|年 |
是 |
身份证号 |
身份证号 |
是 |
身份证件类别 |
识别身份证件类型,如居民身份证,支持枚举值。 |
是 |
身份证件类别简称 |
识别身份证件简称,如身份证,支持枚举值。 |
是 |
生肖 |
识别生肖:鼠|牛|虎|兔|龙|蛇|马|羊|猴|鸡|狗|猪 |
是 |
地理位置 |
识别经纬度位置,如 88°47’30" S;83°52’23" W |
是 |
洲 |
识别洲。 亚洲|欧洲|非洲|北美洲|南美洲|澳大利亚洲|南极洲 |
是 |
全球大区域 |
识别全球大区域。 美洲|亚太地区|欧洲|中东|非洲 |
是 |
全球18个区域 |
识别全球18个区域。 北美|南美|中美|拉丁美洲|加勒比地区|中亚|南亚|东北亚|东南亚|澳大利亚|大洋洲|北欧|南欧|东欧|西欧|中东|北非|南非 |
是 |
中国居委会/村委会 |
识别中国居委会/村委会 |
是 |
中国区/县 |
识别中国区/县 |
是 |
中国街道/乡 |
识别中国街道/乡 |
是 |
中国省份中文名称 |
识别中国省份,支持枚举值,如浙江省。 |
是 |
中国省份简称 |
识别中国省份的简称,支持枚举值。 |
是 |
中国省份中文名称(不带单位) |
识别中国省份,如北京。 |
是 |
中国城市 |
识别中国城市 |
是 |
北京市行政区域 |
识别北京市行政区域 |
是 |
上海市行政区域 |
识别上海市行政区域 |
是 |
广州市行政区域 |
识别广州市行政区域。 越秀区|海珠区|荔湾区|天河区|白云区|黄埔区|南沙区|番禺区|花都区|增城区|从化区 |
是 |
深圳市行政区域 |
识别深圳市行政区域。 福田区|罗湖区|南山区|盐田区|宝安区|龙岗区|龙华区|坪山区|光明区|大鹏新区 |
是 |
重庆市行政区域 |
识别重庆市行政区域。 渝中区|大渡口区|江北区|沙坪坝区|九龙坡区|南岸区|北碚区|綦江区|大足区|渝北区|巴南区|黔江区|长寿区|江津区|合川区|永川区|南川区|璧山区|铜梁区|潼南区|荣昌区|开州区|梁平区|武隆区|城口县|丰都县|垫江县|忠县|云阳县|奉节县|巫山县|巫溪县|石柱土家族自治县|秀山土家族苗族自治县|酉阳土家族苗族自治县|彭水苗族土家族自治县|江北经济技术开发区|北部新区 |
是 |
杭州市行政区域 |
识别杭州市行政区域。 上城区|拱墅区|西湖区|滨江区|萧山区|余杭区|临平区|钱塘区|富阳区|临安区|桐庐县|淳安县|建德市 |
是 |
天津市行政区域 |
识别天津市行政区域。 和平区|河东区|河西区|南开区|河北区|红桥区|东丽区|西青区|津南区|北辰区|武清区|宝坻区|滨海新区|宁河区|静海区|蓟州区 |
是 |
中国行业分类 |
识别中国行业分类门类,如:农、林、牧、渔业。 |
是 |
中国行业分类(大类) |
识别中国行业分类(大类),如:农业、林业、畜牧业。 |
是 |
中国行业分类(中类) |
识别中国行业分类(中类),如:谷物种植、水果种植。 |
是 |
专利类型 |
识别专利类型。 发明专利|实用新型专利|外观设计专利 |
是 |
专利类型简称 |
识别专利类型简称。 发明发布|实用新型|外观设计 |
是 |
中国驾驶证等级分类 |
识别中国驾驶证等级分类,如:A1、C3。 |
是 |
是否本地标识 |
识别本地|外地 |
是 |
中国地理方位 |
识别中国地理方位,如华北|东北|西北|华东|华南|西南|华西 |
是 |
世界银行名称 |
识别世界银行的全称 |
是 |
世界公司名称 |
识别世界公司名称 |
是 |
企业性质 |
识别企业性质,如国有企业。 |
是 |
世界大学名称 |
识别世界大学名称全称 |
是 |
中国大学学科分类 |
识别中国大学专业分类:哲学|经济学|法学|教育学|文学|历史学|理学|工学|农学|医学|军事学|管理学|艺术学 |
是 |
中国大学专业 |
识别中国大学专业 |
是 |
学季 |
识别学季。 春季|秋季 |
是 |
季节 |
识别季节。 春|夏|秋|冬 |
是 |
世界国家名称 |
识别世界国家的全称 |
是 |
世界节日名称 |
识别世界节日的全称 |
是 |
世界语言名称 |
识别世界语言的全称 |
是 |
世界语言英文缩写-ISO639 |
识别世界语言英文缩写,如aa |
是 |
英文人名 |
识别英文人名 |
是 |
英文名-姓氏 |
识别英文姓氏 |
是 |
英文名-名字 |
识别英文名字 |
是 |
中文人名 |
识别中文人名 |
是 |
中国姓氏 |
识别中国姓氏 |
是 |
中国姓氏拼音 |
识别中国姓氏的拼音 |
是 |
学历名称 |
识别学历,支持枚举值,如bachelor of arts |
是 |
学历简称 |
识别学历简称,如ba |
是 |
中国法定节假日 |
识别元旦|春节|清明节|劳动节|端午节|中秋节|国庆节 |
是 |
中国车牌号 |
识别中国车牌号 |
是 |
月份(数字格式) |
识别月份,取值范围01-12。 |
是 |
月份缩写 |
识别月份的缩写,支持枚举值。 |
是 |
月份 |
识别月份,范围一月到十二月 |
是 |
utc偏移量 |
识别UTC偏移,如UTC-09:00 |
是 |
中国运营商 |
识别中国运营商,支持枚举值。 |
是 |
中国上市公司所属板块 |
识别上证A股|深证A股|沪深A股|沪深B股|中小企业版|创业板|新三板 |
是 |
中国银行SWIFT |
识别银行SWIFT编码 |
是 |
中国车牌地区代码 |
识别中国车牌地区代码,如浙A |
是 |
中国邮编 |
识别中国邮编 |
是 |
中国地区代码 |
识别中国地区代码 |
是 |
中国手机号 |
识别中国手机号 |
是 |
台湾手机号 |
识别台湾手机号 |
是 |
香港手机号 |
识别香港手机号 |
是 |
澳门手机号 |
识别澳门手机号 |
是 |
性别 |
识别男|女 |
是 |
性别 |
识别男性|女性 |
是 |
货币单位 |
识别世界货币单位,支持枚举值 |
是 |
世界货币中文名称 |
识别世界货币中文全称,如文莱元 |
是 |
世界货币英文名称 |
识别世界货币英文全称,如Turkish lira |
是 |
世界货币英文缩写 |
识别世界货币英文缩写,如CUP |
是 |
世界货币符号 |
识别世界货币符号,如$ |
是 |
付款方式 |
识别付款方式:现金|银行卡|支付宝|微信|信用卡 |
是 |
支付状态 |
识别支付状态:待支付|已支付|未支付 |
是 |
付款方式 |
识别付款方式,中文加英文格式,如支付宝:AliPay |
是 |
购买状态 |
识别购买状态:不购买|购买 |
是 |
发票抬头类型 |
识别发票抬头类型:企业|非企业性单位|个人 |
是 |
发票类型 |
识别发票类型:公司发票|个人发票 |
是 |
中国民族中文名称 |
识别中国56个名族,支持枚举值 |
是 |
中国银行卡号 |
识别中国银行卡号 |
是 |
车辆识别码(VIN) |
识别车辆识别码 |
是 |
OBD-II故障码 |
识别OBD故障码 |
是 |
总线速率 |
识别总线速率,如125kbps |
是 |
电池类型 |
识别电池类型,如铅酸电池 |
是 |
车排量 |
识别车排量,如1.0L |
是 |
车辆类型 |
识别车辆类型,如轿车 |
是 |
中小学课程 |
识别中小学课程,如语文 |
是 |
中小学教师职称 |
识别中小学教师职称,如初级教师 |
是 |
中国小学名称 |
识别中国小学名称 |
是 |
学籍变更类型 |
识别学籍变更情况:转学|休学|留级|退学|在读|其他 |
是 |
PC端操作系统 |
识别PC端操作系统类型,如macos |
是 |
移动端操作系统 |
识别移动端操作系统类型,如ios |
是 |
手机操作系统 |
识别手机操作系统中文名称,如鸿蒙。 |
是 |
文件大小单位 |
识别文件大小单位:B|KB|MB|GB|TB|b|kb|mb|gb|tb|Kb|Gb|Tb|Mb |
是 |
出行方式 |
识别出行方式,如机票flight |
是 |
颜色 |
识别颜色,如亮灰色 |
是 |
ABO血型 |
识别血型:A型|AB型|B型|O型,不区分大小写 |
是 |
Rh血型 |
识别rh血型:Rh阳性|Rh阴性|rh阴性|rh阳性 |
是 |
文件格式 |
识别文件格式 |
是 |
合格不合格标志 |
识别合格|不合格 |
是 |
出入库类别 |
识别出库|入库 |
是 |
有无状态 |
识别有|无 |
是 |
处理标志 |
识别未处理|已处理 |
是 |
启用状态 |
识别启用状态:启用|未启用|停用|开启|禁用 |
是 |
审核状态 |
识别审核状态:免审|不免审 |
是 |
是否员工 |
识别是否员工:员工|非员工 |
是 |
是否自愿 |
识别是否自愿:自愿|非自愿 |
是 |
是否有效 |
识别有效状态:有效|无效 |
是 |
删除状态 |
识别删除状态:删除|未删除 |
是 |
使用状态 |
识别使用状态:使用中|已停用 |
是 |
16进制颜色 |
识别16进制颜色,如:#00CED1、#FF0000。 |
是 |
港澳台居民居住证 |
识别港澳台居民居住证 |
是 |
香港居民身份证 |
识别香港居民身份证 |
是 |
澳门居民身份证 |
识别澳门居民身份证 |
是 |
港澳居民来往内地通行证 |
识别港澳居民来往内地通行证 |
是 |
台湾居民身份证 |
识别台湾居民身份证 |
是 |
台湾居民来往大陆通行证 |
识别台湾居民来往大陆通行证 |
是 |
内地居民往返台湾通行证 |
识别内地居民往返台湾通行证 |
是 |
内地居民往返港澳通行证编码 |
识别内地居民往返港澳通行证编码 |
是 |
中国护照 |
识别中国护照 |
是 |
中国军官证 |
识别中国军官证 |
是 |
中国专利申请号 |
识别中国专利申请号 |
是 |
中国专利发布号 |
识别中国专利发布号 |
是 |
中国婚姻状况登记编码 |
识别中国婚姻状况登记编码 |
是 |
中国座机号码 |
识别中国座机号码 |
是 |
中国小学年级 |
识别中国小学年级。 一年级|二年级|三年级|四年级|五年级|六年级 |
是 |
中国高中年级 |
识别中国高中年级。 高一|高二|高三 |
是 |
中国初中年级 |
识别中国初中年级。 初一|初二|初三 |
是 |
中国本科年级 |
识别中国本科年级。 大一|大二|大三|大四 |
是 |
中国研究生年级 |
识别中国研究生年级。 研一|研二|研三 |
是 |
中国教师资格证编码 |
识别中国教师资格证编码 |
是 |
中国职业分类(2022) |
识别中国职业分类(2022),如:国家机关、党群组织、企业、事业单位负责人。 |
是 |
中国地址 |
识别中国地址,如:黑龙江省黑河市五大连池市新发乡永和村。 |
是 |
中国大学代码 |
识别中国大学代码 |
是 |
中国学历证书编码 |
识别中国学历证书编码 |
是 |
经度 |
识别经度,如:-55.951511。 |
是 |
纬度 |
识别纬度,如:157.6197。 |
是 |
安全码 |
识别安全码 |
是 |
社会统一信用代码 |
识别中国社会统一信用代码 |
是 |
国际标准刊号 |
识别国际标准刊号,如:ISSN0409-3816。 |
是 |
年 |
识别年份 |
是 |
日 |
识别日 |
是 |
数据隐私分类 |
识别数据隐私分类。 非个人数据|一般个人数据|隐私个人数据|敏感个人数据 |
是 |
云服务类型 |
识别云服务类型。 |
是 |
上市状态 |
识别上市状态。 未上市|已上市|退市|暂停上市|恢复上市|摘牌 |
是 |
星期 |
识别星期。 星期一|星期二|星期三|星期四|星期五|星期六|星期日 |
是 |
星期缩写 |
识别英文星期缩写,如:Mon、Tues。 |
是 |
政治面貌 |
识别政治面貌。 中共党员|中共预备党员|共青团员|民革党员|民盟盟员|民建会员|民进会员|农工党党员|致公党党员|九三学社社员|台盟盟员|无党派人士|群众 |
是 |
在职状态 |
识别在职状态。 在职|离职|待业 |
是 |
季度 |
识别季度。 第一季度|第二季度|第三季度|第四季度 |
是 |
季度简称 |
识别季度的简称。 Q1|Q2|Q3|Q4|q1|q2|q3|q4 |
是 |
排名 |
识别排名,如:第1名。 |
是 |
奖牌 |
识别奖牌。 金牌|银牌|铜牌 |
是 |
增值税纳税人分类 |
识别增值税纳税人分类。 一般纳税人|小规模纳税人|双定户 |
是 |
纳税人类别 |
识别纳税人类别。 自然人|个体工商户|法人 |
是 |
国家发展阶段类型 |
识别国家发展阶段类型。 发达国家|发展中国家 |
是 |
世界国家全称 |
识别世界国家全称。如:中华人民共和国。 |
是 |
星期简写 |
识别星期简写。 周一|周二|周三|周四|周五|周六|周日 |
是 |
星座 |
识别中文星座名。 白羊座|金牛座|双子座|巨蟹座|狮子座|处女座|天秤座|天蝎座|射手座|摩羯座|水瓶座|双鱼座 |
是 |
摄氏温度 |
识别摄氏温度,如:-61°C、1°C。 |
是 |
华氏温度 |
识别华氏温度,如:-29°F、4°F。 |
是 |
家庭关系大类 |
识别家庭关系大类。 父母|配偶|子女 |
是 |
家庭关系小类 |
识别家庭关系小类。 配偶|妻子|丈夫|儿子|女儿|孙子|孙女|兄弟|姊妹|父亲|母亲|祖父|祖母|外祖父|外祖母|姑姑|叔叔|舅舅|姨妈 |
是 |
户口户别 |
识别户口户别。 家庭户|集体户 |
是 |
政治面貌简称 |
识别政治面貌简称。 党员|团员|预备党员|少先队员|群众 |
是 |
生育状态 |
识别生育状态。 已育|未育|未知 |
是 |
日期(年月日) |
识别年月日格式的日期,如:2001年07月04日、1912年10月30日。 |
是 |
日期(年月) |
识别年月格式的日期,如:1999年12月、1999年10月。 |
是 |
日期(月日) |
识别月日格式的日期,如:10月18日、10月30日。 |
是 |
星座 |
识别星座名,如:cancer、sagittarius。 |
是 |
中国座机号 |
识别中国座机号码 |
是 |
中国企业组织机构代码 |
识别中国企业组织机构代码 |
是 |
贷款分类(信用程度) |
识别信用程度维度的贷款分类。 信用贷款|担保贷款|票据贴现 |
是 |
贷款分类(使用期限) |
识别使用期限维度的贷款分类。 短期贷款|中期贷款|长期贷款 |
是 |
贷款分类(经营属性) |
识别经营属性维度的贷款分类。 自营贷款|委托贷款|特定贷款 |
是 |
授信种类 |
识别授信种类。 基本授信|特别授信 |
是 |