更新时间:2021-09-26 GMT+08:00
分享

数据探索

选择数据后,可以对选定的数据进行探索操作,包括数据统计、图表分析、特征分析以及时序分析。

数据统计

支持对当前特征数据进行全量展示,包括所有特征字段对应的字段类型,字段值。还支持对某个特征字段进行统计,统计类型包括平均值、方差、最大值、最小值、百分比分位数。支持特征列绘制直方图、箱线图、折线图及面积图。

操作步骤如下所示。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。

    数据探索文件在JupyterLab环境编辑界面上默认靠右展示,左侧为算法工程代码编辑主文件(*.ipynb)展示区域。用户可以通过按鼠标拖拽的方式设置数据探索文件的展示区域。左键单击数据探索文件标题区域,长按鼠标拖拽数据探索文件待出现蓝色底纹区域框后松开鼠标即可。数据探索文件可和算法工程代码编辑主文件(*.ipynb)分上下、左右区域同时展示,也可同级展示。同级展示时,JupyterLab环境编辑界面只展示一个文件界面,通过单击文件标题切换文件界面。

  2. 展开“数据统计”页签,查看特征数据全量表。
  3. 单击数值类型的特征列列名,可查看该特征列绘制的直方图、箱线图等,如果数据为时序数据,可绘制趋势图。在全量特征统计表下方可查看该特征列的数值统计。

    时序数据的数值统计中,时间列信息的“时间间隔是否均匀”为“否”时,需要执行时序数据预处理操作。

    如果时序数据在选择数据操作时,“是否检测周期与平稳性”开关关闭,则数据的“是否平稳”和“周期(样本数)”统计项可手动进行检测操作,数据量较大时,检测执行时间会较长,用户可自行选择是否检测。

图表分析

支持对当前特征数据进行图表展示。

操作步骤如下所示。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 展开“图表分析”页签,按需求设置图表图形。界面参数说明如表1所示。

    表1 参数说明

    功能入口

    功能说明

    参数

    参数说明

    图表类型及图表展示参数设置。

    图表类型

    特征数据可展示的图表类型,包括散点图、折线图、直方图、箱线图、散点图矩阵、KDE曲线、3D散点图。

    如果特征数据为时序数据,支持的图表类型分别有趋势图、直方图、箱线图、KDE曲线、ACF与PACF。

    标题

    特征数据图表标题。

    X轴

    单击“”,从特征数据的特征列中选择数据列作为图表X轴。

    Y轴

    单击“”,从特征数据的特征列中选择数据列作为图表Y轴。

    Z轴

    单击“”,从特征数据的特征列中选择数据列作为图表Z轴。

    列名

    单击“”,选定特征数据的特征列作为直方图、箱线图、KDE曲线、散点图矩阵、ACF与PACF展示的数据来源。

    视觉维度配置

    “是否启用视觉维度”为开启状态时,单击“标签列名”对应的“”,选定特征数据的特征列作为散点图、折线图、3D散点图的视觉维度标签,视觉维度标签将展示在图表右上角。

    包含高斯分布曲线

    是否展示高斯分布曲线开关。图表类型为直方图时展示。

    直方图柱数

    直方图展示柱的数量。

    图表类型为直方图时展示。

    Lag

    绘制ACF与PACF图表时设置的滞后阶数。

    图表外观设置

    主题

    图表主题

    散点图设置

    设置散点图标记点类型和标记点大小。

    折线图设置

    设置折线图线条是否平滑、标记点类型以及大小。

    视觉维度设置

    设置视觉维度的样式,如颜色、大小、形状等。

    截取及清空图表展示图

    截取当前图表图形,截取后的图形展示在左侧空白区域。

    清空截取的图表图形。

  3. 单击右下方“保存至特征工程”可将绘制的图表保存至JupyterLab环境编辑区域。

特征分析(特征选择)

特征选择就是使用算法对特征进行相关性分析,根据结果从众多特征中剔除不重要的特性,从而保留重要的特性。

当前系统支持如下两种特征选择方法:

  • 过滤法(Filter)

    按照发散性或者相关性对各个特征进行评分,设定待选择评分数最高的特征个数,选择特征。

  • 包装法(Wrapper)

    算法每次根据皮尔逊相关系数选择一个相关系数最大的特征进行丢弃,并进行模型训练得出精度,当精度低于设置的阈值时,停止丢弃特征。

使用过滤法时提供如下算法:

  • 卡方检验

    卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若卡方值为0,表明实际值与理论值完全符合。

  • F检验

    F检验是一种在零假设之下,统计值服从F-分布的检验。

  • 信息增益

    信息增益是对两个随机变量之间相关信息量的度量,值越大说明变量之间的相关性越强。

上述算法中,卡方检验、F检验和信息增益可用于分类任务,F检验和信息增益可用于回归任务。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 选择“特征分析”页签。
  3. 在左侧目录树上单击“特征选择”。
  4. 设置“标签列”、“方法”、“算法”等参数,具体参数说明如表2所示。

    表2 参数说明

    参数

    参数说明

    标签列

    单击“”选择标签列,用以分析特征列和标签列的相关性。

    方法

    特征分析可选用的方法,目前支持如下两种方法:

    • 过滤法(Filter)
    • 包装法(Wrapper)

    算法

    “方法”选择“过滤法”时可选用的具体分析算法,目前支持如下算法:

    • 卡方检验
    • F检验
    • 信息增益

    选择特征数

    特征分析完成后按相关性大小展示的Top N特征数。

    标签列是否为类别型

    标签列设置后,该参数会根据标签列的类型自动判断是否为类别型,用户可使用默认值。

    随机种子

    “算法”为“信息增益”时设置,用以生成随机数。

    排除特征列

    执行包装法前需要排除的特征列,这些被排除的列不参与后续特征选择,单击“”选择排除特征列。

    指标阈值

    模型训练精度阈值。使用“包装法(Wrapper)”会对特征进行反复训练,当训练结果精度低于设置的阈值时,停止丢弃特征。

    提交分析请求。

    提交分析任务至分析完成期间,可单击此按钮终止分析任务。

    截取Top N柱状图。用户可以另存图片至本地使用。

    清空界面上的相关性分析Top N柱状图截图。

  5. 单击“分析”。

    系统自动分析完成后,将以柱状图和列表形式展示分析结果,柱状图中展示的特征列的个数即为设置的“选择特征数”值。列表默认按照相关性评分降序展示所有的特征列。

  6. 选择特征列。

    • 保留分析结果所有Top N个特征列。
      1. 单击Top N柱状图结果下方的“应用”。

        页面跳转至JupyterLab环境编辑区域并生成“选择特征”代码框,“列选择”下展示的“列名”为柱状图展示的所有特征列。

      2. 单击图标,运行“选择特征”代码框内容。
    • 保留部分分析结果中的特征列。
      1. 勾选“分析结果”列表中特征列前的复选框,如需选择所有特征列,可勾选表头中的复选框。
      2. 单击“分析结果”列表下方的“应用”。

        页面跳转至JupyterLab环境编辑区域并生成“选择特征”代码框,“列选择”下展示的“列名”为用户勾选的特征列。

      3. 单击图标,运行“选择特征”代码框内容。

特征分析(ACE)

ACE(Alternating Conditional Expectation)是一种在回归分析中寻找响应变量Y(标签)与预测变量X(特征)之间最佳转换的算法,这些(转换后的)预测变量和(转换后的)响应变量之间产生最大的线性效应。ACE分析只支持回归类任务。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 选择“特征分析”页签。
  3. 在左侧目录树上单击“ACE”。
  4. 设置“标签列”、“列名”、“特征列变换初始化方法”等参数,具体参数说明如表3所示。

    表3 参数说明

    参数

    参数说明

    标签列

    响应变量,单击“”选择标签列,仅支持单列选择。

    列名

    预测变量,单击“”选择列名,支持多列选择。

    特征列变换初始化方法

    ACE分析时,特征列的初始化方式,支持如下特征列变换初始化方法:

    • zeros

      表示0作为初始值。

    • zero-mean

      表示将特征值减去均值后的值作为初始值。

    • std

      表示将特征值减去均值再除以方差后的值作为初始值。

    标签列变换初始化方法

    ACE分析时,标签列的初始化方式,支持如下标签列变换初始化方法:

    • zero-mean
    • std

    迭代误差容忍度

    迭代终止条件,当迭代误差达到“迭代误差容忍度”值时,终止迭代。默认值为“0.001”。

    最大迭代次数

    迭代终止条件,当迭代次数达到“最大迭代次数”时,终止迭代。默认值为“100”。

    “迭代误差容忍度”和“最大迭代次数”无论哪个先满足,迭代都会终止。

    近邻样本数

    算法迭代过程中,需要求解到每个点的近邻数量,默认值为“100”。

    是否使用kd-tree

    是否使用k-维树来搜索近邻数。k-维树是一种分割k维数据空间的数据结构。

    提交分析请求。

    提交分析任务至分析完成期间,可单击此按钮终止分析任务。

    截取ACE分析图。用户可以另存图片至本地使用。

    清空界面上ACE分析截图。

  5. 单击“分析”。

    分析完成后右侧展示分析结果图,可单击“保存至特征工程”将分析结果图保存到JupyterLab环境编辑区域。

时序分解

时间序列的变化会受到长期趋势(T)、季节变动(S)、周期变动(C)以及不规则变动(L)的影响,时序数据分解是指使用加法模型或乘法模型将原始数据拆分成上述四部分。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 选择“时序分析”页签。
  3. 在左侧目录树上单击“时序分解”。
  4. 设置“时间列”、“特征列”、“模型”等参数,具体参数说明如表4所示。

    表4 参数说明

    参数

    参数说明

    时间列

    待分解时序数据的时间列。

    特征列

    待分解时序数据特征列。

    模型

    时序数据分解使用的分解模型,支持:

    • 加法模型

      如果季节变动的幅度以及趋势和周期的波动都不随时间变化而变化,则比较适合使用加法模型。

    • 乘法模型

      如果季节变动的幅度或趋势和周期的波动随时间变化而变化,则比较适合使用乘法模型。

    周期

    时序数据周期值。

    提交分析请求。

    提交分析任务至分析完成期间,可单击此按钮终止分析任务。

  5. 单击“分析”。

    分析完成后右侧展示分析结果图,可单击“保存至特征工程”将分析结果图保存到JupyterLab环境编辑区域。

异常检测

时序数据序列中存在模式不一致的异常点(如时序数据超出正常范围的上/下界,突然的上升或下降,趋势改变),时序数据的异常检测旨在快速准确地找到这些异常点。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 选择“时序分析”页签。
  3. 在左侧目录树上单击“异常检测”。
  4. 设置“时间列”、“特征列”、“异常类型”等参数,具体参数说明如表5所示。

    表5 参数说明

    参数

    参数说明

    时间列

    待异常检测时序数据的时间列。

    特征列

    待异常检测时序数据的特征列。

    异常类型

    异常检测类型:

    • 数值范围

      表示检测平稳时序数据是否异常,给出异常判断参考区间。

    • 突升/突降

      表示检测平稳时序数据中突增或突降的异常点。

    异常区间获取方法

    获取用于判断时序数据异常的上/下界区间的方法,支持:

    • 箱线图
    • 3 Sigma
    • 两者任意一个检测到异常
    • 两者同时检测到异常

    突变点个数

    “异常类型”为“突升/突降”时展示,表示需要检测到平稳时序数据中突增或突降点的个数。

    默认值为5,检测结果有可能会小于这个个数。

    是否进行周期分解

    “异常类型”为“突升/突降”时展示,表示如果待检测数据为周期数据,是否需要进行周期分解,用于增强数据的差异性。

    默认关闭。

    一个周期内的数量值

    “是否进行周期分解”开启时展示此参数,表示进行周期分解时,一个周期内的数据量。

    是否进行过滤

    “异常类型”为“突升/突降”时展示,表示是否对检测出的Top N个点进行二次过滤。

    默认关闭。

    过滤阀值

    “是否进行过滤”开启时展示,表示如果对检测出的Top N个点进行二次过滤,则该参数作为过滤阈值,小于阈值的点将被认为是突变点。

    提交分析请求。

    提交分析任务至分析完成期间,可单击此按钮终止分析任务。

  5. 单击“分析”。

    分析完成后右侧展示分析结果图,可单击“保存至特征工程”将分析结果图保存到JupyterLab环境编辑区域。

相关文档