机器学习中的特征选择正则化

数据清洗

替换为替换后的数据。当前操作流从下拉框中选择当前数据操作流的名字。操作流变量名如果存在多个数据操作流，可重命名操作流对象的变量名，以避免冲突。单击图标，运行“数据替换”代码框内容。数据映射将特征列中的数据映射替换为用户需要的数据后，生成一个新的特征列。原有特征列不受影响，仍然保留。

来自：帮助中心

查看更多 →
筛选特征

特征；过低的iv值没有区分性会造成训练资源的浪费，过高的iv值又过于突出可能会过度影响训练出来的模型。例如这里大数据厂商提供的f4特征iv值是0，说明这个特征对于标签的识别没有区分度，可以不选用；而f0、f2特征的iv值中等，适合作为模型的训练特征。根据计算得出的iv值，企业

来自：帮助中心

查看更多 →
特征操作

特征离散化特征离散化是将特征列连续的样本数据离散化为[0，离散数量-1]区间内的整型数据。特征离散化操作步骤如下。单击表头，选中需要执行特征离散化的特征列。选中的特征列必须为数值型。单击“特征操作”，从下拉框中选择“特征离散化”。弹出“特征离散化”对话框。参数配置如下所示：检

来自：帮助中心

查看更多 →
特征画像

果右侧的参数说明，如表1所示。表1 特征画像参数说明参数说明设备数需要检测的KPI对象的数量，如设备或端口的数目。样本数训练数据总的样本数。采样率采样频率，单位为秒。60的含义为每60秒采样一次。开始时间采样的时间跨度。结束时间周期是否有周期的特性，给出评估的值。

来自：帮助中心

查看更多 →
呼叫特征

呼叫特征表1 呼叫特征说明值说明 0 普通客户呼叫 1 来自话务员 2 长途客户呼叫 3 CTI收到网络路由实呼后发起的路由 4 国际长途来话 40 预约呼出 41 预占用呼出 42 预连接呼出 43 虚呼入呼出 44 预览呼出 45 回呼请求 51 内部求助父主题：附录

来自：帮助中心

查看更多 →
创建纵向联邦学习作业

定义XGBoost算法中决策树的数量，一个样本的预测值是多棵树预测值的加权和。取值范围为1~50的整数。树深度定义每棵决策树的深度，根节点为第一层。取值范围为1~10的整数。切分点数量定义每个特征切分点的数量，数量越多，准确率越高，计算时间越长。取值范围为5~10的整数。分类阈值

来自：帮助中心

查看更多 →
正则表达式分隔半结构化文本

存储或者文件系统，且“文件格式”必须选择“ CS V格式”。图1 正则表达式参数在迁移CSV格式的文件时， CDM 支持使用正则表达式分隔字段，并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料，这里举例下面几种日志文件的正则表达式的写法： Log4J日志 Log4J审计日志

来自：帮助中心

查看更多 →
GS_OPT_MODEL

model_name name 模型的实例名，每个模型对应AiEngine在线学习进程中的一套参数、训练日志、模型系数。此列需为unique。 datname name 该模型所服务的database名，每个模型只针对单个database。此参数决定训练时所使用的数据。 ip name AiEngine端所部署的host

来自：帮助中心

查看更多 →
GS

model_name name 模型的实例名，每个模型对应AiEngine在线学习进程中的一套参数、训练日志、模型系数。此列需为unique。 datname name 该模型所服务的database名，每个模型只针对单个database。此参数决定训练时所使用的数据。 ip name AiEngine端所部署的host

来自：帮助中心

查看更多 →
修订记录

新增“异步推理”章节。更新“发布推理服务”章节。 2020-11-30 优化创建联邦学习工程章节，加入在模型训练服务创建联邦学习工程和联邦学习服务的关系描述。 2020-09-30 数据集详情界面优化，更新新建数据集和导入数据。模型训练章节，针对AutoML自动机器学习，输出场景化资料。模型管理界面优化，更新模型管理。

来自：帮助中心

查看更多 →
如何选择备案填写信息中的“地域”

如何选择备案填写信息中的“地域” 对于个人备案，请根据您的身份证所在地、或实际居住地选择备案提交的地域。是否允许跨省备案，需以各地管局要求为准。对于单位备案，请根据主体证件签发地（如营业执照工商注册地），选择备案提交的地域。不能选择非企业主体证件签发地的省份。父主题：备案信息填写FAQ

来自：帮助中心

查看更多 →
GS_OPT_MODEL

model_name name 模型的实例名，每个模型对应AiEngine在线学习进程中的一套参数、训练日志、模型系数。此列需为unique。 datname name 该模型所服务的database名，每个模型只针对单个database。此参数决定训练时所使用的数据。 ip name AiEngine端所部署的host

来自：帮助中心

查看更多 →
时序数据处理

待进行时间特征提取的时间列。预提取时间特征要提取的时间特征。默认为“全量提取”，指提取全部的时间特征。此外还支持提取“年”、“月”、“日”、“时”、“分”、“秒”、“星期几”、“一年中的第几天”、“一年中的第几周”、“季”这些时间特征。新列名提取出时间特征后产生的新特征列的列

来自：帮助中心

查看更多 →
创建白名单策略

您策略列表中可以查看已创建的策略及策略当前状态。创建白名单策略完成后，HSS会自动开始对策略关联的服务器进行学习，学习服务器中的应用进程特征。待策略状态变更为“学习完成，未生效”表示学习完成，可确认学习结果。相关操作编辑白名单策略如果创建策略完成后，您需要修改策略模式、防护动作或防护的服务器，您可以编辑白名单策略。

来自：帮助中心

查看更多 →
文本类加工算子能力清单

将简体文本转换为繁体，或将繁体文本转换为简体。符号标准化查找数据中携带的非标准化符号进行标准化、统一化转换。统一空格：将所有Unicode空格（如U+00A0、U+200A）转换为标准空格（U+0020）。全角转半角：将文本中的全角字符转换为半角字符。标点符号归一化，支持统一格式的符号如下： {"？":

来自：帮助中心

查看更多 →
大模型开发基本概念

调整模型的softmax输出层中预测词的概率。其值越大，则预测词的概率的方差减小，即很多词被选择的可能性增大，利于文本多样化。多样性与一致性多样性和一致性是评估LLM生成语言的两个重要方面。多样性指模型生成的不同输出之间的差异。一致性指相同输入对应的不同输出之间的一致性。重复惩罚

来自：帮助中心

查看更多 →
实体管理（可选）

创建成功后，可以通过单击“操作”列的“编辑”进入实体编辑页面。在实体编辑页面，设置词条的标准词和同义词。词条由标准词和同义词组成，标准词为该词条的归一结果，即无论机器人识别到该词条的标准词还是同义词，机器人只会解析成标准词；同义词为该标准词的不同说法。比如：高兴与开心。高兴是标准词，开心是同义词。

来自：帮助中心

查看更多 →
特征工程

单击特征工程“操作”列的图标，进入JupyterLab环境的“Launcher”界面。在左侧的代码目录中，可以看到系统自动为用户创建的与特征工程同名的算法工程目录“Harddisk”。一个特征工程中，支持创建多个算法工程，与Harddisk同级的是其他算法工程目录，可无需关注。在左侧代码目录中，单击Harddisk，进入Harddisk目录。

来自：帮助中心

查看更多 →
特征工程

。 “RATE” 训练数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.7。测试数据占比：生成的结果中，训练集占整个训练集和测试集的比例，默认0.3。结果保存路径单击选择所有输出数据在OBS的保存根路径，会在这个根路径下自动创建feature_map、fea

来自：帮助中心

查看更多 →
特征操作接口

项目ID，获取方法请参考获取项目ID。 instance_id 是 String 实例的ID。最小长度：1 最大长度：64 请求参数表2 请求Body参数参数是否必选参数类型描述 package_id 是 String 模型包ID。最小长度：1 最大长度：50 entity_urn

来自：帮助中心

查看更多 →
模型选择

单击“模型选择”代码框左侧的图标，运行代码。运行结果如下所示：特征推荐：学件推荐的特征，除了一些通用的特征（最值、均值等），还有一部分是专门为类似KPI做的异常检测效果比较好的特征。通常采用滑窗的方式做异常检测。目前所有窗口的长度，是根据数据的周期性、样本数、周期的个数等数据特点推荐的。窗口的长度

来自：帮助中心

查看更多 →