中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    海量数据去重 更多内容
  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • 配置查询条件

    手写模式:执行步骤4。 在“配置”区域的“基本设置”和“函数”两个页签中配置结果字段、结果显示行数、结果行数、是否、条件过滤、函数和数据分析等信息。 在右侧点击“查看代码”页签查看配置后生成的SQL。 数据分析的相关配置不展示在SQL中。 在“代码块”区域自定义SQL语句。 对于熟悉SQL的用户,

    来自:帮助中心

    查看更多 →

  • 数据处理

    数据选择:在AI开发过程中,采集的数据可能存在大量重复数据,重复数据对模型精度提升并没有太大作用,反而需要花费很多时间对其进行标注。使用数据选择进行数据预处理,对采集到的数据,根据相似度删除一些重复度比较高的数据数据增强:数据增强的目的是帮助用户增加数据量。 父主题: 数据分析与预览

    来自:帮助中心

    查看更多 →

  • SQL查询最佳实践

    SQL查询最佳实践 根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 使用union all代替union union在合并两个集合时会执行操作,而union all则直接将两个结果集合并、不执行。执行重会消

    来自:帮助中心

    查看更多 →

  • SQL查询最佳实践

    SQL查询最佳实践 根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 使用UNION ALL代替UNION UNION在合并两个集合时会执行操作,而UNION ALL则直接将两个结果集合并、不执行。执行重会消

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • ClickHouse数据入库规范

    ClickHouse数据入库规范 规则 写本地表,查询分布式表,提升写入和查询性能,保证写入和查询的数据一致性。 只有在诉求的场景下,可以使用分布式表插入,通过sharding key将要去数据转发到同一个shard,便于后续查询。 外部模块保证数据导入的幂等性。 Cl

    来自:帮助中心

    查看更多 →

  • PERF03-06 选择合适的消息队列

    三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:兼容开源RocketMQ,提供顺序、延迟、定时、投、死信、事务与会话消息等功能,适用电商、金融场景。

    来自:帮助中心

    查看更多 →

  • 数据导入

    的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。 已完成数据结构识别和人工复核确认。 操作步骤

    来自:帮助中心

    查看更多 →

  • 图像类说明

    category: 对象类目,如给定则不进行对象分类,直接使用该category作为类目。 collapse_key: 标签名,如给定则会基于其对搜索结果进行。 { "do_det": true, "box": "50,100,200,300", "do_cls":

    来自:帮助中心

    查看更多 →

  • 调试概述

    数据存储数据源(旧) DataStoreSource 是 否 是 资产数据输入(旧) IoTSource 是 否 是 管道数据输入 PipelineSource 是 否 是 转化算子 数据聚合 Aggregate 是 是 是 数据 Deduplicate 是 是 是 噪 Denoise

    来自:帮助中心

    查看更多 →

  • 本地盘使用最佳实践

    弹性云服务器 操作对本地盘数据的影响 弹性 云服务器 日常操作对本地盘及本地盘数据的影响如表1所示。 表1 弹性云 服务器 操作对本地盘数据的影响 操作 是否保留本地盘 是否保留本地盘数据 关机/强制关机 是 是 重启/强制重启 是 是 切换操作系统 是 是 重装操作系统 是 是 实例部署 是 否 续费一台过期的包年/包月本地盘实例

    来自:帮助中心

    查看更多 →

  • 在线服务

    排除行为类型:将有此行为类型的物品排除掉,使之依旧在候选集中。 属性 单击增加属性。 “属性名”:从下拉列表中选择属性名进行。如“product_color”,则对产品颜色相同的物品进行。 “位置”:可选择“排序前”或者“排序后”。 属性值过滤 指定定制化用户

    来自:帮助中心

    查看更多 →

  • FROM

    FROM后所跟的子查询结果必须带上前面所取的别名,否则会出错。 示例 返回选了course_info表中课程的学生姓名,并利用DISTINCT关键字进行。 1 2 SELECT DISTINCT name FROM (SELECT name FROM student_info JOIN

    来自:帮助中心

    查看更多 →

  • FROM子句嵌套子查询

    FROM后所跟的子查询结果必须带上前面所取的别名,否则会出错。 示例 返回选了course_info表中课程的学生姓名,并利用DISTINCT关键字进行。 1 2 SELECT DISTINCT name FROM (SELECT name FROM student_info JOIN

    来自:帮助中心

    查看更多 →

  • 重启实例

    重启实例 出于维护目的,您可能需要重启数据库实例。 使用须知 实例状态为“正常”、“异常”、“恢复检查中”,支持重启实例。 重启实例会导致服务中断,请谨慎操作。请在业务低峰期重启,重启前请做好业务安排并确保应用有连机制。 重启实例后,该实例下所有节点将会被重启。 开启操作保护的

    来自:帮助中心

    查看更多 →

  • GS

    信息和异常信息,此视图是由系统表GS_BLOCKLIST_QUERY和GS_WLM_SESSION_INFO关联所得,同时对查询结果进行了筛选,因此在GS_WLM_SESSION_INFO表较大的情况下,查询可能需要消耗较长时间。 表1 GS_BLOCKLIST_QUERY视图字段

    来自:帮助中心

    查看更多 →

  • 分布式消息服务RocketMQ版

    cketMQ版来收发消息。 收发消息 收发普通消息 收发顺序消息 收发事务消息 05 实践 您可以通过消息幂等实现消息。 实践场景 通过消息幂等实现消息 02 购买 您可以根据实际需求在控制台购买不同规格的RocketMQ实例。 购买方式 购买RocketMQ实例 价格详情

    来自:帮助中心

    查看更多 →

  • 提交SQL作业(推荐)

    该参数设置为true: 当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果。 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做处理,比如max(),min()。 该参数设置为false: 不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max()

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了