中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    海量数据去重 更多内容
  • 数据倾斜调优

    对于agg操作,解决倾斜的思路与join操作不同,这里是通过首先在本DN内按照group by key进行操作,然后再进行分布。因为经过DN内部之后,从全局来看,每个值的数量都不会超过DN数,因此不会出现严重的数据倾斜问题。以如下query为例: 1 select c1, c2, c3, c4,

    来自:帮助中心

    查看更多 →

  • SQL查询最佳实践

    SQL查询最佳实践 根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 使用UNION ALL代替UNION UNION在合并两个集合时会执行操作,而UNION ALL则直接将两个结果集合并、不执行。执行重会消

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • ClickHouse数据入库规范

    ClickHouse数据入库规范 规则 写本地表,查询分布式表,提升写入和查询性能,保证写入和查询的数据一致性。 只有在诉求的场景下,可以使用分布式表插入,通过sharding key将要去数据转发到同一个shard,便于后续查询。 外部模块保证数据导入的幂等性。 Cl

    来自:帮助中心

    查看更多 →

  • SQL查询最佳实践

    SQL查询最佳实践 根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 使用union all代替union union在合并两个集合时会执行操作,而union all则直接将两个结果集合并、不执行。执行重会消

    来自:帮助中心

    查看更多 →

  • SQL查询最佳实践

    SQL查询最佳实践 根据数据库的SQL执行机制以及大量的实践总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 使用union all代替union union在合并两个集合时会执行操作,而union all则直接将两个结果集合并、不执行。执行重会消

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • 集合操作

    集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是的,UNION ALL是不去的。 示例 输出Orders1和Orders2的并集,不包含重复记录。 1 2 insert into temp SELECT

    来自:帮助中心

    查看更多 →

  • 配置查询条件

    手写模式:执行步骤4。 在“配置”区域的“基本设置”和“函数”两个页签中配置结果字段、结果显示行数、结果行数、是否、条件过滤、函数和数据分析等信息。 在右侧点击“查看代码”页签查看配置后生成的SQL。 数据分析的相关配置不展示在SQL中。 在“代码块”区域自定义SQL语句。 对于熟悉SQL的用户,

    来自:帮助中心

    查看更多 →

  • 数据导入

    的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID。 前提条件 已按照创建离线数据源操作指导完成数据源的创建。 已完成数据结构识别和人工复核确认。 操作步骤

    来自:帮助中心

    查看更多 →

  • 图像类说明

    category: 对象类目,如给定则不进行对象分类,直接使用该category作为类目。 collapse_key: 标签名,如给定则会基于其对搜索结果进行。 { "do_det": true, "box": "50,100,200,300", "do_cls":

    来自:帮助中心

    查看更多 →

  • 群发助手

    若上传文件中有重复号码,系统自动,仅以第一条数据为准。 手动输入接收号码 直接输入手机号,例如:138111XXXX1; 输入手机号敲击回车键确定,一行视为一个号码; 手动输入最多支持100个号码,大批量号码建议通过文件导入形式提交; 若输入手机号有重复号码,系统自动,仅以第一条数据为准。 设置发送时间

    来自:帮助中心

    查看更多 →

  • PERF03-06 选择合适的消息队列

    三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:兼容开源RocketMQ,提供顺序、延迟、定时、投、死信、事务与会话消息等功能,适用电商、金融场景。

    来自:帮助中心

    查看更多 →

  • 应用程序是否需要支持自动重连TaurusDB标准版数据库

    应用程序是否需要支持自动连TaurusDB标准版数据库 建议您的应用程序支持自动数据库,当数据库重启后,无需人工介入,应用会自动恢复,提供更高的可用性。 同时建议您的应用程序采用长连接方式连接数据库,以降低资源消耗,提高性能。 父主题: 数据库连接

    来自:帮助中心

    查看更多 →

  • 文本类加工算子能力清单

    种的文档。 段落结尾不完整句子过滤 删除文本中不完整段落和句子。 广告数据过滤 删除文本中包含广告数据的句子。 全局文本 检测并去除数据中重复或高度相似的文本,防止模型过拟合或泛化性降低。 父主题: 数据集加工算子介绍

    来自:帮助中心

    查看更多 →

  • 调试概述

    数据存储数据源(旧) DataStoreSource 是 否 是 资产数据输入(旧) IoTSource 是 否 是 管道数据输入 PipelineSource 是 否 是 转化算子 数据聚合 Aggregate 是 是 是 数据 Deduplicate 是 是 是 噪 Denoise

    来自:帮助中心

    查看更多 →

  • 本地盘使用最佳实践

    弹性云服务器 操作对本地盘数据的影响 弹性 云服务器 日常操作对本地盘及本地盘数据的影响如表1所示。 表1 弹性云 服务器 操作对本地盘数据的影响 操作 是否保留本地盘 是否保留本地盘数据 关机/强制关机 是 是 重启/强制重启 是 是 切换操作系统 是 是 重装操作系统 是 是 实例部署 是 否 续费一台过期的包年/包月本地盘实例

    来自:帮助中心

    查看更多 →

  • FROM

    FROM后所跟的子查询结果必须带上前面所取的别名,否则会出错。 示例 返回选了course_info表中课程的学生姓名,并利用DISTINCT关键字进行。 1 2 SELECT DISTINCT name FROM (SELECT name FROM student_info JOIN

    来自:帮助中心

    查看更多 →

  • FROM子句嵌套子查询

    FROM后所跟的子查询结果必须带上前面所取的别名,否则会出错。 示例 返回选了course_info表中课程的学生姓名,并利用DISTINCT关键字进行。 1 2 SELECT DISTINCT name FROM (SELECT name FROM student_info JOIN

    来自:帮助中心

    查看更多 →

  • 在线服务

    排除行为类型:将有此行为类型的物品排除掉,使之依旧在候选集中。 属性 单击增加属性。 “属性名”:从下拉列表中选择属性名进行。如“product_color”,则对产品颜色相同的物品进行。 “位置”:可选择“排序前”或者“排序后”。 属性值过滤 指定定制化用户

    来自:帮助中心

    查看更多 →

  • GS_BLOCKLIST_SQL

    名单信息和异常信息,此视图是由系统表GS_BLOCKLIST_SQL和GS_WLM_SESSION_INFO关联所得,同时对查询结果进行了筛选,因此在GS_WLM_SESSION_INFO表较大的情况下,查询可能需要消耗较长时间。 该视图仅9.1.0.200及以上集群版本支持。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了