中软国际数据治理专业服务解决方案实践

中软国际数据治理专业服务解决方案实践

    大数据优化选择 更多内容
  • Hive Join数据优化

    Cache中按桶一个一个读取小表内容,然后与表做匹配直接得到结果并输出。 Join顺序优化 当有3张及以上的表进行Join时,选择不同的Join顺序,执行时间存在较大差异。使用恰当的Join顺序可以有效缩短任务执行时间。 Join顺序原则: Join出来结果较小的组合,例如表数据量小或两张表Join后产生结果较少,优先执行。

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 尽量使用执行效率比较高的数据类型 一般来说整型数据运算(包括=、>、<、≧、≦、≠等常规的比较运算,以及group by)的效率比字符串、浮点数要高。 尽量使用短字段的数据类型 长度较短的数据类型不仅可以减小数据文件的大小,提升I

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 尽量使用执行效率比较高的数据类型 一般来说整型数据运算(包括“=”、“>”、“<”、“≧”、“≦”、“≠”等常规的比较运算,以及group by)的效率比字符串、浮点数要高。 尽量使用短字段的数据类型 长度较短的数据类型不仅可以减

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 尽量使用执行效率比较高的数据类型 一般来说整型数据运算(包括=、>、<、≧、≦、≠等常规的比较运算,以及group by)的效率比字符串、浮点数要高。比如某客户场景中对列存表进行点查询,filter条件在一个numeric列上,执

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 使用执行效率更高的数据类型 通常情况下,整型数据运算(包括“=”、“>”、“<”、“≧”、“≦”、“≠”等常规的比较运算,以及GROUP BY)的效率比字符串和浮点数的效率高。 使用短字段的数据类型 长度较短的数据类型不仅可以减小

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 尽量使用执行效率比较高的数据类型 一般来说整型数据运算(包括=、>、<、≧、≦、≠等常规的比较运算,以及group by)的效率比字符串、浮点数要高。比如某客户场景中对列存表进行点查询,filter条件在一个numeric列上,执

    来自:帮助中心

    查看更多 →

  • 选择数据类型

    选择数据类型 高效数据类型,主要包括以下三方面: 尽量使用执行效率比较高的数据类型 一般来说整型数据运算(包括=、>、<、≧、≦、≠等常规的比较运算,以及group by)的效率比字符串、浮点数要高。比如某客户场景中对列存表进行点查询,filter条件在一个numeric列上,执

    来自:帮助中心

    查看更多 →

  • 数据分区查找优化

    当表内的数据量很大同时具有很长的历史周期时,由于扫描数据缩减所带来的性能提升会有非常明显的效果,如图2所示。 图1 分区表示例图 图2 分区表剪枝示例图 父主题: 容量数据

    来自:帮助中心

    查看更多 →

  • 数据分区查找优化

    当表内的数据量很大同时具有很长的历史周期时,由于扫描数据缩减所带来的性能提升会有非常明显的效果,如图2所示。 图1 分区表示例图 图2 分区表剪枝示例图 父主题: 容量数据

    来自:帮助中心

    查看更多 →

  • 大数据性能优化

    数据性能优化 HIVE优化 Spark性能优化 Flink性能优化 父主题: 云服务性能优化介绍

    来自:帮助中心

    查看更多 →

  • 业务体验优化数据规划

    业务体验优化数据规划 VN间流量分配数据规划 Overlay ACL策略数据规划 QoS策略数据规划 智能选路数据规划 父主题: 数据规划

    来自:帮助中心

    查看更多 →

  • Hive ORC数据存储优化

    Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。

    来自:帮助中心

    查看更多 →

  • 数据分区查找优化

    分区扫描。当表内的数据量很大同时具有很长的历史周期时,由于扫描数据缩减所带来的性能提升会有明显的效果,如图2所示。 图1 分区表示例图 图2 分区表剪枝示例图 父主题: 容量数据

    来自:帮助中心

    查看更多 →

  • 数据分区查找优化

    分区扫描。当表内的数据量很大同时具有很长的历史周期时,由于扫描数据缩减所带来的性能提升会有明显的效果,如图2所示。 图1 分区表示例图 图2 分区表剪枝示例图 父主题: 容量数据

    来自:帮助中心

    查看更多 →

  • Hive ORC数据存储优化

    Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。

    来自:帮助中心

    查看更多 →

  • 创建ModelArts数据选择任务

    创建ModelArts数据选择任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择数据管理>数据处理”,进入“数据处理”页面。 在“数据处理”页

    来自:帮助中心

    查看更多 →

  • 大数据优化与提升服务

    数据优化与提升服务 结合华为自身理论经验,帮助企业规划构建大数据体系和治理平台。 产品介绍 常见问题 计费说明 父主题: 优化与提升

    来自:帮助中心

    查看更多 →

  • 分区导入数据性能优化

    分区导入数据性能优化 场景描述 当往分区表中插入数据时候,如果插入的数据为常量/参数/表达式等简单类型,会自动对INSERT算子进行执行优化(FastPath)。可以通过执行计划来判断是否触发了执行优化,触发时Insert计划前会带有FastPath关键字。 示例 gaussdb=#

    来自:帮助中心

    查看更多 →

  • 分区导入数据性能优化

    分区导入数据性能优化 场景描述 当向分区表插入数据的时候,如果插入的数据为常量/参数/表达式等简单类型,会自动对INSERT算子进行执行优化(FastPath)。可以通过执行计划来判断是否触发了执行优化,触发执行优化时Insert计划前会带有FastPath关键字。 示例 gaussdb=#

    来自:帮助中心

    查看更多 →

  • 数据库性能优化

    数据库性能优化 以下章节我们结合一些具体建议和案例来说明如何针对数据库的使用进行性能优化: 1.优化数据库配置实践 数据库的配置参数应从具体业务诉求着手,根据实际需要进行设计;华为云在各个数据库云服务中均提供了默认的配置参数,以满足最普遍的业务需要。 华为云提供了多款数据库服务,

    来自:帮助中心

    查看更多 →

  • 优化数据库语句方法

    优化数据库语句方法 文档数据库属于NoSQL数据库,提供了可扩展的高性能数据解决方案,与关系型数据库(例如MySQL、SQLServer、Oracle)一样,在数据库设计、语句优化、索引创建等方面都会影响数据库的使用性能。 下面从不同维度,给出提升DDS使用性能的建议。 数据库和集合的创建

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了