MapReduce服务 MRS

 

MapReduce服务(MapReduce Service)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。包年更优惠,买1年只需付10个月费用

 
 

    mapreduce优化 更多内容
  • 查询分子优化任务

    查询分子优化任务 功能介绍 通过分子优化任务ID查询分子优化任务状态及结果。 URI GET /v1/{project_id}/task/optimization/{task_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 华为云项目id

    来自:帮助中心

    查看更多 →

  • 其他优化器选项

    enable_codegen 参数说明:标识是否允许开启代码生成优化,目前代码生成使用的是LLVM优化。 参数类型:USERSET 取值范围:布尔型 on表示允许开启代码生成优化。 off表示不允许开启代码生成优化。 目前LLVM优化仅支持向量化执行引擎特性和SQL on Hadoop特性,在其他场景下建议关闭此参数。

    来自:帮助中心

    查看更多 →

  • 优化器开销常量

    优化器开销常量 介绍优化器开销常量。这里描述的开销可以按照任意标准度量。只关心其相对值,因此以相同的系数缩放它们将不会对优化器的选择产生任何影响。缺省时,它们以抓取顺序页的开销为基本单位。也就是说将seq_page_cost设为1.0,同时其他开销参数以它为基准设置。也可以使用其他基准,比如以毫秒计的实际执行时间。

    来自:帮助中心

    查看更多 →

  • Hive Group By语句优化

    Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。

    来自:帮助中心

    查看更多 →

  • Hive SQL逻辑优化

    Hive SQL逻辑优化 操作场景 在Hive上执行SQL语句查询时,如果语句中存在“(a&b) or (a&c)”逻辑时,建议将逻辑改为“a & (b or c)”。 样例 假设条件a为“p_partkey = l_partkey”,优化前样例如下所示: select

    来自:帮助中心

    查看更多 →

  • Datasource表优化

    Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压

    来自:帮助中心

    查看更多 →

  • 开发MapReduce应用

    开发MapReduce应用 MapReduce统计样例程序 MapReduce访问多组件样例程序 父主题: MapReduce开发指南(普通模式)

    来自:帮助中心

    查看更多 →

  • MapReduce接口介绍

    MapReduce接口介绍 MapReduce Java API接口介绍 MapReduce REST API接口介绍 父主题: MapReduce应用开发常见问题

    来自:帮助中心

    查看更多 →

  • Kafka性能优化

    Kafka性能优化 Kafka性能优化 优化客户端配置 生产者配置建议 可参考配置建议。 消费者配置建议 参数 推荐值 说明 max.poll.records 500 消费者一次能消费到的最大消息数量,默认为500,如果每条消息处理时间较长,建议调小该值,确保在max.poll.interval

    来自:帮助中心

    查看更多 →

  • Spark性能优化

    Spark性能优化 概述 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去

    来自:帮助中心

    查看更多 →

  • 其他相关参数优化

    其他相关参数优化 开启上述导入性能增强的优化后,索引merge任务会相应增加,可以通过调整如下配置降低merge任务开销对导入性能的影响: 通过指定配置项“index.merge.scheduler.max_thread_count”,增加shard的合并线程数,减少合并对数据导入的限流。默认为4,建议设置为8。

    来自:帮助中心

    查看更多 →

  • Spark SQL join优化

    Spark SQL join优化 操作场景 Spark SQL中,当对两个表进行join操作时,利用Broadcast特性(见“使用广播变量”章节),将被广播的表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。

    来自:帮助中心

    查看更多 →

  • 优化器开销常量

    优化器开销常量 介绍优化器开销常量。这里描述的开销可以按照任意标准度量。只关心其相对值,因此以相同的系数缩放它们将不会对优化器的选择产生任何影响。缺省时,以抓取顺序页的开销为基本单位。也就是说将seq_page_cost设为1.0,同时其他开销参数以他为基准设置。也可以使用其他基准,比如以毫秒计的实际执行时间。

    来自:帮助中心

    查看更多 →

  • 其他优化器选项

    enable_pbe_optimization 参数说明:设置优化器是否对以PBE(Parse Bind Execute)形式执行的语句进行查询计划的优化。 参数类型:布尔型 参数单位:无 取值范围: on表示优化器将优化PBE语句的查询计划。 off表示不使用优化。 默认值:on 设置方式:该参数属于

    来自:帮助中心

    查看更多 →

  • 其他优化器选项

    Execute)形式执行的语句进行查询计划的优化。 该参数属于SUSET类型参数,请参考表1中对应设置方法进行设置。 取值范围:布尔型。 on表示优化器将优化PBE语句的查询计划。 off表示不使用优化。 默认值:on enable_light_proxy 参数说明:设置优化器是否对简单查询在CN上优化执行,应用

    来自:帮助中心

    查看更多 →

  • 优化器开销常量

    优化器开销常量 介绍优化器开销常量。这里描述的开销可以按照任意标准度量。只关心其相对值,因此以相同的系数缩放它们将不会对优化器的选择产生任何影响。缺省时,它们以抓取顺序页的开销为基本单位。也就是说将seq_page_cost设为1.0,同时其他开销参数以它为基准设置。也可以使用其他基准,比如以毫秒计的实际执行时间。

    来自:帮助中心

    查看更多 →

  • 基因查询优化器

    基因查询优化器 介绍基因查询优化器相关的参数。基因查询优化器(GEQO)是一种启发式的查询规划算法。这个算法减少了对复杂查询规划的时间,而且生成规划的开销有时也小于正常的详尽的查询算法。 geqo 参数说明:控制基因查询优化的使用。 该参数属于USERSET类型参数,请参考表1中对应设置方法进行设置。

    来自:帮助中心

    查看更多 →

  • 其他优化器选项

    enable_pbe_optimization 参数说明:设置优化器是否对以PBE(Parse Bind Execute)形式执行的语句进行查询计划的优化。 参数类型:布尔型 参数单位:无 取值范围: on表示优化器将优化PBE语句的查询计划。 off表示不使用优化。 默认值:off 设置方式:该参数属

    来自:帮助中心

    查看更多 →

  • 优化器开销常量

    优化器开销常量 介绍优化器开销常量。这里描述的开销可以按照任意标准度量。只关心其相对值,因此以相同的系数缩放它们将不会对优化器的选择产生任何影响。缺省时,它们以抓取顺序页的开销为基本单位。也就是说将seq_page_cost设为1.0,同时其他开销参数以它为基准设置。也可以使用其他基准,比如以毫秒计的实际执行时间。

    来自:帮助中心

    查看更多 →

  • 基因查询优化器

    基因查询优化器 介绍基因查询优化器相关的参数。基因查询优化器(GEQO)是一种启发式的查询规划算法。这个算法减少了对复杂查询规划的时间,而且生成规划的开销有时也小于正常的详尽的查询算法。 geqo 参数说明:控制基因查询优化的使用。 该参数属于USERSET类型参数,请参考表1中对应设置方法进行设置。

    来自:帮助中心

    查看更多 →

  • 优化器开销常量

    优化器开销常量 介绍优化器开销常量。这里描述的开销可以按照任意标准度量。只关心其相对值,因此以相同的系数缩放它们将不会对优化器的选择产生任何影响。缺省时,它们以抓取顺序页的开销为基本单位。也就是说将seq_page_cost设为1.0,同时其他开销参数以它为基准设置。也可以使用其他基准,比如以毫秒计的实际执行时间。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了