spark的driver内存_CarbonData常见配置参数-华为云

CarbonData常见配置参数

该配置指定了表上并发操作过程中所要求的锁的类型。有以下几种类型锁实现方式： LOCALLOCK：基于本地文件系统的文件来创建的锁。该锁只适用于一台机器上只运行一个Spark Driver（或者JD BCS erver）的情况。 HDFSLOCK：基于HDFS文件系统上的文件来创建的锁。该锁适用于集群

来自：帮助中心

查看更多 →
cache table使用指导

utor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力，但当缓存的表较大或者缓存表数量较多时，将不可避免地影响executor的稳定性。此时的最佳实践是，当不需要将表cache来实现查询加速时，应及时将表进行uncache以释放内存。可以执行命令uncache

来自：帮助中心

查看更多 →
cache table使用指导

utor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力，但当缓存的表较大或者缓存表数量较多时，将不可避免地影响executor的稳定性。此时的最佳实践是，当不需要将表cache来实现查询加速时，应及时将表进行uncache以释放内存。可以执行命令uncache

来自：帮助中心

查看更多 →
CarbonData常见配置参数

该配置指定了表上并发操作过程中所要求的锁的类型。有以下几种类型锁实现方式： LOCALLOCK：基于本地文件系统的文件来创建的锁。该锁只适用于一台机器上只运行一个Spark Driver（或者JDB CS erver）的情况。 HDFSLOCK：基于HDFS文件系统上的文件来创建的锁。该锁适用于集群

来自：帮助中心

查看更多 →
Spark性能优化

服务规模与业务容量参数配置对照表 Spark作为内存计算引擎，需要更多的内存和CPU。用户在规划规格时，应根据当前的业务容量和增长速度，规划合理的内存和CPU资源，特别需要关注以下几点：当程序运行在yarn-client模式下时，需要关注在driver端汇聚的数据量大小，根据自己的业务场景，为driver设置合理的内存。

来自：帮助中心

查看更多 →
管理CDL ENV变量

每个Executor进程的内存，和JVM内存串拥有相同的格式，单位默认为GB。 1GB Executor Cores 每个Executor所占用的CPU核的数目。 1 Number Executors Executor的个数。 1 Queue Yarn的租户队列名。不指定将默认提交到default队列上。

来自：帮助中心

查看更多 →
SQL作业运行慢如何定位

参考图10可以看到数据倾斜时，单个任务的shuffle数据远大于其他Task的数据，导致该任务耗时时间变长。图10 数据倾斜示例图数据倾斜原因和解决： Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。对join连接条件进行group by 和count，统计每个连接条件的key值的数量。示例如下：

来自：帮助中心

查看更多 →
scala样例代码

读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate

来自：帮助中心

查看更多 →
ALM-43012 JDBCServer2x进程直接内存使用超出阈值

产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响 JDBCServer2x进程直接内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用，Spark

来自：帮助中心

查看更多 →
经验总结

资源受限的问题。此时需要对数据重新进行分区，使用coalesce(numPartitions, true)。 localDir配置 Spark的Shuffle过程需要写本地磁盘，Shuffle是Spark性能的瓶颈，I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入

来自：帮助中心

查看更多 →
经验总结

资源受限的问题。此时需要对数据重新进行分区，使用coalesce(numPartitions, true)。 localDir配置 Spark的Shuffle过程需要写本地磁盘，Shuffle是Spark性能的瓶颈，I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入

来自：帮助中心

查看更多 →
经验总结

资源受限的问题。此时需要对数据重新进行分区，使用coalesce(numPartitions, true)。 localDir配置 Spark的Shuffle过程需要写本地磁盘，Shuffle是Spark性能的瓶颈，I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入

来自：帮助中心

查看更多 →
Spark动态分区插入场景内存优化

Spark动态分区插入场景内存优化操作场景 SparkSQL在往动态分区表中插入数据时，分区数越多，单个Task生成的HDFS文件越多，则元数据占用的内存也越多。这就导致程序GC（Gabage Collection）严重，甚至发生OOM（Out of Memory）。经测试证

来自：帮助中心

查看更多 →
安装PV driver

安装PV driver 本章节适用于虚拟化类型为XEN架构的云服务器，目前仅部分老用户在使用XEN架构并逐步切换至KVM架构，新用户将不会再购买到XEN架构的云服务器（详见已停售的实例规格）。如果当前创建的私有镜像用于非已停售的实例规格，请省略此步骤。操作场景使用弹性云服务器

来自：帮助中心

查看更多 →
配置Spark Eventlog日志回滚

JobStart，JobEnd）按文件的大小进行决定是否写入新的日志文件。对于Spark SQL的应用，Job事件还包含ExecutionStart、ExecutionEnd。 Spark中有个HistoryServer服务，其UI页面就是通过读取解析这些日志文件获得的。在启动HistoryS

来自：帮助中心

查看更多 →
配置Spark Eventlog日志回滚

JobStart，JobEnd）按文件的大小进行决定是否写入新的日志文件。对于Spark SQL的应用，Job事件还包含ExecutionStart、ExecutionEnd。 Spark中有个HistoryServer服务，其UI页面就是通过读取解析这些日志文件获得的。在启动HistoryS

来自：帮助中心

查看更多 →
ALM-43010 JDBCServer进程堆内存使用超出阈值（2.x及以前版本）

参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。对系统的影响 JDBCServer进程堆内存使用率过高，会影响JDBCServer进程运行的性能，甚至造成内存溢出导致JDBCServer进程不可用。

来自：帮助中心

查看更多 →
发现敏感数据

若未创建请参考创建 DataArts Studio 数据连接新建连接。 *数据库呈现待扫描的数据库。单击数据库后的“设置”，设置待扫描的数据库范围。单击“清除”，可对已选择的数据库进行修改。 *数据表对于 DLI 和DWS类型的敏感数据发现任务，您需要设置选择表的方式，当前支持手动筛选、通配符匹配和全部三种方式。手

来自：帮助中心

查看更多 →
ALM-43012 JDBCServer进程直接内存使用超出阈值（2.x及以前版本）

参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。对系统的影响 JDBCServer进程直接内存使用率过高，会影响JDBCServer进程运行的性能，甚至造成内存溢出导致JDBCServer进程不可用。

来自：帮助中心

查看更多 →
提交SQL作业（推荐）

当子查询中数据不重复的情况下，执行关联子查询，不需要对子查询的结果去重。当子查询中数据重复的情况下，执行关联子查询，会提示异常，必须对子查询的结果做去重处理，比如max(),min()。该参数设置为false：不管子查询中数据重复与否，执行关联子查询时，都需要对子查询的结果去重，比如max()

来自：帮助中心

查看更多 →
ALM-43011 JDBCServer进程非堆内存使用超出阈值（2.x及以前版本）

参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。对系统的影响 JDBCServer进程非堆内存使用率过高，会影响JDBCServer进程运行的性能，甚至造成内存溢出导致JDBCServer进程不可用。

来自：帮助中心

查看更多 →