配置SQL作业源表并行度

操作场景

在Flink SQL作业中，源表的并行度默认由全局并行度决定，无法单独控制。当源表的数据量较大或需要独立调整消费速率时，全局并行度设置无法满足精细化的性能调优需求。Flink支持通过"scan.parallelism"参数单独设置源表的并行度，使源表并行度与全局并行度解耦，实现更灵活的资源分配和性能优化。

约束与限制

本章节适用于MRS 3.6.0-LTS及之后版本。

配置SQL作业源表并行度

在SQL作业中，可以通过“scan.parallelism”参数设置自定义并行度，以调整作业性能。

SQL示例：

CREATE TABLE KafkaSource (
  `user_id` VARCHAR,
  `user_name` VARCHAR,
  `age` INT
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_source',
  'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'scan.parallelism' = '2',
  'format' = 'csv'
);
CREATE TABLE KafkaSink(
  `user_id` VARCHAR,
  `user_name` VARCHAR,
  `age` INT
) WITH (
  'connector' = 'kafka',
  'topic' = 'test_sink',
  'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号',
  'value.format' = 'csv'
);
Insert into
  KafkaSink
select
  *
from
  KafkaSource;

hints方式示例：

Insert into
  KafkaSink
select
  *
from
  KafkaSource /*+ OPTIONS('scan.parallelism'='2') */;

父主题： Flink开源特性使用介绍

上一篇：使用Flink JDBC Driver提交Flink SQL作业

下一篇：使用SQL hints配置不同状态的TTL

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问

配置SQL作业源表并行度

操作场景

约束与限制

配置SQL作业源表并行度

相关文档

意见反馈

文档内容是否对您有帮助？