本文导读

展开导读

文档首页/ MapReduce服务 MRS/ 组件操作指南（LTS版）/ 使用Flink/ Flink企业级能力增强/ Flink作业大小表Join能力增强

Flink作业大小表Join能力增强

更新时间：2024-10-21 GMT+08:00

查看PDF

本章节适用于MRS 3.3.0及以后版本。

Flink作业大小表Join

Flink作业双流Join时存在大小表数据，通过内核broadcast策略确保小表数据发送到Join的task中，通过rebalance策略将大表数据打散到Join中，提高Flink SQL易用性，增强作业稳定性。

图1 Flink作业大小表Join

在使用Flink SQL时，该特性通过hints方法指定Join的左表或右表为广播表，另一张表为rebalance表，SQL语句示例如下，分别以A\C作为小表示例：

以A表作为广播表

使用Join方式

SELECT /*+ BROADCAST(A) */ a2, b2 FROM A JOIN B ON a1 = b1

使用Where方式

SELECT /*+ BROADCAST(A) */ a2, b2 FROM A, B WHERE a1 = b1

以A和C表作为广播表

SELECT /*+ BROADCAST(A, C) */ a2, b2, c2 FROM A JOIN B ON a1 = b1 JOIN C ON a1 = c1

说明：

支持通过“/*+ BROADCAST(smallTable1, smallTable2) */”方式使用该特性，兼容开源双流Join逻辑。
不支持开源双流Join和该特性的切换，因为该特性会将数据广播到每个Join算子。
不支持LEFT JOIN时小表为左表，RIGHT JOIN时小表为右表。

Flink作业大小表Join去重

在双流关联的业务模型中，关联算子接收到其中一个流发送的大量重复数据，则会导致下游算子需要处理大量重复数据，影响作业性能。

如A表字段（P1，A1，A2）使用如下方式关联B表字段（P1，B1，B2，B3）生成C的场景中，B表信息发生大量更新，但是B中的所需字段没有更新，在该关联中仅用到了B表的B1和B2字段，对于B表，每个记录更新只更新B3字段，B1和B2不更新，因此当B表更新，可以忽略更新后的数据。

select  A.A1,B.B1,B.B2 from A join B on A.P1=B.P1

为解决如上问题可通过使用hint单独为左表（duplicate.left）或右表（duplicate.right）设置去重：

格式

为左表设置去重
```
 /*+ OPTIONS('duplicate.left'='true')*/
```

为右表设置去重

 /*+ OPTIONS('duplicate.right'='true')*/

同时为左表和右表设置去重

 /*+ OPTIONS('duplicate.left'='true','duplicate.right'='true')*/

在SQL语句中配置

如同时为左表“user_info”和右表“user_score”设置去重。

CREATE TABLE user_info (`user_id` VARCHAR, `user_name` VARCHAR) WITH (
  'connector' = 'kafka',
  'topic' = 'user_info_001',
  'properties.bootstrap.servers' = '192.168.64.138:21005',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'latest-offset',
  'value.format' = 'csv'
);
CREATE table print(
  `user_id` VARCHAR,
  `user_name` VARCHAR,
  `score` INT
) WITH ('connector' = 'print');
CREATE TABLE user_score (user_id VARCHAR, score INT) WITH (
  'connector' = 'kafka',
  'topic' = 'user_score_001',
  'properties.bootstrap.servers' = '192.168.64.138:21005',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'latest-offset',
  'value.format' = 'csv'
);
INSERT INTO
  print
SELECT
  t.user_id,
  t.user_name,
  d.score
FROM
  user_info as t
  JOIN 
  -- 为左表和右表设置去重
  user_score /*+ OPTIONS('duplicate.left'='true','duplicate.right'='true')*/ as d ON t.user_id = d.user_id;

父主题： Flink企业级能力增强

上一篇：配置Flink SQL Client支持SQL校验功能

下一篇：FlinkSQL OVER窗口支持超期退窗

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

Flink作业大小表Join能力增强

Flink作业大小表Join

Flink作业大小表Join去重

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈