更新时间:2022-12-19 GMT+08:00
全并行的数据查询处理
功能描述
全并行的分布式查询处理是DWS中最核心的技术,它可以最大限度的降低查询时节点之间的数据流动,以提升查询效率。
DWS为达成高性能数据分析目标,实现了一套高性能的分布式执行引擎,执行引擎以SQL引擎生成的执行计划为输入,将元组按执行计划的要求进行加工并将结果返回给客户端。
技术原理
图1展示了DWS的全并行分布式查询技术。
- 运行在CN上的分布式执行引擎实现了分布式执行调度的功能。
- 节点内引入新的执行算子来支撑数据在计算节点之间的流动,这些新的执行算子称其为数据流操作符,根据数据流的输入、输出关系,可以细分为聚合流(Gather)、广播流(Broadcast)和重分布流(Redistribution)。聚合流将数据从多个查询片段聚合到一个。广播流将数据从一个查询片段的数据向多个传输。重分布流则将多个查询片段的数据,按照一定规则重组后向多个传输。
- 跨计算节点的数据传输依赖于查询分析阶段根据数据分布以及代价模型构建的数据流动拓扑结构,并根据此结构来建立节点之间的网络连接,驱动数据流动于此拓扑结构之上。
父主题: DWS核心技术