OVER子句

功能描述

窗口函数与OVER语句一起使用。OVER语句用于对数据进行分组，并对组内元素进行排序。窗口函数用于给组内的值生成序号。

语法格式

    
         SELECT window_func(args) OVER
  ([PARTITION BY col_name, col_name, ...]
   [ORDER BY col_name, col_name, ...]
   [ROWS | RANGE BETWEEN (CURRENT ROW | (UNBOUNDED |[num]) PRECEDING)
  AND (CURRENT ROW | ( UNBOUNDED | [num]) FOLLOWING)]);

关键字

PARTITION BY：可以用一个或多个键分区。和GROUP BY子句类似，PARTITION BY将表按分区键分区，每个分区是一个窗口，窗口函数作用于各个分区。单表分区数最多允许7000个。
ORDER BY：决定窗口函数求值的顺序。可以用一个或多个键排序。通过ASC或DESC决定升序或降序。窗口由WINDOW子句指定。如果不指定，默认窗口等同于ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW，即窗口从表或分区（如果OVER子句中用PARTITION BY分区）的初始处到当前行。
WINDOW：通过指定一个行区间来定义窗口。
CURRENT ROW：表示当前行。
num PRECEDING：定义窗口的下限，即窗口从当前行向前数num行处开始。
UNBOUNDED PRECEDING：表示窗口没有下限。
num FOLLOWING：定义窗口的上限，即窗口从当前行向后数num行处结束。
UNBOUNDED FOLLOWING：表示窗口没有上限。
ROWS BETWEEN…和RANGE BETWEEN…的区别：
- ROW为物理窗口，即根据ORDER BY子句排序后，取前N行及后N行的数据计算（与当前行的值无关，只与排序后的行号相关）。
- RANGE为逻辑窗口，即指定当前行对应值的范围取值，列数不固定，只要行值在范围内，对应列都包含在内。

窗口有以下多种场景，如

窗口只包含当前行。

        
             ROWS BETWEEN CURRENT ROW AND CURRENT ROW

窗口从当前行向前数3行开始，到当前行向后数5行结束。
1

ROWS BETWEEN 3 PRECEDING AND 5 FOLLOWING

窗口从表或分区的开头开始，到当前行结束。

        
             ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW

窗口从当前行开始，到表或分区的结尾结束。

        
             ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING

窗口从表或分区的开头开始，到表或分区的结尾结束。

        
             ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING

注意事项

OVER子句包括：PARTITION BY子句、ORDER BY子句和WINDOW子句，可组合使用。OVER子句为空表示窗口为整张表。

示例

上述语句窗口从表或分区的开头开始，到当前行结束，对over_test表按照id字段进行排序，并返回排序好后的id及id所对应的序号。

   
        SELECT id, count(id) OVER (ORDER BY id ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) FROM over_test;

父主题： Spark SQL语法参考（即将下线）

上一篇：CASE搜索函数

下一篇：Flink Opensource SQL1.12语法参考

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消