CREATE FUNCTION
功能描述
FUNCTION(函数)是一段可重用的代码块,它接受输入参数,执行特定操作,并返回一个值或结果集。CREATE FUNCTION语句用于在数据库中创建用户自定义函数(UDF),实现DWS当前内置的系统函数中还未支持的其他计算功能,覆盖用户特定的复杂计算场景。
函数的主要特点包括:
- 支持输入参数,可根据不同条件返回结果。
- 需声明返回值的数据类型,执行结果返回单一值(标量函数)或表(表值函数)。
- 将复杂逻辑封装为单一函数,可以在SQL语句中像内置函数一样调用,提高代码的复用性。
注意事项
- 如果创建函数时参数或返回值带有精度,不进行精度检测。
- 创建函数时,函数定义中对表对象的操作建议都显式指定模式(例如hr.table1,明确指定是hr模式下面的表),否则可能会导致函数执行异常。
- 在创建函数时,函数内部通过SET语句设置current_schema和search_path无效。函数执行完的search_path和current_schema与函数执行前的search_path和current_schema保持一致。
- 如果函数参数中带有出参,SELECT调用函数必须缺省出参,CALL调用函数适配Oracle必须指定出参,对于调用重载的带有PACKAGE属性的函数,CALL调用函数可以缺省出参,具体信息参见CALL的示例。
- 兼容PostgreSQL风格的函数或者带有PACKAGE属性的函数支持重载。在指定REPLACE的时候,如果参数个数、类型、返回值有变化,不会替换原有函数,而是会建立新的函数。
- SELECT调用可以指定不同参数来进行同名函数调用。由于语法CALL适配自Oracle,因此不支持调用不带有PACKAGE属性的同名函数。
- 在创建function时,不能在avg函数外面嵌套其他agg函数,或者其他系统函数。
- 在非逻辑集群模式下,暂不支持将返回值、参数以及变量设置为建在非系统默认安装Node Group的表,sql function内部语句暂不支持对建在非系统默认安装Node Group的表操作。
- 在逻辑集群模式下,如果函数返回值和参数是用户表类型,所有涉及表都必须在同一逻辑集群内;如果函数内部涉及对多个逻辑集群表操作,函数定义时不能为IMMUTABLE和SHIPPABLE类型,以避免函数被下推到DN执行。
- 在逻辑集群模式下,函数参数、返回值不能用%type引用表字段类型,否则会导致函数创建失败。
- 新创建的函数默认会给PUBLIC授予执行权限(详见GRANT)。用户可以选择收回PUBLIC默认执行权限,然后根据需要将执行权限授予其他用户,为了避免出现新函数能被所有人访问的时间窗口,应在一个事务中创建函数并且设置函数执行权限。
- 在多个CN的集群中,不能将函数的入参或出参设置为临时表类型,因为在非当前连接CN上执行创建函数过程中,无法单独根据表名获取到正确的临时schema,进而无法获取到准确的表类型。
语法格式
- 兼容PostgreSQL风格的创建自定义函数语法。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
CREATE [ OR REPLACE ] FUNCTION function_name ( [ { argname [ argmode ] argtype [ { DEFAULT | := | = } expression ]} [, ...] ] ) [ RETURNS rettype [ DETERMINISTIC ] | RETURNS TABLE ( { column_name column_type } [, ...] )] LANGUAGE lang_name [ {IMMUTABLE | STABLE | VOLATILE } | {SHIPPABLE | NOT SHIPPABLE} | WINDOW | [ NOT ] LEAKPROOF | {CALLED ON NULL INPUT | RETURNS NULL ON NULL INPUT | STRICT } | {[ EXTERNAL ] SECURITY INVOKER | [ EXTERNAL ] SECURITY DEFINER | AUTHID DEFINER | AUTHID CURRENT_USER} | {FENCED | NOT FENCED} | {PACKAGE} | COST execution_cost | ROWS result_rows | SET configuration_parameter { {TO | =} value | FROM CURRENT }} ][...] { AS 'definition' | AS 'obj_file', 'link_symbol' }
- Oracle风格的创建自定义函数的语法。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
CREATE [ OR REPLACE ] FUNCTION function_name ( [ { argname [ argmode ] argtype [ { DEFAULT | := | = } expression ] } [, ...] ] ) RETURN rettype [ DETERMINISTIC ] [ {IMMUTABLE | STABLE | VOLATILE } | {SHIPPABLE | NOT SHIPPABLE} | {PACKAGE} | {FENCED | NOT FENCED} | [ NOT ] LEAKPROOF | {CALLED ON NULL INPUT | RETURNS NULL ON NULL INPUT | STRICT } | {[ EXTERNAL ] SECURITY INVOKER | [ EXTERNAL ] SECURITY DEFINER | AUTHID DEFINER | AUTHID CURRENT_USER } | COST execution_cost | ROWS result_rows | SET configuration_parameter { {TO | =} value | FROM CURRENT ][...] { IS | AS } plsql_body /
参数说明
参数 |
描述 |
取值范围 |
---|---|---|
function_name |
要创建的函数名称(可以用模式修饰)。
注意:
如果创建的函数名与系统函数同名,建议指定schema。调用自定义函数时需指定schema,否则系统会优先调用系统函数。 |
字符串,需符合标识符的命名规范。参见标识符命名规范。 |
argname |
函数参数的名称。 |
字符串,需符合标识符的命名规范。 |
argmode |
函数参数的模式。 |
IN,OUT,INOUT或VARIADIC。
注意:
OUT和INOUT模式的参数不能用在RETURNS TABLE的函数定义中。 |
argtype |
函数参数的数据类型。 |
常用的数据类型参见数据类型。 |
expression |
函数参数的默认表达式。 |
- |
rettype |
函数返回值的数据类型。 |
如果存在OUT或IN OUT参数,可以省略RETURNS子句。如果该子句存在,则必须和输出参数所表示的结果类型一致:如果有多个输出参数,则为RECORD,否则与单个输出参数的类型相同。 SETOF修饰词表示该函数将返回一个集合,而不是单独一项。 |
DETERMINISTIC |
为适配Oracle SQL语法,未实现功能,不推荐使用。 |
- |
column_name |
字段名称。 |
- |
column_type |
字段类型。 |
- |
definition |
一个定义函数的字符串常量,含义取决于语言。它可以是一个内部函数名字、一个指向某个目标文件的路径、一个SQL查询、一个过程语言文本。 |
- |
LANGUAGE lang_name |
用于实现函数的语言的名字。可以是SQL,internal,或者是用户定义的过程语言名字。为了保证向下兼容,该名字可以用单引号(包围)。若采用单引号,则引号内必须为大写。 |
- |
WINDOW |
表示该函数是窗口函数,替换函数定义时不能改变WINDOW属性。
注意:
自定义窗口函数只支持LANGUAGE是internal,并且引用的内部函数必须是窗口函数。 |
- |
IMMUTABLE |
表示该函数在给出同样的参数值时总是返回同样的结果。 |
如果函数的入参是常量,会在优化器阶段计算该函数的值。益处是可以尽早获取表达式的值,从而能更准确的进行代价估算,生成的执行计划也更优。 用户自定义的IMMUTABLE的函数是会被自动下推到DN执行的,但是这样可能有潜在的风险,即如果用户错误定义了函数的IMMUTABLE属性,但是函数执行的过程并不是IMMUTABLE的,那么可能会导致结果错误等严重问题。因此,用户在指定函数的属性为IMMUTABLE的时候,要特别慎重。 举例如下:
同时,为了防止这种情况下可能出现严重问题,数据库内部可以通过设置behavior_compat_options=‘check_function_conflicts’来开启对函数定义冲突的检查,目前可以识别出上述1和2场景。 |
STABLE |
表示该函数不能修改数据库,对相同参数值,在同一次表扫描里,该函数的返回值不变,但是返回值可能在不同SQL语句之间变化。 |
- |
VOLATILE |
表示该函数值可以在一次表扫描内改变,因此不会做任何优化。 |
- |
SHIPPABLE NOT SHIPPABLE |
表示该函数是否可以下推到DN上执行。 |
|
PACKAGE |
表示该函数是否支持重载。PostgreSQL风格的函数本身就支持重载,此参数主要是针对Oracle风格的函数。 |
|
LEAKPROOF |
指出该函数的参数只包括返回值。LEAKPROOF只能由系统管理员设置。 |
- |
CALLED ON NULL INPUT |
表明该函数的某些参数是NULL的时候可以按照正常的方式调用。该参数可以省略。 |
- |
RETURNS NULL ON NULL INPUT STRICT |
STRICT用于指定如果函数的某个参数是NULL,此函数总是返回NULL。如果声明了这个参数,当有NULL值参数时该函数不会被执行;而只是自动返回一个NULL结果。 RETURNS NULL ON NULL INPUT和STRICT的功能相同。 |
- |
EXTERNAL |
目的是和SQL兼容,是可选的,这个特性适合于所有函数,而不仅是外部函数。 |
- |
SECURITY INVOKER AUTHID CURRENT_USER |
表明该函数将带着调用它的用户的权限执行。该参数可以省略。 SECURITY INVOKER和AUTHID CURRENT_USER的功能相同。 |
- |
SECURITY DEFINER AUTHID DEFINER |
声明该函数将以创建它的用户的权限执行。 AUTHID DEFINER和SECURITY DEFINER的功能相同。 |
- |
FENCED NOT FENCED |
该函数只对用户定义的C函数生效,声明函数是在保护模式还是非保护模式下执行。如果函数声明为NOT FENCED模式,则函数的执行在CN或者DN进程中进行。如果函数声明为FENCED模式,则函数在新fork的进程执行,这样函数的异常不会影响CN或者DN进程。 |
FENCED/NOT FENCED模式的选择:
|
COST execution_cost |
用来估计函数的执行成本。execution_cost以cpu_operator_cost为单位。 |
正数。 |
ROWS result_rows |
估计函数返回的行数。用于函数返回的是一个集合。 |
正数,默认值是1000行。 |
configuration_parameter |
该函数配置的参数值。 |
|
plsql_body |
PL/SQL存储过程体。 当在函数中创建用户时,日志中会记录密码的明文。因此不建议用户在函数中创建用户。 |
- |
示例:创建一个求两个整数求和的SQL函数
语法如下:
1 2 3 4 5 6 7 8 9 |
CREATE OR REPLACE FUNCTION func_add_sql( integer, --第一个整数参数,未命名,使用位置参数$1引用 integer --第二个整数参数,未命名,使用位置参数$2引用 ) RETURNS integer --指定函数返回类型为整数 AS 'select $1 + $2;' --函数体:使用位置参数$1和$2相加 LANGUAGE SQL --使用SQL语言实现该函数 IMMUTABLE --函数类型为IMMUTABLE,表示相同输入总是返回相同结果 RETURNS NULL ON NULL INPUT; --等同于STRICT,任何参数为NULL时,函数返回NULL |
执行函数,返回两个入参的求和值:
1
|
SELECT func_add_sql(8,3); |
执行函数,输入为Null,返回为Null。
1
|
SELECT func_add_sql(Null,3); |
示例:创建一个处理整数自增的PL/pgSQL语言函数
语法如下:
1 2 3 4 5 6 7 8 |
CREATE OR REPLACE FUNCTION func_increment_plsql( i integer --输入参数,整数类型 ) RETURNS integer --函数返回值为整数类型 AS $$ BEGIN --表示函数体开始 RETURN i + 1; --返回输入参数加1的结果 END; $$ LANGUAGE plpgsql; --指定函数使用PL/pgSQL语言编写 |
执行函数,返回整数自增结果。
1
|
SELECT func_increment_plsql(5); |
入参由一个表numbers的第一列指定,使用函数计算后,将计算结果返回到第二列:
1 2 3 4 |
DROP TABLE IF EXISTS numbers; CREATE TABLE numbers (value integer); INSERT INTO numbers VALUES (1), (2), (3), (4), (5); SELECT value, func_increment_plsql(value) AS incremented_value FROM numbers ORDER BY 1; |
示例:创建一个返回RECORD类型的PL/pgSQL语言函数:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
CREATE OR REPLACE FUNCTION compute( i int, --输入参数,整数类型 out result_1 bigint, --输出结果1,大范围整数类型 out result_2 bigint --输出结果2,大范围整数类型 ) RETURNS SETOF RECORD --结果返回一组记录 AS $$ BEGIN result_1 = i + 1; --计算第一个结果值,输入值+1 result_2 = i * 10; --计算第二个结果值,输入值乘以10 RETURN next; --返回当前计算结果并继续(允许返回多行) END; $$LANGUAGE plpgsql; --指定函数使用PL/pgSQL语言编写 |
单次调用函数,返回结果:
1
|
SELECT * FROM compute(5); |
生成一个包含1到3的序列,并对序列的每个值调用一次compute函数。
1 2 3 |
SELECT i, (compute(i)).* --先调用compute函数,再展开函数返回的所有列 FROM generate_series(1, 3) --生成一个包含1,2,3的临时序列,用于i的赋值 AS t(i); --将结果作为临时表,别名为t,列名为i |
与一个表test_data的数据结合使用,表中的value列作为函数compute的入参值,计算结果:
1 2 3 4 5 6 |
DROP TABLE IF EXISTS test_data; CREATE TABLE test_data (id serial, value int); INSERT INTO test_data (value) VALUES (2), (4), (6); SELECT id, value, (compute(value)).* FROM test_data ORDER BY 1; |
示例:创建一个返回结果包含多个输出参数的SQL语言函数
语法如下:
1 2 3 4 5 6 7 |
CREATE OR REPLACE FUNCTION func_dup_sql( in int, --输入参数,整数类型 out f1 int, --输出参数1,整数类型 out f2 text) --输出参数2,文本类型 AS $$ SELECT $1, CAST($1 AS text) || ' is text' --函数体,查询返回两列,第一列是输入参数$1,第二列是将参数转为文本后拼接'is text' $$ LANGUAGE SQL; |
执行函数。
1
|
SELECT * FROM func_dup_sql(42); |
示例:创建package属性的重载函数
定义了两个重载的函数,名为package_func_overload,它们位于名为package的包中。这两个函数根据参数类型的不同有不同的实现。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
CREATE OR REPLACE FUNCTION package_func_overload( col int, --输入参数1,整数类型 col2 int --输入参数2,整数类型 ) RETURN integer PACKAGE AS DECLARE col_type text; --声明局部变量 BEGIN col := 122; --将第一个参数的值固定为122 dbms_output.put_line('two int parameters ' || col2); RETURN 0; --返回整数值0 END; / CREATE OR REPLACE FUNCTION package_func_overload( col int, col2 smallint ) RETURN integer PACKAGE AS DECLARE col_type text; BEGIN col := 122; dbms_output.put_line('two smallint parameters ' || col2); RETURN 0; END; / |
函数下推逻辑及示例
函数下推逻辑分为两部分:
- 函数体是否下推:通过函数属性(SHIPPABLE)判断。
- 函数体内的语句是否下推:当函数体不下推的时候,函数体内的SQL语句进行独立的下推判断(优化器自动判断)。