更新时间:2025-12-10 GMT+08:00
分享

接口总览

Fabric Data主要包含数据处理、数据管理、输入/输出、辅助工具、触发执行五个部分:

  • 数据处理:支持丰富的变换操作,如map()、flat_map()、filter()、join()、groupby()等,可对样本进行特征工程和结构化处理。
  • 数据管理:提供对数据集的增删改查能力,包括insert()、update()、delete()以及索引创建与删除,支持数据生命周期管理。
  • 输入/输出:具备向主流湖仓格式,如Parquet、Iceberg、Data Formation写入数据的能力,实现与数据湖无缝集成。
  • 辅助工具:提供schema()、columns()和explain_plan()等元信息查询与执行计划分析功能,便于调试与优化。
  • 触发执行:通过execute()、limit()、take()等方法触发实际计算并获取结果,支持懒加载与按需执行。
表1

操作类型

接口

描述

Dataset - 数据处理

(Data Processing)

map

对单行输入数据应用一对一函数映射

map_batchs

对批量输入数据应用一对一函数映射

flat_map

对单行输入数据应用一对多函数映射

filter

执行过滤条件,保留满足条件的行

join

多数据集关联

order_by

排序

aggregate

对整个数据集进行聚合

groupby

数据集分组

min

计算指定列的最小值

max

计算指定列的最大值

mean

计算指定列的均值

unique

获取指定列的唯一值列表

select_columns

选取指定列

add_column

添加新列

drop_columns

移除特定列

rename_columns

重命名列

Table - 数据管理

(Data Management)

insert

插入数据

delete

删除数据

update

更新数据

输入/输出

(Input/Output)

write_parquet

写入数据到parquet表

write_iceberg

写入数据到iceberg表

辅助工具

(Utility)

schema

数据集的schema

columns

数据集列名列表

count

返回数据集的行数

explain_plan

打印执行计划

explain_performance

执行并打印详细计划

stats

查看执行的统计信息(查询需事先执行)

触发执行

(Action)

show

触发执行,并展示结果

execute

触发执行,返回结果

limit

输出最多limit行记录

take

触发执行,返回单行迭代器

take_batch

触发执行,返回批量迭代器

相关文档