接口总览
Fabric Data主要包含数据处理、数据管理、输入/输出、辅助工具、触发执行五个部分:
- 数据处理:支持丰富的变换操作,如map()、flat_map()、filter()、join()、groupby()等,可对样本进行特征工程和结构化处理。
- 数据管理:提供对数据集的增删改查能力,包括insert()、update()、delete()以及索引创建与删除,支持数据生命周期管理。
- 输入/输出:具备向主流湖仓格式,如Parquet、Iceberg、Data Formation写入数据的能力,实现与数据湖无缝集成。
- 辅助工具:提供schema()、columns()和explain_plan()等元信息查询与执行计划分析功能,便于调试与优化。
- 触发执行:通过execute()、limit()、take()等方法触发实际计算并获取结果,支持懒加载与按需执行。
操作类型 | 接口 | 描述 |
|---|---|---|
Dataset - 数据处理 (Data Processing) | 对单行输入数据应用一对一函数映射 | |
对批量输入数据应用一对一函数映射 | ||
对单行输入数据应用一对多函数映射 | ||
执行过滤条件,保留满足条件的行 | ||
多数据集关联 | ||
排序 | ||
对整个数据集进行聚合 | ||
数据集分组 | ||
计算指定列的最小值 | ||
计算指定列的最大值 | ||
计算指定列的均值 | ||
获取指定列的唯一值列表 | ||
选取指定列 | ||
添加新列 | ||
移除特定列 | ||
重命名列 | ||
Table - 数据管理 (Data Management) | 插入数据 | |
删除数据 | ||
更新数据 | ||
输入/输出 (Input/Output) | 写入数据到parquet表 | |
写入数据到iceberg表 | ||
辅助工具 (Utility) | 数据集的schema | |
数据集列名列表 | ||
返回数据集的行数 | ||
打印执行计划 | ||
执行并打印详细计划 | ||
查看执行的统计信息(查询需事先执行) | ||
触发执行 (Action) | 触发执行,并展示结果 | |
触发执行,返回结果 | ||
输出最多limit行记录 | ||
触发执行,返回单行迭代器 | ||
触发执行,返回批量迭代器 |

