接口总览
Fabric Data主要包含数据处理、数据管理、输入/输出、辅助工具、触发执行五个部分:
- 数据处理:支持丰富的变换操作,如map()、flat_map()、filter()、join()、groupby()等,可对样本进行特征工程和结构化处理。
- 数据管理:提供对数据集的增删改查能力,包括insert()、update()、delete()以及索引创建与删除,支持数据生命周期管理。
- 输入/输出:具备向主流湖仓格式,如Parquet、Iceberg、Data Formation写入数据的能力,实现与数据湖无缝集成。
- 辅助工具:提供schema()、columns()和explain_plan()等元信息查询与执行计划分析功能,便于调试与优化。
- 触发执行:通过execute()、limit()、take()等方法触发实际计算并获取结果,支持懒加载与按需执行。
|
操作类型 |
接口 |
描述 |
|---|---|---|
|
Dataset - 数据处理 (Data Processing) |
对单行输入数据应用一对一函数映射 |
|
|
对批量输入数据应用一对一函数映射 |
||
|
对单行输入数据应用一对多函数映射 |
||
|
执行过滤条件,保留满足条件的行 |
||
|
多数据集关联 |
||
|
排序 |
||
|
对整个数据集进行聚合 |
||
|
数据集分组 |
||
|
计算指定列的最小值 |
||
|
计算指定列的最大值 |
||
|
计算指定列的均值 |
||
|
获取指定列的唯一值列表 |
||
|
选取指定列 |
||
|
添加新列 |
||
|
移除特定列 |
||
|
重命名列 |
||
|
Table - 数据管理 (Data Management) |
插入数据 |
|
|
删除数据 |
||
|
更新数据 |
||
|
输入/输出 (Input/Output) |
写入数据到parquet表 |
|
|
写入数据到iceberg表 |
||
|
辅助工具 (Utility) |
数据集的schema |
|
|
数据集列名列表 |
||
|
返回数据集的行数 |
||
|
打印执行计划 |
||
|
执行并打印详细计划 |
||
|
查看执行的统计信息(查询需事先执行) |
||
|
触发执行 (Action) |
触发执行,并展示结果 |
|
|
触发执行,返回结果 |
||
|
输出最多limit行记录 |
||
|
触发执行,返回单行迭代器 |
||
|
触发执行,返回批量迭代器 |