接口总览
Fabric Data主要包含数据处理、数据管理、输入/输出、辅助工具、触发执行五个部分:
- 数据处理:支持丰富的变换操作,如map()、flat_map()、filter()、join()、groupby()等,可对样本进行特征工程和结构化处理。
- 数据管理:提供对数据集的增删改查能力,包括insert()、update()、delete()以及索引创建与删除,支持数据生命周期管理。
- 输入/输出:具备向主流湖仓格式,如Parquet、Iceberg、Data Formation写入数据的能力,实现与数据湖无缝集成。
- 辅助工具:提供schema()、columns()和explain_plan()等元信息查询与执行计划分析功能,便于调试与优化。
- 触发执行:通过execute()、limit()、take()等方法触发实际计算并获取结果,支持懒加载与按需执行。
| 操作类型 | 接口 | 描述 |
|---|---|---|
| Dataset - 数据处理 (Data Processing) | 对单行输入数据应用一对一函数映射 | |
| 对批量输入数据应用一对一函数映射 | ||
| 对单行输入数据应用一对多函数映射 | ||
| 执行过滤条件,保留满足条件的行 | ||
| 多数据集关联 | ||
| 排序 | ||
| 对整个数据集进行聚合 | ||
| 数据集分组 | ||
| 计算指定列的最小值 | ||
| 计算指定列的最大值 | ||
| 计算指定列的均值 | ||
| 获取指定列的唯一值列表 | ||
| 选取指定列 | ||
| 添加新列 | ||
| 移除特定列 | ||
| 重命名列 | ||
| Table - 数据管理 (Data Management) | 插入数据 | |
| 删除数据 | ||
| 更新数据 | ||
| 输入/输出 (Input/Output) | 写入数据到parquet表 | |
| 写入数据到iceberg表 | ||
| 辅助工具 (Utility) | 数据集的schema | |
| 数据集列名列表 | ||
| 返回数据集的行数 | ||
| 打印执行计划 | ||
| 执行并打印详细计划 | ||
| 查看执行的统计信息(查询需事先执行) | ||
| 触发执行 (Action) | 触发执行,并展示结果 | |
| 触发执行,返回结果 | ||
| 输出最多limit行记录 | ||
| 触发执行,返回单行迭代器 | ||
| 触发执行,返回批量迭代器 |