产品优势

提供免运维、高可用、安全可靠的托管服务

AI DataLake采用全托管模式，免除基础设施运维负担，在数据开发时无需关注底层基础设施管理，聚焦业务价值。

内置高可用架构，数据多副本冗余存储，自动故障检测与恢复，保障业务连续性。
提供完善的监控体系，监控资源使用情况。

提供灵活可扩展的计算资源，通算、智算、异构资源统一调度

支持CPU、GPU、NPU资源、执行作业时统一分配，匹配最优资源，满足大数据处理差异化需求。
通过统一调度框架，显著提升异构资源利用率，同时通过细粒度隔离与容错机制保障业务安全性与稳定性。

图1 AI DataLake计算资源类型与混合资源调配
点击放大

统一元数据和数据管理，多引擎协同，计算更高效

LakeFormation作为统一治理核心，提供元数据管理、权限控制等能力。

基于Catalog实现全局数据视图，所有计算引擎平权访问同一份湖数据，无需冗余复制。
细粒度权限管理，满足数据合规要求。
支持结构化表、半结构化日志、非结构化文件（图像/音视频/文档）、向量数据、流式数据的统一存储与管理。
统一数据访问接口，简化多模数据开发复杂度，加速业务创新。
底层对接OBS对象存储，每个LakeFormation实例可创建多个数据目录（Catalog），形成逻辑隔离的数据管理单元。
企业可根据组织架构划分数据域，例如为研发、市场、财务等不同部门分配独立的Catalog，实现数据资产的部门级自治。

图2 AI DataLake统一元数据和数据管理
点击放大

多模数据统一管理，开放数据格式，全面兼容开源标准

通过多模数据管理实现企业级数据资产的统一元数据管理和权限控制。
支持结构化、半结构化、非结构化等多种数据格式，以及自定义函数、模型等数据资产的统一存储与管理。

多种计费模式，更加灵活易用

了解更多AI DataLake计费信息请参考AI DataLake计费说明。

AI DataLake计算资源与计费模式如下：

表1 AI DataLake计算资源与计费模式
资源类型	计费模式	说明	资源特点	适用场景
预留资源池	包年/包月	预付费模式，即先付费购买实例资源再使用，按照订单的购买周期进行结算。且资源在购买周期内归用户独享使用，购买的资源长期稳定。	购买周期越长，单位资源的成本越优。资源独享，长期稳定。	适用于计算需求量长期稳定的成熟业务。
预留资源池	按需计费	用户需提前购买预留实例，实例创建后按照实际运行时长计费（秒级计费，按小时结算）。资源归用户独享，可随时启用或释放。	资源独享，灵活启停，秒级计费，但是需要用户自行管理实例生命周期。	有一定稳定需求，可提前规划资源的场景。例如需要独享资源池的开发环境。
弹性资源	按需计费	无需用户提前购买资源，使用服务预置的弹性资源。按照实际运行时长计费（秒级计费，按小时结算），资源随作业动态创建和释放。	无需提前购买，属于云服务预置的公共资源池；按需使用，秒级计费。作业结束后资源随即释放，无需主动管理资源的生命周期。	一般适用于需求波动大，无法预测的场景。例如业务探索期，需求不明确，一次性的短期业务。
预留资源池和弹性资源同时使用	混合调度计费模式	结合预留资源池和弹性资源的计费方式。预留资源保障核心业务的稳定运行，弹性资源应对突发负载，实现成本与性能的平衡。	兼顾稳定与弹性；成本与性能平衡；核心业务有保障，突发负载可应对。	适用于日常有稳定负载，偶有突发高峰的业务场景。

多种计算引擎按需选择，满足多种数据处理需求

AI DataLake支持多模数据引擎Aura、AI计算引擎Ray、批处理引擎Spark和流处理引擎Flink四大核心计算引擎，Aura支持多模态数据的分析场景，Ray专注于AI计算处理，Spark用于大规模批量数据处理，Flink提供高吞吐实时流处理能力，四大引擎赋能数据加工与模型训练推理生态。用户可根据实际业务负载灵活选择合适的计算引擎，无需切换平台即可满足所有数据分析需求，有效降低技术运维复杂度。

图3 多种计算引擎按需选择
点击放大