- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 权限配置指南
-
工具指南
- OBS工具汇总
-
OBS Browser+
- OBS Browser+简介
- OBS Browser+功能概述
- 下载OBS Browser+
- 安装OBS Browser+
- 登录OBS Browser+
- 桶的基本操作
- 桶的高级配置
- 对象操作
- 任务管理
- 最佳实践
-
常见问题
- 在哪里可以获取AK和SK?
- 如何获取子用户IAM的用户ID?
- 是否可以同时装两个不同站点的OBS Browser+工具?
- OBS Browser+与OBS Browser的不同之处?
- OBS Browser+支持迁移OBS Browser保存的账号信息和任务信息吗?
- 为什么我运行了百万级别的任务后,感觉任务执行较慢?
- 为什么OBS Browser+上显示的桶中对象数量和桶内存储用量与实际的不一致?
- 为什么通过OBS Browser+设置桶ACL后,旧配置中的deliver属性会被覆盖为false?
- 使用账号登录时,界面提示“没有权限登录”
- 使用账号登录时,界面提示“获取用户的Token失败”
- 使用账号登录时,界面提示“账号或者密码错误”
- 定时上传是否采用增量
- 如何永久分享文件或文件夹
- 如何访问指定桶或指定目录
- 目录分享是否支持分享后取消分享
- 是否支持统计文件夹内的文件数目及大小
- 如何解决DNS解析失败
- 是否支持列举特殊字符对象
- 恢复对象任务状态一直是恢复中
- 卸载OBS Browser+
- obsutil
- obsfs(已下线)
- 最佳实践
-
API参考
- 使用前必读
- API概览
- 如何调用API
- 快速入门
-
API
- 桶的基础操作
-
桶的高级配置
- 设置桶策略
- 获取桶策略
- 删除桶策略
- 设置桶ACL
- 获取桶ACL
- 设置桶日志管理配置
- 获取桶日志管理配置
- 设置桶的生命周期配置
- 获取桶的生命周期配置
- 删除桶的生命周期配置
- 设置桶的多版本状态
- 获取桶的多版本状态
- 设置桶默认存储类型
- 获取桶默认存储类型
- 设置桶的跨区域复制配置
- 获取桶的跨区域复制配置
- 删除桶的跨区域复制配置
- 设置桶标签
- 获取桶标签
- 删除桶标签
- 设置桶配额
- 获取桶配额
- 获取桶存量信息
- 设置桶清单
- 获取桶清单
- 列举桶清单
- 删除桶清单
- 设置桶的自定义域名
- 获取桶的自定义域名
- 删除桶的自定义域名
- 设置桶的加密配置
- 获取桶的加密配置
- 删除桶的加密配置
- 设置桶归档存储对象直读策略
- 获取桶归档存储对象直读策略
- 删除桶归档存储对象直读策略
- 设置镜像回源规则
- 获取镜像回源规则
- 删除镜像回源规则
- 设置DIS通知策略
- 获取DIS通知策略
- 删除DIS通知策略
- 设置在线解压策略
- 获取在线解压策略
- 删除在线解压策略
- 配置桶级默认WORM策略
- 获取桶级默认WORM策略
- 静态网站托管
- 对象操作
- 多段操作
- 服务端加密
- Data+
- 错误码
- 权限和授权项
- 附录
-
SDK参考
- SDK概述
- SDK功能矩阵
-
Java
- 使用前须知(Java SDK)
- Java SDK接口概览(Java SDK)
- 使用前准备(Java SDK)
- 下载与安装SDK(Java SDK)
- 快速入门(Java SDK)
- 初始化(Java SDK)
- 管理桶(Java SDK)
- 管理并行文件系统(Java SDK)
- 上传对象(Java SDK)
- 下载对象(Java SDK)
- 管理对象(Java SDK)
- 临时授权访问(Java SDK)
- 多版本控制(Java SDK)
- 生命周期管理(Java SDK)
- 跨域资源共享(Java SDK)
- 设置访问日志(Java SDK)
- 静态网站托管(Java SDK)
- 桶标签管理(Java SDK)
- 服务端加密(Java SDK)
- 客户端加密(Java SDK)
- 问题定位(Java SDK)
- 异常处理(Java SDK)
-
常见问题(Java SDK)
- 本文档是否适用于union SDK?
- 如何使对象可以被匿名用户访问?(Java SDK)
- SDK的重试机制是什么?(Java SDK)
- 如何获取桶的静态网站访问地址?(Java SDK)
- 如何获取对象URL?(Java SDK)
- 公网环境下如何提高上传大文件速度?(Java SDK)
- 如何进行分段上传?(Java SDK)
- 如何进行分段下载?(Java SDK)
- 如果桶内已存在同名对象,如何判定覆盖上传成功?(Java SDK)
- 对于加密类型的对象如何使用URL进行下载?(Java SDK)
- 如何生成SSE-C方式的加密密钥(Java SDK)
- 如何获取SecurityToken?(Java SDK)
- SDK是否支持批量上传、下载或复制对象?(Java SDK)
- 如何指定Content-SHA256?(Java SDK)
- 为什么SDK源码中包含acs.amazonaws.com关键字?(Java SDK)
- 如何理解Content-Type(MIME)?(Java SDK)
- 如何获取账号ID和用户ID?
- 如何实现上传对象时限速(Java SDK)
- 如何实现下载对象时限速(Java SDK)
- 如何设置referer头域(Java SDK)
-
Python
- 使用前须知(Python SDK)
- Python SDK接口概览
- 使用前准备(Python SDK)
- 下载与安装SDK(Python SDK)
- 快速入门(Python SDK)
- 初始化(Python SDK)
-
桶相关接口(Python SDK)
- 创建桶(Python SDK)
- 获取桶列表(Python SDK)
- 判断桶是否存在(Python SDK)
- 删除桶(Python SDK)
- 列举桶内对象(Python SDK)
- 列举桶内多版本对象(Python SDK)
- 获取桶元数据(Python SDK)
- 获取桶区域位置(Python SDK)
- 获取桶存量信息(Python SDK)
- 设置桶配额(Python SDK)
- 获取桶配额(Python SDK)
- 设置桶存储类型(Python SDK)
- 获取桶存储类型(Python SDK)
- 设置桶ACL(Python SDK)
- 获取桶ACL(Python SDK)
- 设置桶日志管理配置(Python SDK)
- 获取桶日志管理配置(Python SDK)
- 设置桶策略(Python SDK)
- 获取桶策略(Python SDK)
- 删除桶策略(Python SDK)
- 设置桶的生命周期配置(Python SDK)
- 获取桶的生命周期配置(Python SDK)
- 删除桶的生命周期配置(Python SDK)
- 设置桶的Website配置(Python SDK)
- 获取桶的Website配置(Python SDK)
- 删除桶的Website配置(Python SDK)
- 设置桶的多版本状态(Python SDK)
- 获取桶的多版本状态(Python SDK)
- 设置桶的CORS配置(Python SDK)
- 获取桶的CORS配置(Python SDK)
- 删除桶的CORS配置(Python SDK)
- 设置桶标签(Python SDK)
- 获取桶标签(Python SDK)
- 删除桶标签(Python SDK)
-
对象相关接口(Python SDK)
- 上传对象简介(Python SDK)
- 上传对象-文本上传(Python SDK)
- 上传对象-流式上传(Python SDK)
- 上传对象-文件上传(Python SDK)
- 上传对象-追加上传(Python SDK)
- 上传对象-断点续传上传(Python SDK)
- 上传对象-获取上传进度(Python SDK)
- 上传对象-基于表单上传(Python SDK)
- 下载对象简介(Python SDK)
- 下载对象-二进制下载(Python SDK)
- 下载对象-流式下载(Python SDK)
- 下载对象-文件下载(Python SDK)
- 下载对象-范围下载(Python SDK)
- 下载对象-断点续传下载(Python SDK)
- 下载对象-获取下载进度(Python SDK)
- 上传对象-创建文件夹(Python SDK)
- 复制对象(Python SDK)
- 删除对象(Python SDK)
- 批量删除对象(Python SDK)
- 获取对象元数据(Python SDK)
- 修改对象元数据(Python SDK)
- 设置对象ACL(Python SDK)
- 获取对象ACL(Python SDK)
- 恢复归档或深度归档存储对象(Python SDK)
- 多段相关接口(Python SDK)
- 客户端加密相关接口(Python SDK)
- 服务编排接口(Python SDK)
- 其他接口(Python SDK)
- 异常处理(Python SDK)
- 常见问题(Python SDK)
- C
-
Go
- 使用前须知(Go SDK)
- Go SDK接口概览
- 使用前准备(Go SDK)
- 下载与安装SDK(Go SDK)
- 快速入门(Go SDK)
- 初始化(Go SDK)
-
桶相关接口(Go SDK)
- 桶相关接口说明(Go SDK)
- 创建桶(Go SDK)
- 获取桶列表(Go SDK)
- 判断桶是否存在(Go SDK)
- 删除桶(Go SDK)
- 列举桶内对象(Go SDK)
- 列举桶内多版本对象(Go SDK)
- 获取桶元数据(Go SDK)
- 获取桶区域位置(Go SDK)
- 获取桶存量信息(Go SDK)
- 设置桶配额(Go SDK)
- 获取桶配额(Go SDK)
- 设置桶存储类型(Go SDK)
- 获取桶存储类型(Go SDK)
- 设置桶ACL(Go SDK)
- 获取桶ACL(Go SDK)
- 设置桶日志管理配置(Go SDK)
- 获取桶日志管理配置(Go SDK)
- 设置桶策略(Go SDK)
- 获取桶策略(Go SDK)
- 删除桶策略(Go SDK)
- 设置桶的生命周期配置(Go SDK)
- 获取桶的生命周期配置(Go SDK)
- 删除桶的生命周期配置(Go SDK)
- 设置桶的网站配置(Go SDK)
- 获取桶的网站配置(Go SDK)
- 删除桶的网站配置(Go SDK)
- 设置桶的多版本状态(Go SDK)
- 获取桶的多版本状态(Go SDK)
- 设置桶的CORS配置(Go SDK)
- 获取桶的CORS配置(Go SDK)
- 删除桶的CORS配置(Go SDK)
- 设置桶标签(Go SDK)
- 获取桶标签(Go SDK)
- 删除桶标签(Go SDK)
- 设置桶加密配置(Go SDK)
- 获取桶加密配置(Go SDK)
- 删除桶加密配置(Go SDK)
- 设置桶的自定义域名(Go SDK)
- 获取桶的自定义域名(Go SDK)
- 删除桶的自定义域名(Go SDK)
- 并行文件系统相关接口(Go SDK)
- 对象相关接口(Go SDK)
- 多段相关接口(Go SDK)
- 其他接口(Go SDK)
- 单链接限速(Go SDK)
- 异常处理(Go SDK)
- 常见问题(Go SDK)
- BrowserJS
- .NET
- Android
- iOS
- PHP
-
Node.js
- SDK下载(Node.js SDK)
- 示例程序(Node.js SDK)
- 技术支持渠道(Node.js SDK)
- 快速入门(Node.js SDK)
- 初始化(Node.js SDK)
-
管理桶(Node.js SDK)
- 创建桶(Node.js SDK)
- 列举桶列表(Node.js SDK)
- 判断桶是否存在(Node.js SDK)
- 删除桶(Node.js SDK)
- 获取桶元数据(Node.js SDK)
- 设置桶ACL(Node.js SDK)
- 获取桶ACL(Node.js SDK)
- 设置桶策略(Node.js SDK)
- 获取桶策略(Node.js SDK)
- 删除桶策略(Node.js SDK)
- 获取桶区域位置(Node.js SDK)
- 获取桶存量信息(Node.js SDK)
- 设置桶配额(Node.js SDK)
- 获取桶配额(Node.js SDK)
- 设置桶存储类别(Node.js SDK)
- 获取桶存储类别(Node.js SDK)
- 上传对象(Node.js SDK)
- 下载对象(Node.js SDK)
- 管理对象(Node.js SDK)
- 多段相关接口(Node.js SDK)
- 临时授权访问(Node.js SDK)
- 多版本控制(Node.js SDK)
- 生命周期管理(Node.js SDK)
- 桶的CORS配置(Node.js SDK)
- 设置访问日志(Node.js SDK)
- 静态网站托管(Node.js SDK)
- 标签管理(Node.js SDK)
- 服务端加密(Node.js SDK)
- 异常处理(Node.js SDK)
- 常见问题(Node.js SDK)
-
Harmony(公测)
- 使用前须知(Harmony SDK)
- Harmony SDK接口概览(Harmony SDK)
- 使用前准备(Harmony SDK)
- 下载与安装SDK(Harmony SDK)
- 快速入门(Harmony SDK)
- 初始化(Harmony SDK)
-
桶相关接口(Harmony SDK)
- 创建桶(Harmony SDK)
- 获取桶列表(Harmony SDK)
- 判断桶是否存在(Harmony SDK)
- 删除桶(Harmony SDK)
- 列举桶内对象(Harmony SDK)
- 列举桶内多版本对象(Harmony SDK)
- 获取桶元数据(Harmony SDK)
- 获取桶区域位置(Harmony SDK)
- 获取桶存量信息(Harmony SDK)
- 设置桶配额(Harmony SDK)
- 获取桶配额(Harmony SDK)
- 设置桶存储类型(Harmony SDK)
- 获取桶存储类型(Harmony SDK)
- 设置桶ACL(Harmony SDK)
- 获取桶ACL(Harmony SDK)
- 设置桶日志管理配置(Harmony SDK)
- 获取桶日志管理配置(Harmony SDK)
- 设置桶策略(Harmony SDK)
- 获取桶策略(Harmony SDK)
- 删除桶策略(Harmony SDK)
- 设置桶的生命周期配置(Harmony SDK)
- 获取桶的生命周期配置(Harmony SDK)
- 删除桶的生命周期配置(Harmony SDK)
- 设置桶的Website配置(Harmony SDK)
- 获取桶的Website配置(Harmony SDK)
- 删除桶的Website配置(Harmony SDK)
- 设置桶的多版本状态(Harmony SDK)
- 获取桶的多版本状态(Harmony SDK)
- 设置桶的CORS配置(Harmony SDK)
- 获取桶的CORS配置(Harmony SDK)
- 删除桶的CORS配置(Harmony SDK)
- 设置桶标签(Harmony SDK)
- 获取桶标签(Harmony SDK)
- 删除桶标签(Harmony SDK)
- 设置桶的加密配置(Harmony SDK)
- 获取桶的加密配置(Harmony SDK)
- 删除桶的加密配置(Harmony SDK)
- 设置桶的自定义域名(Harmony SDK)
- 获取桶的自定义域名(Harmony SDK)
- 删除桶的自定义域名(Harmony SDK)
- 并行文件系统相关接口(Harmony SDK)
- 对象相关接口(Harmony SDK)
- 多段相关接口(Harmony SDK)
- 其他接口(Harmony SDK)
- 异常处理(Harmony SDK)
- 常见问题(Harmony SDK)
- 场景代码示例
-
常见问题
-
产品咨询
- 如何获取OBS的终端节点?
- 我可以在OBS中存储多少数据?
- 我如何选择将数据存储在哪个区域?
- OBS支持使用HTTPS协议访问吗?
- OBS中的数据可以让其他用户访问吗?
- 访问OBS链接提示告警信息的原因和解决办法
- 已删除的数据是否可以恢复?
- 访问OBS域名失败,连接不上CA证书
- 为什么OBS存储的数据丢失了?
- OBS是否支持流量监控?
- OBS上传下载速率的影响因素有哪些?
- 对象存储与SAN存储和NAS存储相比较有什么优势?
- OBS的文件夹与文件系统的文件夹是否一样?
- OBS、EVS和SFS有什么区别?
- 如何判断是否内网访问OBS?
- 我的OBS桶性能是否会受其他用户业务的影响?
- OBS总览页数据不一致的原因是什么?
- 境外数据传输回国场景下的丢包和网络稳定性问题
-
计费相关
- 桶内无对象,为什么还会产生存储费用?
- 桶内无对象为什么会产生流量?
- 已购买资源包,为什么仍然扣费?
- 配置CDN回源,并购买回源流量包,计费未走回源流量包
- 账号欠费后已充值,为什么OBS资源仍然不可用?
- 资源包是否必须购买?是否能指定给具体的桶使用?
- 资源包是否支持退订或修改?
- 资源包到期后OBS资源会如何处理?
- 并行文件系统是否支持资源包?
- 请求次数是如何计算的?
- 是否支持购买请求次数?
- OBS存储资源包使用超量后是否会限制对桶的写入
- 当月未用完的资源包用量是否会结转到下个月?
- 哪些资源包会按月更新额度,哪些不会?
- 购买了回源流量包是否还需要购买公网流出流量包?
- 如何购买专属对象存储?
- OBS账单为什么会出现0.01元的计费?
- 查询账单时,为什么会有大量的公网流出流量?
- 权限相关
-
桶和对象相关
- 创建桶失败
- 上传对象失败
- 下载对象失败
- 删除桶失败
- 删除对象失败
- 通过URL访问对象失败
- 如何在浏览器中在线预览OBS中的对象?
- 我可以修改对象名称吗?
- 我可以在线编辑OBS中的对象吗?
- 如何获取对象访问路径?
- 我可以修改桶所在的区域吗?
- 如何修改桶所属的企业项目?
- 我可以在桶间进行文件复制吗?
- 我可以在桶间进行文件移动吗?
- 我可以上传同名对象到同一个文件夹中吗?
- OBS是否支持断点续传功能?
- OBS是否支持批量上传文件?
- OBS是否支持批量下载文件?
- OBS是否支持批量删除对象或清空桶?
- 无法搜索到桶中对象或对象不存在返回403
- 使用IE浏览器访问带有中文字符的对象URL地址报错如何处理?
- 为什么配置了跨域访问OBS(CORS)仍然报错?
- 如何查看桶内的文件夹大小?
- 如何上传超过5GB的大对象?
- 数据安全、迁移和备份
- 多版本控制
- 服务端加密
- 跨区域复制
- 域名管理
- 静态网站托管
- 图片处理
- 并行文件系统
- 监控
- OBS控制台使用相关
- OBS Browser+和obsutil等工具相关
- API和SDK等开发者相关
- Data+
-
产品咨询
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
大数据场景下使用OBS实现存算分离方案概述
应用场景
随着大数据技术的飞速发展,对数据价值的认识逐渐加深,大数据已经融入到了各行各业。根据相关调查报告数据显示,超过39.6%的企业正在应用大数据并从中获益;超过89.6%的企业已经成立或计划成立相关的大数据分析部门;超过六成的企业在扩大大数据的投入力度。对各行业来讲,大数据的使用能力成为未来取得竞争优势的关键能力之一。
在大数据场景下,数据已成为新资产,智能已成为新生产力。企业迫切需要完成数字化转型,提高生产力,使数据资产发挥最大价值。而传统企业在业务未上云之前,业务部署和数据存储往往都在本地IDC机房的多个集群,且一台服务器同时提供计算和存储能力,这种方式导致的如表1所示的几个关键问题,已成为企业数字化转型的阻碍。
方案架构
针对传统企业在大数据场景面临的问题,华为云提供了基于对象存储服务OBS作为统一数据湖存储的大数据存算分离方案。

华为云大数据存算分离方案基于对象存储服务OBS的大容量高带宽能力,以及多协议共享访问技术(HDFS/POSIX/OBS API),实现Hadoop生态多计算引擎(Hive、Spark等)兼容对接。
方案优势
相比传统企业在本地IDC机房部署大数据业务,华为云数据存算分离方案的主要优势如表2。
序号 |
主要优势 |
详细描述 |
---|---|---|
1 |
融合高效,协同分析 |
|
2 |
存算分离,资源利用率高 |
计算存储解耦,支持独立扩容或缩容,计算资源可弹性伸缩,资源利用率提升。 |
3 |
数据EC冗余存储,利用率高,成本低 |
对象存储服务OBS支持利用率最高的分布式数据容错技术Erasure code,磁盘利用率大幅提升,数据存储空间需求远低于三副本。 |
此外,对象存储服务OBS提供了OBSFileSystem插件(OBSA-HDFS),可与上层大数据平台无缝对接,实现业务零改造。
OBSFileSystem的主要作用:提供HDFS文件系统的相关接口实现,让大数据计算引擎(Hive、Spark等)可以将OBS作为HDFS协议的底层存储。

OBS服务支持对象存储桶(对象语义)和并行文件系统(POSIX文件语义),在大数据场景下建议选择并行文件系统。并行文件系统支持POSIX文件语义,通过OBSFileSystem封装,相较对象语义增加Rename、Append、hflush/hsync接口,实现完善的HDFS语义,为大数据计算提供了更好的性能。
基于上述优势,华为云存算分离大数据方案相比传统大数据方案,在同样的业务规模下所使用的计算资源、存储资源以及服务器数量都会有明显下降,同时资源利用率也能得到显著提升,可帮助企业降低业务综合成本。
文档使用范围
本最佳实践主要提供华为云大数据存算分离方案中不同大数据平台和大数据组件与对象存储服务OBS的对接指导,以及HDFS数据迁移至对象存储服务OBS的方案。