文档首页/ MapReduce服务 MRS/ 快速入门/ 入门实践

更新时间：2024-08-03 GMT+08:00

查看PDF

入门实践

当完成MRS集群部署后，可以根据自身的业务需求使用MRS提供的一系列常用实践。

表1 MRS常用最佳实践
实践		描述
数据分析	使用Spark2x实现车联网车主驾驶行为分析	本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能，利用MRS服务的Spark2x组件，对车主的驾驶行为进行分析统计，得到用户驾驶行为的分析结果，分析统计指定时间段内，车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。
	使用Hive加载HDFS数据并分析图书评分情况	本实践指导使用Hive对原始数据进行导入、分析等操作，展示了如何构建弹性、低成本的离线大数据分析。以某图书网站后台用户的点评数据为原始数据，导入Hive表后通过SQL命令筛选出最受欢迎的畅销图书。
	使用Hive加载OBS数据并分析企业雇员信息	本实践指导使用Hive对OBS中存储的原始数据进行导入、分析等操作，展示了如何构建弹性、低成本的存算分离大数据分析。以用户开发一个Hive数据分析应用为例，通过客户端连接Hive后，执行HQL语句访问OBS中的Hive数据。进行企业雇员信息的管理、查询。
	通过Flink作业处理OBS数据	本实践指导使用MRS集群内置的Flink WordCount作业程序，来分析OBS文件系统中保存的源数据，以统计源数据中的单词出现次数。 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下，用户将数据存储在OBS服务中，使用MRS集群仅做数据计算处理的存算分离模式。
数据迁移	数据迁移方案介绍	本实践适用于多种不同场景下的HDFS、HBase、Hive数据向MRS集群的迁移工作。介绍数据迁移前的准备工作、元数据导出、数据拷贝、数据恢复等内容。
	Hadoop数据迁移到华为云MRS服务	本实践使用华为云CDM服务将Hadoop集群中的数据（支持数据量在几十TB级别或以下的数据量级）迁移到华为云MRS服务。
	HBase数据迁移到华为云MRS服务	本实践使用华为云CDM服务将HBase集群中的数据（支持数据量在几十TB级别或以下的数据量级）迁移到华为云MRS服务。HBase会把数据存储在HDFS上，主要包括HFile文件和WAL文件，由配置项“hbase.rootdir”指定在HDFS上的路径，华为云MRS的默认存储位置是“/hbase”文件夹下。 HBase自带的一些机制和工具命令也可以实现数据搬迁，例如：通过导出Snapshots快照、Export/Import、CopyTable方式等。
	Hive数据迁移到华为云MRS服务	本实践使用华为云CDM服务将Hive集群中的数据（支持数据量在几十TB级别或以下的数据量级）迁移到华为云MRS服务。 Hive数据迁移分两部分内容： Hive的元数据信息，存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService（华为的Gaussdb数据库），也可以选择RDS（MySQL）作为外置元数据库。 Hive的业务数据，存储在HDFS文件系统或OBS对象存储中。
	MySQL数据迁移到MRS集群Hive分区表	本实践使用CDM云服务将MySQL数据导入到MRS集群内的Hive分区表中。 Hive提供类SQL查询语言，帮助用户对大规模的数据进行提取、转换和加载，即通常所称的ETL（Extraction，Transformation，and Loading）操作。对庞大的数据集查询需要耗费大量的时间去处理，在许多场景下，可以通过建立Hive分区方法减少每一次扫描的总数据量，这种做法可以显著地改善性能。
	MRS HDFS数据迁移到OBS	本实践以MRS HDFS数据迁移到OBS为例，介绍如何通过CDM将文件类数据迁移到文件中。
系统对接	使用DBeaver访问Phoenix	本实践介绍如何使用DBeaver访问Phoenix。本地安装的DBeaver可通过Phoenix Jar包对接MRS集群HBase组件。对接成功后，可在DBeaver中创建HBase表并插入数据。
	使用DBeaver访问HetuEngine	本实践介绍如何使用DBeaver访问HetuEngine。本地安装的DBeaver可通过JDBC Jar包对接MRS集群HetuEngine组件。对接成功后，可在DBeaver中查看HetuEngine已对接的数据源信息。
	Hive对接外置自建关系型数据库	本实践介绍如何使用Hive对接开源MySQL和Postgres数据库。在已有Hive数据的集群上外置元数据库后，之前的元数据表不会自动同步。因此在安装Hive之初就要确认好元数据是外置数据库还是内置到DBService，如果是外置自建数据库，则需在安装Hive时或者暂无Hive数据时将元数据外置，安装后不允许修改，否则将会造成原有元数据丢失。
	Hive对接CSS服务	本实践介绍如何使用Hive对接CSS的Elasticsearch服务。利用Elasticsearch-Hadoop插件，完成Hive和CSS服务的Elasticsearch直接的数据交互，通过Hive外部表的方式，可以快速将Elasticsearch索引数据映射到Hive表中。

上一篇：快速创建和使用启用安全认证的MRS集群

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消