更新时间:2024-08-03 GMT+08:00

入门实践

当完成MRS集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。

表1 MRS常用最佳实践

实践

描述

数据分析

使用Spark2x实现车联网车主驾驶行为分析

本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。

使用Hive加载HDFS数据并分析图书评分情况

本实践指导使用Hive对原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的离线大数据分析。以某图书网站后台用户的点评数据为原始数据,导入Hive表后通过SQL命令筛选出最受欢迎的畅销图书。

使用Hive加载OBS数据并分析企业雇员信息

本实践指导使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的存算分离大数据分析。以用户开发一个Hive数据分析应用为例,通过客户端连接Hive后,执行HQL语句访问OBS中的Hive数据。进行企业雇员信息的管理、查询。

通过Flink作业处理OBS数据

本实践指导使用MRS集群内置的Flink WordCount作业程序,来分析OBS文件系统中保存的源数据,以统计源数据中的单词出现次数。

MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。

数据迁移

数据迁移方案介绍

本实践适用于多种不同场景下的HDFS、HBase、Hive数据向MRS集群的迁移工作。

介绍数据迁移前的准备工作、元数据导出、数据拷贝、数据恢复等内容。

Hadoop数据迁移到华为云MRS服务

本实践使用华为云CDM服务将Hadoop集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。

HBase数据迁移到华为云MRS服务

本实践使用华为云CDM服务将HBase集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。HBase会把数据存储在HDFS上,主要包括HFile文件和WAL文件,由配置项“hbase.rootdir”指定在HDFS上的路径,华为云MRS的默认存储位置是“/hbase”文件夹下。

HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快照、Export/Import、CopyTable方式等。

Hive数据迁移到华为云MRS服务

本实践使用华为云CDM服务将Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。

Hive数据迁移分两部分内容:

  • Hive的元数据信息,存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussdb数据库),也可以选择RDS(MySQL)作为外置元数据库。
  • Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。

MySQL数据迁移到MRS集群Hive分区表

本实践使用CDM云服务将MySQL数据导入到MRS集群内的Hive分区表中。

Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。

MRS HDFS数据迁移到OBS

本实践以MRS HDFS数据迁移到OBS为例,介绍如何通过CDM将文件类数据迁移到文件中。

系统对接

使用DBeaver访问Phoenix

本实践介绍如何使用DBeaver访问Phoenix。

本地安装的DBeaver可通过Phoenix Jar包对接MRS集群HBase组件。对接成功后,可在DBeaver中创建HBase表并插入数据。

使用DBeaver访问HetuEngine

本实践介绍如何使用DBeaver访问HetuEngine。

本地安装的DBeaver可通过JDBC Jar包对接MRS集群HetuEngine组件。对接成功后,可在DBeaver中查看HetuEngine已对接的数据源信息。

Hive对接外置自建关系型数据库

本实践介绍如何使用Hive对接开源MySQL和Postgres数据库。

在已有Hive数据的集群上外置元数据库后,之前的元数据表不会自动同步。因此在安装Hive之初就要确认好元数据是外置数据库还是内置到DBService,如果是外置自建数据库,则需在安装Hive时或者暂无Hive数据时将元数据外置,安装后不允许修改,否则将会造成原有元数据丢失。

Hive对接CSS服务

本实践介绍如何使用Hive对接CSS的Elasticsearch服务。

利用Elasticsearch-Hadoop插件,完成Hive和CSS服务的Elasticsearch直接的数据交互,通过Hive外部表的方式,可以快速将Elasticsearch索引数据映射到Hive表中。