hadoop mapreduce 介绍_使用BulkLoad工具向HBase迁移数据-华为云

使用BulkLoad工具向HBase迁移数据

“Import”通过“org.apache.hadoop.hbase.mapreduce.Import”方法导入已导出至HDFS中的HBase数据。 “ImportTsv”通过“org.apache.hadoop.hbase.mapreduce.ImportTsv”可将TSV格式的数据加载到HBase中。

来自：帮助中心

查看更多 →
删除索引

删除索引场景介绍用户可以使用全局二级索引工具删除某个索引。使用方法在HBase客户端执行以下命令可删除某个索引： hbase org.apache.hadoop.hbase.hindex.global.mapreduce.GlobalTableIndexer -Dtablename

来自：帮助中心

查看更多 →
快速开发Hive HCatalog应用

快速开发Hive HCatalog应用 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HQL语言操作结构化数据，其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：

来自：帮助中心

查看更多 →
MapReduce应用开发常用概念

MapReduce应用开发常用概念 Hadoop shell命令 Hadoop基本shell命令，包括提交MapReduce作业，kill MapReduce作业，进行HDFS文件系统各项操作等。 MapReduce输入输出(InputFormat，OutputFormat) M

来自：帮助中心

查看更多 →
批量加载HBase数据并生成本地二级索引

21:29:51,523 INFO [main] mapreduce.Job: Counters: 50 执行如下命令将生成的HFile导入HBase中： hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles </path/for/output>

来自：帮助中心

查看更多 →
MapReduce大任务的AM调优

参数描述默认值 yarn.app.mapreduce.am.resource.mb 该参数值必须大于下面参数的堆大小。单位：MB 1536 yarn.app.mapreduce.am.command-opts 传递到MapReduce ApplicationMaster的JVM启动参数。

来自：帮助中心

查看更多 →
输入文件数超出设置限制导致任务执行失败

code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=1) 原因分析 MapReduce任务提交前对输入文件数的检查策略：在提交的MapReduce任务中，允许的最大输入文件数和HiveSe

来自：帮助中心

查看更多 →
准备MapReduce应用运行环境

准备MapReduce应用运行环境 MapReduce的运行环境可以部署在Linux环境下。您可以按照如下操作完成运行环境准备。操作步骤确认服务端YARN组件和MapReduce组件已经安装，并正常运行。客户端运行环境已安装1.7或1.8版本的JDK。客户端机器的时间与H

来自：帮助中心

查看更多 →
使用BulkLoad工具向HBase迁移数据

“Import”通过“org.apache.hadoop.hbase.mapreduce.Import”方法导入已导出至HDFS中的HBase数据。 “ImportTsv”通过“org.apache.hadoop.hbase.mapreduce.ImportTsv”可将TSV格式的数据加载到HBase中。

来自：帮助中心

查看更多 →
MapReduce访问多组件样例代码

educer抽象类实现。 main方法提供建立一个MapReduce job，并提交MapReduce作业到Hadoop集群。代码样例下面代码片段仅为演示，具体代码参见com.huawei.bigdata.mapreduce.examples.MultiComponentExample类：

来自：帮助中心

查看更多 →
MapReduce大任务的AM调优

参数描述默认值 yarn.app.mapreduce.am.resource.mb 该参数值必须大于下面参数的堆大小。单位：MB 1536 yarn.app.mapreduce.am.command-opts 传递到MapReduce ApplicationMaster的JVM启动参数。

来自：帮助中心

查看更多 →
使用BulkLoad工具批量导入HBase数据

当HBase已经配置透明加密后，执行bulkload命令的HBase用户需要添加到对应集群的hadoop用户组（非 FusionInsight Manager下第一个安装的集群，用户组为“c<集群ID>_hadoop”，例如“c2_hadoop”），且具有HBase根目录的加密key的读权限=。检查目录/t

来自：帮助中心

查看更多 →
使用BulkLoad工具批量导入HBase数据

当HBase已经配置透明加密后，执行bulkload命令的HBase用户需要添加到对应集群的hadoop用户组（非FusionInsight Manager下第一个安装的集群，用户组为“c<集群ID>_hadoop”，例如“c2_hadoop”），且具有HBase根目录的加密key的读权限。检查目录“/t

来自：帮助中心

查看更多 →
运行MapReduce作业

运行MapReduce作业用户可将自己开发的程序提交到 MRS 中，执行程序并获取结果，本章节指导您如何在MRS集群中提交一个MapReduce作业。 MapReduce作业用于提交Hadoop jar程序快速并行处理大量数据，是一种分布式数据处理模式。用户可以在MRS管理控制台

来自：帮助中心

查看更多 →
索引信息查询

索引信息查询场景介绍用户可以使用全局二级索引工具批量查看某个数据表相关索引的定义及状态。使用方法在HBase客户端执行以下命令可索引的定义及状态： hbase org.apache.hadoop.hbase.hindex.global.mapreduce.GlobalTableIndexer

来自：帮助中心

查看更多 →
MapReduce Shuffle调优

MapReduce Shuffle调优操作场景 Shuffle阶段是MapReduce性能的关键部分，包括了从Map task将中间数据写到磁盘一直到Reduce task拷贝数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。图1 Shuffle过程

来自：帮助中心

查看更多 →
MapReduce Shuffle调优

MapReduce Shuffle调优操作场景 Shuffle阶段是MapReduce性能的关键部分，包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。图1 Shuffle过程

来自：帮助中心

查看更多 →
快速创建和使用启用安全认证的MRS集群

/opt/client source bigdata_env kinit test hadoop jar HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1-*.jar wordcount "/user/example/input/*"

来自：帮助中心

查看更多 →
连接postgresql或者gaussdb时报错

报错中type为5时：在执行sqoop import命令时，会启动MapReduce任务，由于MRS Hadoop安装目录（${BIGDATA_HOME}/FusionInsight_HD_*/1_*_NodeManager/install/hadoop/share/hadoop/common/lib）下自带了postgre驱动包gsjdbc4-*

来自：帮助中心

查看更多 →
往HDFS写数据时报错“java.net.SocketException”

v/BigData/hadoop/data1/dn/current, /srv/BigData/hadoop/data2/dn/current, /srv/BigData/hadoop/data3/dn/current, /srv/BigData/hadoop/data4/dn/current

来自：帮助中心

查看更多 →
MapReduce访问多组件样例程序开发思路

MapReduce访问多组件样例程序开发思路场景说明该样例以MapReduce访问HDFS、HBase、Hive为例，介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。该样例逻辑过程如下。以HDFS文本文件为输入数据 log1.txt：数据输入文件

来自：帮助中心

查看更多 →