mrs
- 开发指南(适用于2.x及之前)
- 简介
- MapReduce服务样例工程构建方式
- HBase应用开发
- Hive应用开发
- MapReduce应用开发
- HDFS应用开发
- Spark应用开发
- 概述
- 环境准备
- 开发程序
- 调测程序
- 调优程序
- Spark接口
- FAQ
- 如何添加自定义代码的依赖包
- 如何处理自动加载的依赖包
- 运行SparkStreamingKafka样例工程时报“类不存在”问题
- 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出
- Spark应用名在使用yarn-cluster模式提交时不生效
- 如何采用Java命令提交Spark应用
- SparkSQL UDF功能的权限控制机制
- 由于kafka配置的限制,导致Spark Streaming应用运行失败
- 如何使用IDEA远程调试
- 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息
- Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败
- Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常
- Spark任务读取HBase报错“had a not serializable result”
- 开发规范
- Storm应用开发
- Kafka应用开发
- Presto应用开发
- OpenTSDB应用开发
- Flink应用开发
- Impala应用开发
- Alluxio应用开发
- 附录
常用概念
链接复制成功!
更新时间:2020/12/15 GMT+08:00
Topology
拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。
Spout
在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。
Bolt
在一个Topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。
Tuple
一次消息传递的基本单元。
Stream
流是一组(无穷)元素的集合,流上的每个元素都属于同一个schema;每个元素都和逻辑时间有关;即流包含了元组和时间的双重属性。流上的任何一个元素,都可以用Element<tuple,Time>的方式来表示,tuple是元组,包含了数据结构和数据内容,Time就是该数据的逻辑时间。
keytab文件
存放用户信息的密钥文件。应用程序采用此密钥文件在MRS产品中进行API方式认证。
父主题: 概述
