更新时间:2025-05-06 GMT+08:00

平台调研

大数据调研简介

大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。

图1 大数据调研的对象

大数据迁移需要调研以下信息:

  • 大数据平台调研,包括大数据集群、任务调度平台、数据流向。
  • 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。
  • 任务调研,包括待迁移的任务类型、任务数量、更新周期等。

本节重点介绍大数据平台、数据和任务的调研。

平台调研

大数据平台调研主要调研大数据集群、大数据任务调度平台和数据流向。

  • 调研大数据集群

    需要调研大数据集群的数量和功能划分,各个集群或组件负责的业务和处理的数据类型,处理实时/离线数据的组件及详细版本信息,数据格式类型和压缩算法,数据安全性和权限控制,高可用性和容错机制,扩展性和弹性等。

    调研大数据集群数量和功能划分:例如Hadoop集群、Spark集群、Hive集群等,并根据业务需求划分它们的功能,如存储集群、计算集群、查询集群等。

    调研各个集群或组件负责的业务范围,以及它们处理的数据类型和数据流转的方式。

    调研用于处理实时数据和离线数据的组件,例如实时数据可能使用Apache Kafka、Apache Flink等,离线数据可能使用Hadoop、Spark等。

    调研数据格式类型和压缩算法:

    调研平台对数据的安全性和权限控制机制,例如数据加密、用户访问权限管理等。

    了解大数据集群的高可用性和容错机制,包括故障恢复、备份策略、容灾方案等。

  • 调研大数据任务调度平台

    需要调研大数据任务调度平台的类型、版本、支持的大数据框架和技术,调度任务类型,可视化和管理界面,扩展性和集成性,容错和故障恢复,安全性和权限控制以及社区支持和文档资料等方面的信息。用于后续大数据调度平台的选型和方案设计。

    调研现有的大数据任务调度平台的类型,例如Azkaban等,了解它们的特点和适用场景。

    调研现有大数据任务调度平台的版本,并了解最新版本的功能更新和改进。

    确认任务调度平台是否支持当前使用的大数据框架和技术,例如Hadoop、Spark、Hive、Pig、Flink等。

    调研任务调度平台支持的任务类型,包括Jar类任务、SQL类任务、脚本类任务(Python、Shell)等。

    调研任务调度平台是否提供可视化和管理界面,以方便任务调度的配置、监控和管理。

    了解任务调度平台的容错机制,包括任务失败后的重试机制、故障恢复策略等。

  • 调研数据流:

    调研大数据平台及业务的架构图及数据流图,如下图:

    大数据平台及业务的架构图和数据流图。

    平台数据接入源。

    数据流入方式(如:实时数据上报、批量数据抽取)。

    分析大数据平台数据流向,数据在平台内各个组件间的流向,例如:数据采集组件类型、采集组件下一层、存储数据组件,数据处理过程中的工作流等。

    图2 数据流示例