数据调研
数据调研主要包括如下方面:
调研内容 | 调研目的 | 举例 |
|---|---|---|
数据类型 | 根据数据类型选择合适的迁移工具 | HDFS、HBase、MySQL等 |
数据量 | 历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。 | 历史数据X PB 日增量Y TB |
数据分层 | 调研数据分层主要用于迁移优先级和数据校验标准。 | 数据接入层、中间层、结果层 |
数据权限 | 根据源端数据权限控制组件的不同,选择不同的权限数据迁移方式 | Sentry、Ranger等 |
数据重要性 | 调研数据重要性的目的是区分核心数据和非核心数据,用于迁移优先级和数据校验标准。 | 交易类是核心数据,日志类是非核心数据 |
数据更新频率 | 针对不同的刷新周期,制定数据的迁移计划和校验计划。 | 日刷新/周刷新/月刷新/实时更新 |
任务执行区间 | 让数据迁移、数据校验和业务高峰期错开。 | 离线任务上班前和下班后执行 |
调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。

