文档首页> 文档数据库服务 DDS> 最佳实践> 如何规避mongos路由缓存缺陷
更新时间:2023-08-24 GMT+08:00

如何规避mongos路由缓存缺陷

背景信息

DDS作为基于分布式文件存储的数据库,以其可扩展性,高性能,开源,模式自由,面向文档等特点,逐步赢得了越来越多的使用者。下图为DDS集群架构示意图:

图1 集群架构图

集群架构主要分为以下三部分:

  • mongos:为单节点架构,负责提供对外供用户访问的接口,屏蔽分布式数据库内部的复杂性。一个DDS集群可以有2~12个mongos,您可以根据需要进行添加。
  • config server:为一组副本集架构,负责存储整个集群的元数据信息,包括数据的路由信息和分片信息等内容。一个集群仅支持一个config server。
  • shard server:为一组副本集架构,负责分片式存储用户数据。集群中可以添加多组副本集架构的shard server。

分片概念

分片是指将一个集合的数据,根据指定的shard key,相对均匀地分布保存在多个shard server上。这种指定了shard key的集合,称为分片集合。但是,如果并未对集合进行分片,则该集合的数据,只会全部存储在某一个shard server上。DDS集群模式允许分片集合和未分片集合在数据库中同时存在。

未分片的集合可以通过命令sh.shardCollection转为分片集合。对集合进行分片之前,需确保集合所属的数据库开启了分片功能,您可以通过命令sh.enableSharding开启分片功能。

mongos路由缓存机制

用户数据存储在shard server中,元数据存储在config server中。路由信息属于元数据信息,即存储在config server中。当用户通过mongos对集群进行数据访问时,mongos会根据config server中的路由信息,将用户请求发送到对应的shard server上,进行数据访问。

但是,如果mongos在每次处理数据访问时,都从config server获取路由信息,很大程度上会影响性能。因此,在实现机制上,添加了缓存机制:将config server的路由信息缓存在mongos本地。该场景下,不但在config server中会存储路由信息,mongos的本地缓存中也可能会缓存路由信息。

mongos中并不是一定会存在缓存的路由信息,如果mongos上没有进行过任何数据操作,就没有缓存信息。并且,mongos上缓存的路由信息,也不一定是最新的config server的路由信息。因为mongos上缓存的路由信息,不是实时或者定时刷新的,而是lazy模式,是在特定的场景下被动触发的,包含但可能不限于如下几种触发场景:

  • mongos启动时,从config server获取最新的路由信息,并缓存在本地。
  • mongos第一次处理相关数据的请求:由于mongos本地没有缓存该相关数据的路由信息,将会触发更新相关的config server路由信息到mongos本地缓存的逻辑,在继续处理后续请求时,mongos已经缓存了相关数据的路由信息,会直接使用缓存中的路由信息来访问shard server。
  • 在mongos上手工执行路由刷新命令。

被动触发mongos的路由缓存刷新,只是刷新用户请求涉及到的元数据信息,而非刷新缓存中的全部内容。

缓存刷新的范围以DB为单位。

使用场景

当未对数据进行分片时,若系统中存在多个mongos,通过不同的mongos进行数据访问时,可能出现不同mongos上本地缓存的路由信息不一致的情况。场景示例:

  1. 通过mongos1创建A数据库,未开启分片。写入数据1后,数据1被全部分到shard server1上存储。然后,在mongos2上对数据进行查询。此时,mongos1和mongos2上,均存在缓存的A数据库的路由信息。
  2. 通过mongos2执行了A数据库的删除操作。此时,config server和shard server1中的A数据库信息都被删掉。而mongos1无法识别数据1已经被删除。
  3. 通过mongos1向A数据库中写入数据2时,由于存在缓存,所以无法识别A数据库已经被删除的场景。参照已经存在的路由信息,数据2被存储到shard server1上。然后,通过mongos2向A数据库中写入数据3时,由于能够识别出A数据库已经被删除,所以会在config server和shard server2中生成新的A数据库的信息。
  4. 此时,mongos1和mongos2中缓存的路由信息不一致,关联不同的shard server,且仅能看到部分数据,导致数据异常。
图2 mongos缓存缺陷的场景

客户端通过不同mongos,所查询到的数据不同:

  • mongos1:可以查到数据2,无法查询到数据3。
  • mongos2:可以查询到数据3,无法查询到数据2。

规避建议

MongoDB官方建议:在每次删除数据库或集合后,在所有mongos节点上,通过命令db.adminCommand("flushRouterConfig"),刷新路由。

参考链接:

其他规避建议:

  • 对于集群模式,建议开启数据库的分片功能,再对其中的集合进行分片。
  • 对于未开启分片功能的数据库。在删除数据库或集合之后,不建议创建同名的数据库或集合。

    如果因业务需求,需要创建同名的数据库或集合,请在删除数据库或集合之后,创建同名的数据库或集合之前,登录到所有的mongos节点上,执行刷新路由表的操作。