如何规避dds mongos路由缓存缺陷
背景信息
DDS作为基于分布式文件存储的数据库,以其可扩展性,高性能,开源,模式自由,面向文档等特点,逐步赢得了越来越多的使用者。下图为DDS集群架构示意图:
集群架构主要分为以下三部分:
- dds mongos:为单节点架构,负责提供对外供用户访问的接口,屏蔽分布式数据库内部的复杂性。一个DDS集群可以有2~12个dds mongos,您可以根据需要进行添加。
- config server:为一组副本集架构,负责存储整个集群的元数据信息,包括数据的路由信息和分片信息等内容。一个集群仅支持一个config server。
- shard server:为一组副本集架构,负责分片式存储用户数据。集群中可以添加多组副本集架构的shard server。
分片概念
分片是指将一个集合的数据,根据指定的shard key,相对均匀地分布保存在多个shard server上。这种指定了shard key的集合,称为分片集合。但是,如果并未对集合进行分片,则该集合的数据,只会全部存储在某一个shard server上。DDS集群模式允许分片集合和未分片集合在数据库中同时存在。
未分片的集合可以通过命令sh.shardCollection转为分片集合。对集合进行分片之前,需确保集合所属的数据库开启了分片功能,您可以通过命令sh.enableSharding开启分片功能。
dds mongos路由缓存机制
用户数据存储在shard server中,元数据存储在config server中。路由信息属于元数据信息,即存储在config server中。当用户通过dds mongos对集群进行数据访问时,dds mongos会根据config server中的路由信息,将用户请求发送到对应的shard server上,进行数据访问。
但是,如果dds mongos在每次处理数据访问时,都从config server获取路由信息,很大程度上会影响性能。因此,在实现机制上,添加了缓存机制:将config server的路由信息缓存在dds mongos本地。该场景下,不但在config server中会存储路由信息,dds mongos的本地缓存中也可能会缓存路由信息。
dds mongos中并不是一定会存在缓存的路由信息,如果dds mongos上没有进行过任何数据操作,就没有缓存信息。并且,dds mongos上缓存的路由信息,也不一定是最新的config server的路由信息。因为dds mongos上缓存的路由信息,不是实时或者定时刷新的,而是lazy模式,是在特定的场景下被动触发的,包含但可能不限于如下几种触发场景:
- dds mongos启动时,从config server获取最新的路由信息,并缓存在本地。
- dds mongos第一次处理相关数据的请求:由于mongos本地没有缓存该相关数据的路由信息,将会触发更新相关的config server路由信息到dds mongos本地缓存的逻辑,在继续处理后续请求时,dds mongos已经缓存了相关数据的路由信息,会直接使用缓存中的路由信息来访问shard server。
- 在dds mongos上手工执行路由刷新命令。
被动触发dds mongos的路由缓存刷新,只是刷新用户请求涉及到的元数据信息,而非刷新缓存中的全部内容。
缓存刷新的范围以DB为单位。
使用场景
当未对数据进行分片时,若系统中存在多个dds mongos,通过不同的dds mongos进行数据访问时,可能出现不同dds mongos上本地缓存的路由信息不一致的情况。场景示例:
- 通过mongos1创建A数据库,未开启分片。写入数据1后,数据1被全部分到shard server1上存储。然后,在mongos2上对数据进行查询。此时,mongos1和mongos2上,均存在缓存的A数据库的路由信息。
- 通过mongos2执行了A数据库的删除操作。此时,config server和shard server1中的A数据库信息都被删掉。而mongos1无法识别数据1已经被删除。
- 通过mongos1向A数据库中写入数据2时,由于存在缓存,所以无法识别A数据库已经被删除的场景。参照已经存在的路由信息,数据2被存储到shard server1上。然后,通过mongos2向A数据库中写入数据3时,由于能够识别出A数据库已经被删除,所以会在config server和shard server2中生成新的A数据库的信息。
- 此时,mongos1和mongos2中缓存的路由信息不一致,关联不同的shard server,且仅能看到部分数据,导致数据异常。
客户端通过不同mongos,所查询到的数据不同:
- mongos1:可以查到数据2,无法查询到数据3。
- mongos2:可以查询到数据3,无法查询到数据2。
规避建议
MongoDB官方建议:在每次删除数据库或集合后,在所有mongos节点上,通过命令db.adminCommand("flushRouterConfig"),刷新路由。
参考链接:
- https://docs.mongodb.com/manual/reference/method/db.dropDatabase/index.html#replica-set-and-sharded-clusters
- https://jira.mongodb.org/browse/SERVER-17397
其他规避建议: