更新时间： 2023-02-27 09:29:59

#IM 服务器设计 - 消息存储 - codedump 的网络日志

本文由简悦 SimpRead 转码，原文地址 www.codedump.info

采用pull 模型

这部分专门讲述 IM 消息存储的设计。消息存储的难度在于，要考虑以下的场景：

消息同步模型中，有写扩散和读扩散这两种模型。在开始讨论之前需要先了解两个相关的概念：

#写扩散（push）

写扩散就是经常说的 push 模式，即每个消息都直接发送到该用户的收件箱中。其优缺点如下：

读扩散就是 pull 模式，用户每次到消息发送者的发件箱去拉取消息，优缺点如下：

最终选择的是以 pull 模式为主的模式，理由在于：

下面来看具体的设计。

在数据库设计中，仅使用一个发送消息表来存储消息的具体内容，而另外有一个消息接收表用来存储消息的 ID 信息而不是具体内容，这样用户查询消息时，大体流程如下：

无论是单聊还是群聊消息，都使用这个表来存储发送出去的消息。

im_message_send（msg_id,msg_from,msg_to,msg_seq,msg_content,send_time,msg_type）

其中：

im_message_recieve（id,msg_from,msg_to,msg_id,flag）

其中：

接收消息表的信息并没有很多，因为主体部分如消息内容、发送消息时间等都在发送消息表中。

发送消息表，根据 msg_from 字段做为分库分表的依据，而接收消息表则使用 msg_to 字段做为分库分表的依据。

另外，还需要添加缓存将群聊消息进行缓存，缓存的 key 为 msg_to 和 msg_id 的组合，这样查询具体群聊消息的时候就可以根据组 ID 来查询一条具体的消息了。

以上需要对存储之上的业务层完全透明，因此加上一个 db proxy 来处理消息的读写，除了应付这套流程以外，proxy 的引入还有这些好处：

有了这一层 proxy 之后，消息的读写流程如下。

收到用户发送过来的消息，db proxy 做如下处理：

读消息的过程反之：

根据 msg_to 查询是哪个存储服务存储该接收消息，查询到该消息之后就知道对应的 msg_id。
根据第一步查询到 msg_from 以及 msg_id 来去发送消息表中查询消息，如果是群聊消息的话，可以首先组合这两个字段到缓存中查询，查询不到再查询数据库。
如果上面第二步中的群聊消息，在缓存中没有查询到，需要一个策略来向缓存中写入一份该群聊消息。
如果接收到用户已读该消息的应答，那么还需要再次根据 msg_to 查询该消息将 flag 字段变成用户已读状态。

在第一篇基础篇中已经给出了拉取离线消息的基本流程，在这里还需要进行一些优化。

在实际的应用中，离线的群聊消息并不是需要每次登录都完整拉取下来的，因此这里可以做一个优化：登录时针对群聊消息仅拉取每个群的未读消息数量，用于客户端的展示，而实际消息内容的加载，可以等到用户真的点到这个群查看消息或者可以后台加载，总之不影响登录主流程即可。

细化了消息存储部分之后的整体架构如下图所示：

采用 pull 模式为主的消息发送存储方式。
为了解决 pull 模式的读消息较重的问题，引入了以下组件：
- db proxy 来解决整个读写逻辑，这部分对业务层完全透明，同时 proxy 可以感知下面存储服务的扩缩容变更等。
- 群聊消息根据消息 ID 以及群 ID 写入缓存一份，不必每次都到存储服务器上面拉取消息。
- 使用另一个消息计数表来存储未读消息数量，登录之后群聊消息仅展示未读消息数量，这部分群聊消息可以延迟拉取或者后台拉取不影响客户端登录主流程。

按阿里云说法，大都采用写扩散。这个文章是19年的。消息同步那块也好做点。存储不值钱...