【研究报告】功夫共享内存通信开销分析

xinze/核心开发

背景：

在tick-to-order延迟测试过程中，采用提高编译时SPDLOG级别以减少运行时开销，并将各进程绑定在专属CPU核心上避免运行过程中切换核心带来的cache miss这两种有效步骤之后，延迟表现有所提升。但一笔订单记录从策略进程写完到td读到仍需要2us左右的时间开销，与模拟单写单读进程共享内存通信测试结果有差异，进一步分析探索高开销步骤位置以及是否有优化空间。

测试过程：

在12核心3.40GHz的机器32上，分别探索了读、写过程的时间构成，采用系统外模拟与功夫系统内魔改方式获取、分析高开销步骤，验证优化效果。

测试结论：

写操作中的各步骤及开销：

写开销实际表现符合预期。

读操作中的各步骤及开销：

读开销步骤1-4之和为2us左右，与之前tick-to-order延迟测试过程中一笔订单记录从策略进程写完到td读到开销一致。优化步骤2之后读开销可优化600ns左右。

现象解释

1 当使用大页内存的情况下进行共享内存通信延迟测试时，也不可避免会产生内存碎片，因此随着测试次数的增加，mmap时可用的完整连续内存将减少，进而会导致整体测试结果开销有所增加。

2 同一场景多次测试过程中，会发现通信开销表现在一个范围内波动，而不是一个固定值，这是因为跨核心进行共享内存通信时涉及到缓存一致性问题，通常由硬件和底层系统实现的MESI协议等来管理cache line的一致性，在软件层面上并没有直接的控制接口，因此无法直接干预。

3 在测试结果中，写开销往往小于读开销，与通常印象中写开销大于读开销不同，这里主要有两方面原因：缓存一致性协议会对写操作的开销进行优化，通过预设的缓存策略和写回机制，减少对其他缓存和主存的写操作，提高整体性能；同时由于是跨CPU核心进行共享内存通信，写进程的写操作更新的不是读进程的本地缓存，读进程的本地缓存失效后需要从其他缓存或主存加载最新的数据，想比较于同一核心读写引入了更多传输和通信开销。