作者:深邃暗黑范特西
链接:https://www.zhihu.com/question/272156840/answer/367180861
来源:知乎
董可人的那个功夫,低时延的核心在于易经筋模块。进程间通过共享内存(mmap)通信。共享内存上面的数据结构比较简洁,就是一个header加数据体,且数据帧是连续的,每块共享内存只有一个进程或线程进行写入操作,但允许多个线程或进程去读。
优点:
1.数据在内存上连续,所以cache 命中率会比较高,当然,使用时记得给自己的数据做cache line对齐,避免出现假共享导致的乒乓缓存。
2.由于是线性结构且只有一个生产者写入,因此写入操作是线程安全的,并且完全不用加锁,连CAS都不用。至于读取操作,由于没有pop操作且允许多个线程读取同一位置,同样不需要上锁也不需要CAS操作,进程线程间通信自然就快了。
我把这套操作复制到自己实现的lockfreeringbuffer上测试过,一写多读(注:没有pop操作),以ctp的行情报文为例,每隔500ms读写一次,没有做cache line对齐和绑核等优化,平均读写耗时约3200多纳秒(不包括上下文切换的时间)。标准差有点大,因为没有做上述优化,导致cache命中太低。
另外说一下,每隔几百毫秒写入一次和连续写入是两种完全不同的场景,我之前测试时,连续读写一百万次,平均耗时不过百纳秒级,这是特定场景之下cache命中率虚高导致的,不能当真。测试场景请尽可能贴近真实场景。当然,实盘时让写行情的进程独占一个物理core,再做下cacheline对齐,最后的结果肯定比这个好。
3.既然是基于mmap的操作,自然可以把行情和下单异步写入磁盘,方便以后复盘和回测。
4.真心不觉得在高频交易里交易系统部分是低延迟的关键,mmap基本都是标配了,我在前司的时候就是mmap+hack api+colo,最终对提升延迟起决定作用的是买台贵点儿设备。。。所以光是一套使用mmap的代码对散户来讲基本没有意义,有本事colo的谁不会自己写。(所以说mmap+hack api+colo是一个很好的优化效果提升的点)