【核心技术】高精度逐笔回测篇之序言

wei-jianan/核心开发

应用场景

量化交易有各种流派和风格，不同流派带来了不同的关注点。但总的来说工作流分两个步骤，策略/因子研究/alpha的挖掘，和实盘交易/具体的执行，当然研究和实盘之间，为了填平未知带来的风险，会存在不少过度阶段。

研究员|策略师|交易员的研究方式，多年观察下来，还是倾向于自己在一个excel/dataframe里面折腾，使用一堆roll,apply函数，乘上t+1的收益率在取对数，连加，基本上就可以初步判断辛辛苦苦挖掘出来的东西有没有alpha。当然交易成本，执行细节，未来函数（机器学习管这个叫数据泄露），过拟合，市场风格转换（机器学习社区有时管这个叫domain shift）等等问题先暂且不谈。有些小型机构，或者工程能力有限的研究人员一方面没有意愿，另一方面成本确实有限，就把刚刚一通代码折腾出来的因子/特征等等，按照特定的if else 规则或者正则化取平均，又或者再加个 ml模型训练的流程，组合起来形成信号下单的逻辑，写到实盘的代码里。至于赚不赚钱，到底能赚多少，策略的收益率波动率特性，就交给老天保佑了。

未知-风险存在明显的负相关关系。研究员|策略师|交易员兴奋的结束了与excel/dataframe 的战斗时。 alpha的未知达到了最高点，而风险，没上实盘有什么风险？最大的风险就是光领工资不赚钱被裁员的风险。那么之后为了尽可能低风险的把钱赚了，可以有如下步骤：
1）把pandas与numpy代码转化成标准化因子评估框架的代码，用ICIR之类的评价指标评估因子价值。
2）把因子/特征和信号或目标持仓结合起来，标准的向量化的回测。
3）单子有可能拆的很细，因子产生的信号有可能强推流动性差的金融产品，因子的频率和时效性有可能很高等等，交易成本（税+佣金），冲击成本。综上几种情况，很有有可能一个看起来有alpha，实际上有alpha的因子/特征变换成一个个的交易单，就是无法打平执行成本，因而亏钱。因此需要更高精度，更细力度到每笔下单的回测，能够很大程度上把冲击成本，延迟，交易所的撮合机制模拟出来，从而获得精确的执行成本和尽可能真实的回测收益。
4）paper trading。把策略上实盘，下单时候打个当前价格的日志。最终综合日志分析，获得一个纸面上交易的pnl。缺点是，依赖延迟和订单排队位置的maker策略无法模拟，滑点的模拟比较困难。
5）小资金实盘。基本能真实的构造出策略的pnl，缺陷是目标仓位过大时对市场的冲击，以及拆单的执行无法得到好的模拟。
以上5条，严谨点可以依次执行，随着alpha的未知性逐渐降低，头寸与知识产权暴露的风险逐渐增加。其中4的相对于高精度回测缺陷足够大，开发与分析成本相对于小资金实盘又足够高，个人认为可以删去，接下来的文章暂时不考虑涉及。

用户需求

那么量化的研究这个事儿在设计之初就需要满足一些普遍的原则，能够尽可能的提升效率，并降低使用成本与风险，其中有一些原则有可能互相拮抗，因此需要权衡取舍。但既要又要才是技术进步的体现，所以全部列出，成年人不做选择，尽量全要。具体总结如下：
1. 尽量易于编写，方便码力不足的研究人员轻松上手（固定预测的horizon，比如说每15分钟预测一次，即调用一次某个函数，或者A股比较常见的每日盘前调用一次某个回调函数）。同时又需要足够的自由度，可以满足任意类型策略的编写（想用等时间隔ochlv数据也行，想用不等时间隔的逐笔数据来交易也行）。
2. 与实盘代码尽保持一致，避免代码转写带来的错误与知识产权暴露风险。
3. 由于成熟机构会尽可能拆解工作流，专人专事，互相依赖。因此实盘和回测都需要满足，因子挖掘，因子组合, portofolio 优化，仓位执行等等抽象。回测不光是针对策略实现，算pnl 夏普率，也需要支持因子生成和因子组合的实现以及做相应的表现评估。
4. 尽可能模拟出执行与撮合细节，运行回测后得到的pnl精确的如同执行过实盘。如果一个策略实盘了一个月的pnl，和把这个策略拿这一个月数据重新回测一遍的pnl相差无几。那么可以说回测的精度是做到家了。
5. 要够快。一个回测速度跟实盘一样的回测系统，其价值极其有限。