NOTE本篇博客的立场是宏观分析师,所以不包含关于高频量化等存超短线交易的内容
量化分析师最日常的工作就是不断地从浩瀚的金融数据中,或基于已有的金融学理论,或基于市场传闻乃至个人洞察去开展「因子挖掘」工作,寻找那个能够预测未来资产回报的变量(即因子)。
简单来说,就是找到「因为 X,所以 Y 会涨/跌的那个 X。
而一个好的因子,绝对不是凭空通过数据挖掘跑出来的,它背后必须有一个强大的、符合逻辑的故事或「叙事」。这个叙事解释(猜想)了为什么这个因子会有效;而我们的工作,就是把这个模糊的叙事转化成一个可以用数据严格验证的、可量化的数学命题。
因子挖掘的起点往往是一个关于资产价格异动的经济学叙事。例如,价值投资的叙事基础是市场对低估值资产的过度反应和均值回归倾向。这个叙事需要被精确定义,比如,“低估值”是否指市净率(P/B)低,市盈率(P/E)低,还是自由现金流收益率(FCFY)高?一旦确定了定义,比如选择P/B作为代理变量,我们就可以构建一个初步的、可被回溯测试的因子:低P/B组合。
一般来说,一位宏观分析师在市场挖掘因子的过程可以分为三个核心阶段:理论构思、实证检验、以及迭代优化。
一、理论构思——从宏观叙事到量化假说
万丈高楼平地起,挖掘因子的第一步始于一个坚实的宏观叙事。
我们需要思考,当前和未来的一段时间,影响整个市场的核心宏观变量是什么?是美联储的利息政策?是地缘政治风险?是某个行业(比如AI)的技术突破带来了新的应用场景?还是像比特币ETF获批这样的里程碑事件?
叙事是定性的,而因子是定量的;我们要做的下一步就是将这个宏大的叙事提炼并转化为一个可检验的量化假说,这个过程需要极强的抽象能力和数据敏感度。
举一个很简单的案例:
现货比特币ETF的获批和上市,标志着机构资本开始大规模、合规地进入加密货币市场。我们预期,由ETF驱动的持续净流入将对BTC的市场价格形成强大的正向推动力,因为这代表了新增的、低弹性(Price Inelastic)的买盘需求。
量化假说的转化: 如何量化「机构资本的大规模流入」?最直接的代理变量就是每日或每周的比特币现货ETF的净流入(Net Flow)。
- 因子定义(X): 过去天所有现货比特币ETF的累计净流入美元价值(例如,天的滚动总和)。
- 预测目标(Y): 下一周BTC价格相对于大盘(例如,一个综合市值指数)的超额回报。
- 量化假说: : 当(累计净流入)处于历史高位或持续增长时,(BTC的超额回报)为正。反之,当为负(净流出)时,为负。
这个假说将一个宏观事件(ETF获批带来的资金结构变化)转化为了一个具体的、可观测的、可被回溯测试的因子输入。
二、实证检验——因子的有效性与稳健性
一旦量化假说形成,下一步就是进入残酷的实证检验阶段。在这个阶段,我们的目标是回答两个核心问题:
- 有效性: 因子是否真的能够显著地预测?这种预测能力是随机的,还是具有统计学上的可靠性?
- 稳健性: 这种预测能力是否在不同的时间周期、不同的市场条件下(牛市/熊市)、以及不同的参数设定下依然保持稳定?
2.1 数据准备与因子定义
我们以上面提到的 ETF 流入/流出量和 BTC 价格关系假说为例。
- 因子定义(X): 针对不同滚动窗口(7、14、21日)构造的 ETF 净流入因子。具体为:每日计算 ETF 总流量的 N 日滚动和,记为
flow_rolling_musd
。 - 预测目标(Y): BTC 与 ETH 的收盘价取对数,计算未来 N 日的对数收益差,得到
btc_excess_return
。
下图展示了 ETF 净流入(以 14 天滚动和为例)与 BTC 未来超额回报的散点分布,初步揭示了两者之间的关系。
2.2 线性回归分析:初步发现与统计检验
我们对不同滚动窗口下的因子与预测目标进行了线性回归分析,核心统计结果如下表所示:
窗口 (N日) | 有效样本 | Pearson相关 | Spearman相关 | 斜率β (每10亿美元) | 斜率t值 | 斜率p值 | R² | 调整后R² | Durbin-Watson |
---|---|---|---|---|---|---|---|---|---|
7 | 621 | -0.129 | -0.058 | -0.756% | -3.24 | 0.00124 | 0.017 | 0.015 | 0.27 |
14 | 614 | -0.233 | -0.155 | -1.210% | -5.94 | 4.9e-09 | 0.054 | 0.053 | 0.12 |
21 | 607 | -0.248 | -0.192 | -1.189% | -6.31 | 5.5e-10 | 0.062 | 0.060 | 0.09 |
核心洞察与统计意义:
- 反直觉的负相关关系: 通过回归分析,我们可以发现一个和直觉完全相反的关系:斜率β (Slope) 和 相关系数 (Pearson/Spearman) 均为负值。这与我们最初的假设——即 ETF 净流入会推动 BTC 价格上涨——完全相反。结果在统计上表明,过去 N 天的 ETF 净流入越多,未来 BTC 相对于 ETH 的表现反而越差。
- 显著的统计学意义: 以 14 天窗口为例,-1.210% 的斜率意味着,过去 14 天 ETF 净流入每增加 10 亿美元,模型预测未来 14 天 BTC 的收益率将比 ETH 低 1.21%。所有窗口的 p 值 都极小(远小于 0.01),t 值的绝对值 也很大。这表明“ETF 净流入”这个因子与“BTC 未来超额回报”之间的负向关系在统计上是非常显著的,基本可以排除是随机巧合。
- 解释力有限但有价值: R² 值衡量了我们的因子(ETF 净流入)能在多大程度上解释目标(BTC 超额回报)的波动。这里的值(1.7% 到 6.2%)相对较低。这意味着,虽然 ETF 净流入是一个统计上显著的因子,但它只能解释 BTC 相对 ETH 价格波动中很小的一部分。市场中还存在大量其他更重要的影响因素。
通过简单的回归分析,我们可以得出初步结论:
ETF 净流入确实是一个能预测 BTC 未来表现的显著因子,但其效果与市场普遍预期相反。这可能暗示着一种“消息兑现后卖出(Sell the news)”的市场行为,或者 ETF 流入数据反映的是滞后于价格变动的“追高”行为。
较低的 R² 和极低的 Durbin-Watson 值(远小于 2,表明存在正自相关)说明,这个简单的线性模型虽然揭示了一个有趣的现象,但它本身是不完善的。为了得到更可靠的结论,需要进一步优化模型,例如处理时间序列的自相关性(如使用差分数据或 ARIMA 模型)。从现有结果看,14 天和 21 天窗口的模型解释力优于 7 天窗口。
2.3 分位数检验:非线性关系与市场情绪
为了更深入地探索因子与回报之间的关系,特别是是否存在非线性模式,我们还将所有的“ETF 净流入”数据从小到大排序,然后平均分成 5 组(0 到 4)。
- 横轴
0=Low
代表净流入最低的 20% 的时期(通常是净流出)。 - 横轴
4=High
代表净流入最高的 20% 的时期。 - 纵轴则代表在特定净流入组别发生后,未来一周 BTC 相对于 ETH 的平均超额回报,单位是基点(bp),100 bp = 1%。
- 核心洞察:
- 印证“卖出事实”:当ETF净流入最高时(第4组),未来一周BTC的平均回报是负115个基点(-1.15%),表现最差。这强烈支持了之前的回归结果,即极端的资金流入往往是市场情绪过热的顶点,是“卖出事实”的信号。
- 非线性关系:因子表现并非线性。并非流入越少越好。当资金流入处于中低水平时(第0、1、2组),未来回报反而是正的,尤其是在第1组(次低流入)时表现最好,平均超额回报高达160个基点(+1.6%)。
- 综合来看:这张图说明,简单的认为“资金流入=价格上涨”是错误的。市场的反应要复杂得多。巨额流入可能代表“散户追高”,而后续往往是回调。而温和的流入或流出期间,市场可能处于更健康的上涨或筑底阶段。
迭代优化的部分我们暂且按下不表,未来有机会再进行详细研究
三、我们可以学到什么?
通过对上面猜想的初步实证检验,我们或许可以提炼出几点经验教训:
最直接的就是——不要相信直觉,要相信数据。如上所述,在这个案例中宏观叙事「机构资金流入必然推动价格上涨」与实际观测到的数据结果是截然相反的。人类倾向于寻找支持自己观点的证据,我们必须要警惕任何先入为主的偏见。在量化领域,这表现为只关注那些与初始叙事相符的回归结果。
我们的工作是证伪,而非证实。如果一个统计上高度显著的结果(如我们的负相关)与我们的常识相悖,这往往是一个强大的信号,表明市场行为比我们想象的要复杂,或者我们的宏观叙事只是真相的一部分。
一个和直觉相反但统计显著的因子,往往比一个符合常识的因子更有价值,因为它可能揭示了市场中的“非理性行为”或“结构性缺陷”(如高频交易者利用情绪性资金流入进行反向操作)。
其次,代理变量的选择至关重要。
我们将「机构资本的大规模流入」这个定性概念代理成了「ETF净流入美元价值」。但这个代理变量可能并不完美,因为它只捕获了流入/流出,而没有捕获其他关键信息:
- 流入者的性质:ETF净流入是机构的战术性部署,还是散户的Fidelity/BlackRock账户的追高?这两者的市场影响力与持续性截然不同。
- 价格的敏感性:我们的因子只是一个绝对的美元值。它没有考虑这种流入是在BTC价格70,000时发生的。一个更复杂的因子应该考虑资金流对价格的弹性
量化分析师的工作不仅是找到相关性,更是要不断地优化代理变量,使其能够更纯粹、更准确地反映我们最初想捕获的经济学概念。
最后,要永远关注因子的稳健性与局限性。
虽然我们找到了一个统计上显著的因子,但这个因子只能解释不到 7% 的超额回报波动。这意味着如果单纯依赖这个因子进行交易,将会有极高的噪音和错误信号。这要求我们将这个因子视为一个辅助信号,而不是交易决策的唯一依据。
分位数检验清晰地表明,因子与回报的关系并非简单的线性。简单的高/低流入分类无法有效捕捉市场情绪的复杂性。成功的策略需要根据流入的强度和所处的历史分位数进行动态调整。
极低的 DurbinWatson 值也提醒我们,我们的数据存在强烈的自相关性(序列相关)。这意味着回归模型的标准误差可能被低估,导致我们对显著性的判断过于乐观(即p值看起来比实际更小)。在更严谨的量化研究中,必须使用能够处理时间序列特性的方法,如 Newey-West 标准误修正或使用自回归模型。