
Sign up to save your podcasts
Or
这一期我们将解读中金2024年的一份研报,『中金量化多因子系列(12):高频因子手册』。
该报告的核心观点是,基于Level 2市场数据(如分钟K线、逐笔成交等)构建的高频价量因子,能够有效捕捉日内交易行为和市场微观结构中的信息,从而在量化选股中获得超额收益 。报告系统性地构建并回测了大量高频因子(79个),旨在为投资者提供一本可供参考的“因子手册” 。
报告将高频因子归纳为八大类别,并发现这些因子普遍具有较高的有效性,尤其是在全市场范围内选股时 。一个关键的结论是,高频因子的有效性通常与股票的市值大小呈现明显的负相关,即在小市值股票中效果更好,而在大盘股(如沪深300成分股)中效果会显著下降 。
## 创新点在哪里?
此报告的创新之处主要体现在其系统性的框架和部分因子的构建方法上:
### 傅里叶变换拥挤度因子
一个显著的创新是利用傅里叶变换技术来构建机构拥挤度指标 。其原理是,机构投资者的大单拆分行为会在成交量序列上形成周期性,通过傅里叶变换可以有效捕捉这种周期性特征,从而量化机构的参与度和拥挤程度 。报告中的 crowd_fftv20_3s_w0_std 因子即是此方法的体现,且表现优秀 。
### 日内QRS动量因子
报告将传统上用于日线级别的QRS(量化强弱体系)动量指标,创新性地应用于日内分钟级别K线数据 。通过计算滚动50根分钟K线的QRS指标,开发出了如 mmt_ols_beta_mean 这样表现优异的日内动量因子 。
### 系统性的因子手册
报告最大的贡献之一是其“手册”式的呈现形式。它将繁杂的高频因子归纳为动量反转、波动性、高阶特征、流动性、量价相关性、筹码分布、拥挤度和资金成交这8大类 ,并对每一类下的多个具体因子进行了详尽的回测和性能比较,为使用者提供了清晰的框架和直接的参考。
### 详尽的回测框架
报告为每个原始因子设计了四种处理方法(期末值、平均值、z-score标准化、标准差) ,并在周度和月度两种调仓频率下进行测试,这种严谨和系统化的检验方式本身也是一种实践创新。
## 运用结论需要什么条件?
要应用该报告的结论,必须满足特定条件,并注意以下几点:
### 数据门槛
所有因子的构建都依赖于高质量的Level 2高频数据,包括逐笔委托、逐笔成交和10档快照数据 。获取和处理这类数据的成本高、难度大,报告指出仅2018年以来的全市场Level 2数据存储空间就可达几十TB 。
### 市值范围
使用者必须注意因子的适用范围。绝大多数因子在大市值股票中的有效性会大幅减弱 。例如,报告会特别指出在沪深300范围内哪个因子的表现相对更好,这通常与在全市场表现最好的因子不同 。
### 市场环境变化风险
报告明确指出,高频因子的逻辑容易受到投资者结构和交易规则变化的影响 。这意味着历史上有效的因子,在未来市场风格或规则改变后可能失效。
### 回测非未来收益保证
报告在“风险提示”中强调,所有结论都基于历史数据回测,无法确保因子在样本外的未来表现 。这是所有量化策略应用时都必须牢记的核心风险。
### 因子拥挤度
虽然报告认为高频因子由于开发门槛高,拥挤度相对较低 ,但随着时间的推移和技术的普及,这种优势可能会减弱。
这一期我们将解读中金2024年的一份研报,『中金量化多因子系列(12):高频因子手册』。
该报告的核心观点是,基于Level 2市场数据(如分钟K线、逐笔成交等)构建的高频价量因子,能够有效捕捉日内交易行为和市场微观结构中的信息,从而在量化选股中获得超额收益 。报告系统性地构建并回测了大量高频因子(79个),旨在为投资者提供一本可供参考的“因子手册” 。
报告将高频因子归纳为八大类别,并发现这些因子普遍具有较高的有效性,尤其是在全市场范围内选股时 。一个关键的结论是,高频因子的有效性通常与股票的市值大小呈现明显的负相关,即在小市值股票中效果更好,而在大盘股(如沪深300成分股)中效果会显著下降 。
## 创新点在哪里?
此报告的创新之处主要体现在其系统性的框架和部分因子的构建方法上:
### 傅里叶变换拥挤度因子
一个显著的创新是利用傅里叶变换技术来构建机构拥挤度指标 。其原理是,机构投资者的大单拆分行为会在成交量序列上形成周期性,通过傅里叶变换可以有效捕捉这种周期性特征,从而量化机构的参与度和拥挤程度 。报告中的 crowd_fftv20_3s_w0_std 因子即是此方法的体现,且表现优秀 。
### 日内QRS动量因子
报告将传统上用于日线级别的QRS(量化强弱体系)动量指标,创新性地应用于日内分钟级别K线数据 。通过计算滚动50根分钟K线的QRS指标,开发出了如 mmt_ols_beta_mean 这样表现优异的日内动量因子 。
### 系统性的因子手册
报告最大的贡献之一是其“手册”式的呈现形式。它将繁杂的高频因子归纳为动量反转、波动性、高阶特征、流动性、量价相关性、筹码分布、拥挤度和资金成交这8大类 ,并对每一类下的多个具体因子进行了详尽的回测和性能比较,为使用者提供了清晰的框架和直接的参考。
### 详尽的回测框架
报告为每个原始因子设计了四种处理方法(期末值、平均值、z-score标准化、标准差) ,并在周度和月度两种调仓频率下进行测试,这种严谨和系统化的检验方式本身也是一种实践创新。
## 运用结论需要什么条件?
要应用该报告的结论,必须满足特定条件,并注意以下几点:
### 数据门槛
所有因子的构建都依赖于高质量的Level 2高频数据,包括逐笔委托、逐笔成交和10档快照数据 。获取和处理这类数据的成本高、难度大,报告指出仅2018年以来的全市场Level 2数据存储空间就可达几十TB 。
### 市值范围
使用者必须注意因子的适用范围。绝大多数因子在大市值股票中的有效性会大幅减弱 。例如,报告会特别指出在沪深300范围内哪个因子的表现相对更好,这通常与在全市场表现最好的因子不同 。
### 市场环境变化风险
报告明确指出,高频因子的逻辑容易受到投资者结构和交易规则变化的影响 。这意味着历史上有效的因子,在未来市场风格或规则改变后可能失效。
### 回测非未来收益保证
报告在“风险提示”中强调,所有结论都基于历史数据回测,无法确保因子在样本外的未来表现 。这是所有量化策略应用时都必须牢记的核心风险。
### 因子拥挤度
虽然报告认为高频因子由于开发门槛高,拥挤度相对较低 ,但随着时间的推移和技术的普及,这种优势可能会减弱。