本报告针对海量金融数据带来的维度灾难与过拟合难题,提出了稀疏优化模型的解决方案,并拓展了剪接交换算法以进行高效求解。与传统方法相比,该方案能直接控制保留的变量数量,且大幅缓解估计偏差与计算效率低等问题。该算法通过迭代剔除低贡献度变量并纳入高重要性变量,在一定条件下可有效逼近全局最优子集,为量化投研提供了一个计算高效、可解释性强的通用框架。
特征重要性的经济含义与算法的“白盒”可解释性:稀疏优化不仅能够输出简洁的变量组合,其自身底层剪接交换算法的每一步迭代也具备直观经济学直觉,使模型决策透明可追溯:
场景一:稀疏指数复制。 针对中证2000指数,稀疏优化方法由市场协方差结构驱动,无需人工预设分组,从而减少主观偏差。回测表明,该方法仅需持有基准约25%至35%的成分股(500至700只),即可将年化跟踪误差控制在2.44%的较低水平,在大幅降低调仓与管理成本的同时,实现了较高的跟踪精度。
场景二:多因子组合。在高维候选因子库中,基于稀疏优化的线性回归框架自动剔除共线性与冗余因子,直接输出最优少数因子组合。全市场回测显示,限制保留20个核心因子的稀疏模型,多空组合年化收益率达75.36%、夏普比率达4.95,在沪深300、中证500、中证1000等宽基股票池中,预测稳健性与风险收益表现均显著优于传统单因子IC筛选基准。
场景三:非线性特征筛选。针对复杂市场环境,创新融合稀疏优化与希尔伯特-施密特独立性准则(HSIC),在最大化非线性相关性的同时最小化特征冗余。以XGBoost模型与中证500增强策略为例,特征筛选技术将两类策略相对夏普比率由0.9与1.09提升至1.39与1.45,同时显著降低最大回撤。
风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险。
在当前的量化投资实践中,研究员需面对海量高维金融数据:A股市场超过5000只股票、成千上万个技术与基本面因子、数百个宏观经济指标、实时高频订单流数据等。如何高效地从这海量信息中精准提炼出真正驱动信息的少数核心信号,同时避免模型过度拟合、控制实际交易成本、并让投资决策具备清晰的可解释性?本文将以稀疏优化(Sparse Optimization)这一方法论为核心,探讨指数复制、因子组合与特征筛选三大问题场景的解决方案。
稀疏优化不仅是一种数学建模技巧,更是金融大数据时代应对高维挑战的关键方法论。它在严格控制模型参数非零个数(即稀疏度)的前提下,追求损失函数的最小化,从而实现“用较少的变量,解释数据最本质的模式”。相比传统全量回归(使用全部的数千只股票或因子),稀疏优化能将持仓或特征数量进行高效的自适应压缩,却依然保持甚至超越原有预测精度。这将会对投研流程带来直接的优势:
1. 破解维度灾难与过拟合:在部分任务中,如指数复制,样本量(回看的历史交易日)可能只有数百,而变量维度(股票数)却可能远超样本量。在这种高维回归中,传统方法极易陷入过拟合,缺乏稳健的泛化性能。
2. 重塑投资可解释性:稀疏模型可以输出类似“就是这5个因子、这30只股票在主导主要的收益风险特征”的结果,使得基金经理、风控、合规部门不再面对“黑箱”,让决策更加透明、易于理解、便于沟通。
本质上,稀疏优化体现了“少即是多”的建模原则:在最小化损失的同时,对模型参数的非零个数进行硬约束
。一方面,该方法将“少即是多”的哲学贯穿于量化全流程的算法实践;另一方面,本文提出的稀疏优化不同于传统的Lasso等统计正则化方法,在有效性、统计效率、计算效率、超参数简约与易调性上均具有显著的优势。无论是在指数复制、多因子选股还是高频信号挖掘场景中,稀疏优化都是极具理论与实践价值的方法论,我们希望能为现有投研流程提供一个高效、可嵌入的稀疏优化框架。
本文结构安排如下:
稀疏优化模型与剪接交换算法:第二章系统阐述稀疏优化模型的数学本质、现有解决方案的局限性,并重点介绍剪接交换算法的核心原理及其拓展。同时,结合量化投资实际需求,清晰说明该算法在稀疏指数复制、多因子组合与非线性特征筛选三大核心场景中的经济含义与直观变量重要性解读,为后续实证章节奠定坚实的理论与算法基础;
稀疏指数复制:第三章以中证2000指数为对象,详细介绍稀疏复制组合的构建流程与性能测试,并通过与主流2000ETF产品的对比,全面验证该方法的实现成本与跟踪精度优势;
多因子组合:第四章转向多因子组合,构建基于剪接交换算法的稀疏线性回归模型,进行全市场与分股票池的回测分析。通过RankIC与分位数组合绩效等指标,展示稀疏优化相较传统单因子IC筛选在预测稳健性与风险收益表现上的优势,为多因子策略提供高效的自动筛选新范式;
非线性特征筛选:第五章则突破线性局限,提出基于稀疏HSIC模型的非线性特征筛选技术,并与XGBoost结合。对全市场与指数增强策略开展回测与分年度表现分析,深入评估非线性筛选在不同市值风格下的增益效果与时序稳健性。
第六章对全文进行总结,提炼三大应用场景的核心结论与实证亮点,并对稀疏优化未来的应用场景进行展望。第七章列示主要参考文献。
本章主要介绍了稀疏优化的基本思想与求解方法。首先,我们回顾了稀疏建模的经典方法如Lasso,并指出其在变量数量控制、参数偏差与稳定性方面的局限。随后,本文提出了能够直接求解L0稀疏问题的剪接交换算法,该算法通过“剪接+交换”的局部搜索机制,在保持计算效率的同时逼近最优变量子集。
在现代量化投资研究中,数据规模与特征维度持续快速扩张:A 股市场上市公司数量已超过 5000 家,常见因子库往往包含数百至上千个候选因子,高频交易数据更可产生数以万计的潜在特征。在这种高维数据环境(High-Dimensional Setting)下,如何从海量变量中筛选出真正具有信息含量的少数关键变量,成为量化建模的核心问题之一。
尽管 Lasso 在实践中非常流行,但其本质上仍是对稀疏优化问题的一种近似,其在金融数据环境中存在若干重要局限:
无法直接控制变量数量:Lasso的稀疏度由惩罚参数λ间接决定,而不是直接指定变量个数s。在实际应用中,研究员往往需要通过交叉验证反复调参,才能获得期望数量的变量,这在高维场景下成本非常高。
参数收缩偏差:由于L1惩罚会持续收缩所有参数,Lasso得到的系数往往存在系统性偏差。在金融建模中,这种偏差可能导致:因子收益率估计偏低、投资组合权重被过度压缩等问题,从而影响模型解释性与投资效果。
变量选择稳定性不足:在存在强相关变量时,Lasso往往随机选择其中一个变量,而忽略其他等价变量。这在金融数据中尤为常见,例如:行业因子之间高度相关、技术指标之间高度共线,因此模型结果可能缺乏稳定性。
统计效率较低:从理论角度看,在满足一定条件下,直接求解L0稀疏问题可以获得更优的统计效率。因此,近年来统计学习领域逐渐重新关注直接求解 L0稀疏优化问题的方法。
本节将介绍的剪接交换(Splicing Iteration)算法正是为这一“不可能任务”量身打造的高效求解利器。其核心思想如下:从一个初始支撑集(当前选中的少数变量)出发,迭代进行“剪接交换”操作——先剔除当前支撑集中贡献度最低的变量,再从剩余变量中挑选梯度(重要性得分)最高的变量“交换”进来,然后在新支撑集上快速求解一个普通的凸优化子问题(如无约束最小二乘)。这一“剔除+纳入”的循环反复进行,直至损失函数收敛。
该算法的核心优势在于:每次迭代只需在极小维度(s<
1. 剪接交换算法
本节将对剪接交换算法的核心思想与数学原理进行简要介绍,该算法最早由Zhu等人于2020年提出,并随后在应用范围与工程落地上均得到了持续的发展,现在已成为解决此类稀疏约束问题的一类标准算法。剪接交换算法通过迭代地“剔除”贡献度低的特征并“纳入”潜在的重要特征,实现局部最优解的高效逼近。Zhu等人于2020年的工作主要考虑无固有限制情形,本报告结合量化投资中的实际场景,对剪接交换算法进行拓展,以支持非负、和为1的情形。
在一般情形下,剪接交换算法的基本流程可以总结如下:
总结而言,该算法通过维护一个固定大小的候选变量集,反复进行“评估-交换”来逐步逼近最优解:先在当前候选集上求解一个低维优化问题,然后根据系数大小淘汰候选集内最不重要的变量,同时根据梯度信息从候选集外引入最有潜力的新变量。这个过程迭代进行,直到目标函数收敛,最终找到一组重要变量,从而实现模型稀疏化。
在实际生产环境中,剪接交换算法已在abess与skscope开源Python库中实现高效求解,大幅提升了工程落地效率。
总的来说,本文在Zhu等人2020年经典剪接交换算法基础上,针对金融领域的独特约束(非负权重、权重和为1的单纯形)进行了关键拓展,打造出一套专为金融高维场景量身定制的剪接交换算法。具体而言,我们
不再使用Lasso等方法的凸近似方法,而是直接求解L0稀疏优化问题。相比现有的解决方案,这一做法主要优势如下:
直观可控:可以直接指定稀疏度,无需反复交叉验证调参;
统计高效:避免近似方法带来的估计偏差,在理论上更接近最优子集选择;
计算高效:每次迭代仅在低维空间求解优化问题,速度较传统遍历搜索或混合整数规划提升数百倍;
广泛适用性:扩展后的算法能够处理更一般的非负/和为1等约束,这使得该方法可以应用到金融领域中多数常见的问题中;
强可解释性:底层算法的每一次迭代都有着直观的经济学解释——在指数复制中,它自动挑选与基准残差协方差最大的成分股;在多因子组合中,它捕捉当前模型未能解释的残差收益,实现自动因子发现;而在非线性HSIC筛选中,它挖掘核空间里隐藏的复杂依赖,捕捉线性模型容易忽视的金融异象。
2. 重要应用场景
在量化投资研究中,剪接交换算法可以作为一种通用工具与框架,嵌入到多种核心建模任务中。后续我们将围绕该方法论在量化投资领域中的应用展开一系列尝试,而本报告是首篇。本文重点讨论三个具有代表性的应用场景:稀疏指数复制、多因子组合与特征筛选,并将剪接交换算法的核心细节与具体问题相结合,给出数学公式背后相应的经济学含义,以增加算法的直观理解性与可解释性。
为直观对比三大应用场景的核心要素,我们在下述表格对其进行简要总结。稀疏优化在不同场景下虽损失函数与固有约束形式各异,但均通过剪接交换算法实现了“直接控制稀疏度+高效变量交换”的统一框架,为指数复制、多因子选股和非线性特征工程提供了高效、可解释的通用解决方案。
得益于其良好的统计理论性质与实际计算性能,剪接交换算法可以作为一个通用工具嵌入量化研究流程,并在指数复制、多因子组合以及非线性特征筛选等核心任务中发挥重要作用。后续章节将对三个场景的技术细节展开详细介绍,并通过实证分析,展示稀疏优化方法在实际投资场景中的应用效果。
指数化投资作为量化配置的重要基石,在中证2000等成分股极多、流动性差异大的宽基指数上面临严峻挑战:完全复制策略虽精度高但调仓成本与管理难度极大;传统抽样复制则高度依赖行业/市值等人工分组经验,易在市场风格切换时产生显著的主观偏差与信息损失。
本章提出基于剪接交换算法的稀疏指数复制框架,通过将“最优成分股筛选”与“权重分配”整合进统一的稀疏优化模型中,实现了由数据驱动、自适应匹配市场协方差结构的智能化跟踪,为高维指数的低成本复制提供了高效解决方案。
1. 指数复制的稀疏优化模型
传统复制方法往往在“分组”与“优化”之间存在流程割裂,类比于我们多因子经常先做复合Alpha因子,再通过组合优化得到持仓。稀疏优化则提供了一套数据驱动的解决方案:在给定稀疏度(例如只保留500只股票)约束下,直接以最小化跟踪误差为目标,同时完成“最优股票子集选择”与“权重最优分配”,类比于现在比较流行的端到端的策略组合构建范式。
3. 稀疏复制组合构建
为了评估稀疏指数复制方法的实际效果,我们以中证2000指数为例进行回测分析。具体复制流程如下:
每月末调仓(首个调仓日:2014年1月30日):获取中证2000指数最新成分股名单及官方权重;
协方差估计:采用过去一年(252个交易日)滚动窗口的历史收益率,运用Ledoit-Wolf收缩方法估计样本协方差矩阵,有效缓解高维估计偏差;
稀疏优化求解:设定稀疏度s(分别对应持仓500只、600只、700只,即基准成分股总数的约25%、30%、35%),运行剪接交换算法,直接输出满足单纯形约束的最优稀疏权重向量;
市值分组变体:额外构造市值分组变体,评估全局优化(1分组)与人工分组优化(多分组)的效果差异。具体而言,以k分组为例:对全部2000只成份股按照自由流通市值等分为k组(每组内部权重缩放至和为1),然后再每一组内根据稀疏优化方法选出s/k只股票,最后将各分组选出的股票取并集,即为最终的稀疏复制组合。
传统抽样复制策略:此外,我们也与传统分层抽样方法进行比较。该方法首先将所有成份股按照中信一级行业进行分层,每个行业的抽样个数等于该行业的成份权重和与总抽样个数的乘积(需进行取整与残差分配处理);然后在每个行业内再按照自由流通市值等分为5组,并在这5个市值组内等量抽取,以保证市值分布相对均衡。
回测结果显示,稀疏优化方法展现出了极高的精度与成本优势:随着持仓数量增加,年化跟踪误差从500只持仓时的3.11%平稳降至700只时的2.44%。这符合“更多匹配节点、更优协方差覆盖”的经济逻辑。
与此同时,回测结果也发现全局优化优于人工分组:全局无分组(1 分组)方案在不同稀疏水平下均表现最优(如30%水平下1分组误差为2.75%,优于4分组的3.06%与5分组的2.84%)。这也证明剪接交换算法能够精准提取市场内在结构,无需额外的人工干预。
从不同参数结果来看,基于稀疏优化的指数复制方案,均相较于传统抽样复制方法有着显著的精度改善。
从滚动跟踪误差来看,以“复制组合-35%-1分组”为例,曲线在多数时间内保持平稳,仅在少数市场剧烈波动或风格剧烈切换时期出现短暂抬升,整体未出现系统性漂移,体现了模型对市场动态变化的良好适应力。
从组合净值走势来看,稀疏复制组合也与中证2000保持了高度一致的走势。
考虑到早期中证2000ETF产品的数量较少,我们将该方案与市场上主流中证 2000 ETF 产品在2025年的表现进行横向对比。可以发现:在持仓数量仅为700只(占比35%)的情况下,稀疏优化组合的跟踪精度排名前列,优于绝大多数持仓更多的同类产品。
总的来说, 稀疏指数复制凭借剪接交换算法的高效求解能力,在中证2000这类高难度宽基指数上,以远少于基准的持仓实现了高精准的跟踪。这不仅大幅降低了底层的管理与调仓成本,更为机构投资者提供了兼具可解释性与实操性的降本增效新工具。
多因子模型是量化投资的核心框架之一,但在候选因子库规模庞大(数百至上千个)、共线性严重、噪声与时变性突出的现实环境下,如何高效筛选出真正具有预测力的少数核心因子,并赋予最优权重,是长期困扰业界的关键难题。传统动态筛选方法虽能通过单因子RankIC与相关系数阈值挑选因子,却往往依赖经验参数、忽略因子间联合预测能力,且易陷入局部最优。
本章提出基于剪接交换算法的稀疏线性回归模型,实现可直接控制稀疏度的联合优化因子选择,在全市场及主流宽基指数池中展现出显著优于传统筛选方法的预测稳健性与风险收益表现,为多因子策略提供高效、自动、可解释的新范式。
这意味着无论因子与残差呈正相关还是负相关,只要相关性强度足够高,即被视为具有边际预测能力。从经济角度看,这一指标具有非常直观的含义:若某个候选因子与当前模型残差高度相关,则意味着该因子捕捉到了现有因子组合尚未解释的收益结构。在横截面资产定价的视角下,这说明该因子可能代表了一类新的风险补偿来源或市场定价特征,例如价值、动量或质量之外的额外收益驱动因素。所以,梯度绝对值越大,意味着:
该因子能够显著解释当前模型遗漏的收益结构;
将该因子加入模型后,可以明显降低预测误差;
该因子在当前市场环境中具有更强的边际定价能力。
换言之,稀疏优化算法实际上是在执行一种自适应的因子发现过程:每一步都寻找能够最大程度解释“未被定价收益”的新因子,并剔除解释能力最弱的因子。相比传统依赖人工筛选或经验判断的因子选择方法,这一过程完全基于数据中的收益结构自动完成,使最终得到的因子组合不仅更加稳健,也更具清晰的经济解释。
3. 稀疏线性回归模型构建
为全面评估稀疏优化模型的实际表现,我们在全市场、沪深300、中证500、中证1000四个股票池上开展完整回测。在针对沪深300和中证500指数的分位数组合测试中,我们设置五分组测试;在中证1000和全市场测试中,我们的分组设置为10分组。后续如无特殊说明,因子回测均采用上述测试方法。
1. 合成因子RankIC表现
下表显示,在全市场层面,稀疏优化方法与Lasso回归方法的RankIC均值均为0.105,高于基准0.103;但Lasso回归方法的ICIR表现较差,仅为0.852;相较而言,稀疏优化方法则为0.919,显著高于其他两个方法,体现出更强的预测稳健性。
在三大宽基指数池中,ICIR同样全面领先其他两个方法。这充分验证了剪接交换算法在联合优化下的统计效率优势:不仅捕捉更多边际增量信号,还有效剔除冗余因子,避免传统筛选的伪相关陷阱。
2. 分位数组合绩效
全市场多空(L-S)组合结果进一步印证优势进一步检验了稀疏优化方法的性能:稀疏优化方法年化收益率75.36%、夏普比率4.95;Lasso回归方法年化收益率66.20%、夏普比率4.01;基准方法则分别为65.77%与4.09。年化超额收益接近基准的1.2倍。
分股票池看,同样展现出稳健的优势:
沪深300:L-S Sharpe 0.73 vs 0.61/0.69,年化超额收益率2.69% vs 1.45%/2.30%,稀疏优化方法在大盘蓝筹股票池中仍能挖掘额外alpha;
中证500:L-S Sharpe 1.29 vs 0.95/0.97,年化超额收益率7.22% vs 3.71%/4.08%,相对Lasso回归与基准基准方法也有明显提升;
中证1000:L-S Sharpe 3.45 vs 2.84/2.88,年化超额收益率44.02% vs 37.01%/36.44%,中小盘alpha捕获能力尤为突出。
回测结果表明,稀疏优化方法在四个股票池上均实现了“更高收益、更低风险、更稳健排序”的三重提升,核心原因在于:该方法的联合优化优于单因子IC筛选,能够显著提升因子正交性与边际贡献。
总的来看,稀疏线性回归模型不仅在预测精度(RankIC)上领先,更在分位数组合绩效上展现明显的优势,为多因子组合策略提供了高效、可解释、可落地的全新范式。下一章将进一步拓展至非线性特征筛选,以期突破线性的信息瓶颈。
在前文的研究中,我们基于稀疏优化框架构建了高效的特征筛选方法,有效缓解了因子冗余问题。然而,金融市场中的信息关系往往呈现出显著的非线性特征。传统依赖线性相关或回归系数的筛选方法,难以充分刻画这些复杂结构,从而可能导致具有预测价值的特征被忽略。
为进一步提升模型的信息捕捉能力,本章在前述稀疏优化框架基础上,引入Hilbert–Schmidt Independence Criterion(HSIC)作为非线性依赖度量,并结合剪接交换算法,实现高维非线性特征的高效筛选。通过该方法,我们能够在保持稀疏性的同时,更全面地识别与收益变量存在复杂依赖关系的特征。
在此基础上,我们将筛选后的特征输入机器学习模型进行验证,并评估其对预测能力的提升效果。
1. 基于HSIC的稀疏特征筛选模型
在传统特征选择中,最常见的依赖度量是相关系数或线性回归系数。然而,这类指标仅能刻画线性关系,而忽略更复杂的统计依赖结构。
HSIC是一种基于再生核希尔伯特空间(RKHS)的统计依赖度量方法,其核心思想是通过核函数将变量映射到高维特征空间,从而捕捉更加一般的非线性关系。HSIC的定义为:
2. 大规模计算问题与Bagging Block HSIC
从经济视角看,这意味着:负梯度越大,该因子在RKHS中对“未解释的非线性依赖残差”贡献的边际缩减幅度越大。它捕捉的正是线性模型完全遗漏的金融异象,这些信号在传统皮尔逊相关或线性回归中可能会被“隐形”,而在核方法下却能够被精准量化。算法的每一步都优先纳入能够最大程度填补RKHS中“隐藏依赖残差”的特征,同时剔除贡献最弱者。非负权重约束进一步保证每个因子的贡献是可累加、可解释的核展开(避免不同核之间的相互抵消)。相比线性回归(仅解释“未定价线性收益”),稀疏HSIC从仅刻画线性相关扩展至捕捉更一般的非线性依赖关系:它让模型能够捕捉线性方法难以识别的非线性依赖关系,为下游XGBoost等模型注入真正独特、正交的非线性特征,从而显著突破线性因子的信息瓶颈,提升泛化能力。
4. 基于特征筛选的XGBoost收益率预测模型
在本研究中,我们共使用220个候选特征,其中约70个因子来源于分钟级高频数据;其余因子基于日度及低频数据构建,因子风格涵盖价值、成长、质量、情绪、动量反转和另类。标签设定考虑两种情形:未来5日收益率与未来10日收益率。本章的测试结果主要展示稀疏度设定为s=160,即从 220 个候选特征中保留约70%的最具信息含量的特征子集。同时,我们也针对稀疏度参数的不同取值,进行了敏感性测试。
在时间维度上,我们采用扩张窗口训练方式:样本起始时间为2015 年;每50周重新执行一次特征筛选,使用截至当前时间的全部历史数据进行训练与筛选。这一设计可以保证模型在长期数据中持续学习,同时避免未来信息泄露。
在完成非线性特征筛选之后,我们进一步结合此前研究《基于树模型的分组优化与风格约束改进—机器学习系列七》提出的对抗训练下的XGBoost 模型进行收益预测。该模型以控制市值、流动性和特质性波动率作为训练方式进行对抗训练。
为了评估非线性特征筛选对机器学习模型预测能力的影响,我们分别构建了四种模型进行比较。两类模型分别使用未来5日收益率和未来10日收益率作为预测标签,同时对比使用全部220个特征的基准模型以及使用筛选后160个特征的模型(针对于160的参数,后续会有敏感性分析)。其中benchmark模型使用全部特征,而fctSelected模型仅使用筛选后的非线性特征。通过这种设计,可以直接检验非线性特征筛选在不同预测周期下对模型表现的影响。
1. 非线性筛选因子预测能力
从横截面预测能力来看,非线性特征筛选在多数股票池中均带来了预测稳定性的提升。以未来5日收益预测为例,在全市场股票池中,筛选后模型的ICIR从1.062 提升至1.120;中证500股票池中,ICIR从0.584提升至0.677。在沪深300与中证1000股票池中,ICIR 也均出现不同程度的提升。这表明通过 HSIC 方法筛选出的特征集合在信息密度与稳定性方面均有所改善。
在rtn10D标签下,特征筛选技术仍然对大部分股票池带来了改善。在中证500股票池中,ICIR 从0.607提升至0.626,在中证1000股票池中则从0.871提升至0.892。尽管这一情形下,并未对沪深300股票池预测信号的平均强度带来显著改善,但其依然能够在一定程度上降低预测波动;整体而言,筛选后的特征集合的表现相对优于全特征基准。
2. 非线性筛选因子全市场分位数组合表现
从全市场分位数组合的表现进一步印证了特征筛选带来的增益效果。以多空组合夏普比率为例,rtn5D与rtn10D分别由6.13与5.93提升至6.74与6.00,最大回撤亦同步下降,风险收益结构优化明显。
3.非线性筛选因子敏感性测试
以rtn5D为例,我们对稀疏度参数s进行了敏感性测试,对比分析s取值120至200时对应的因子ICIR表现。从全市场和分股票池的测试结果来看,ICIR随着稀疏度s的增加,整体上呈现出先增后减的趋势。这一现象可能的原因如下:随着纳入的因子增加,信息量初期增益显著,ICIR也随之升高;但当纳入的因子数量超过一定阈值后,信息冗余与噪声开始显现,ICIR便难以进一步提升,甚至出现下降。在实际应用中,最优稀疏度s的选择,需要根据特征规模以及冗余程度动态调整。
为进一步验证实用价值, 我们在下文中进行针对沪深300、中证500和中证1000的增强测试,进一步探究因子的表现以及优劣。对于各个增强测试,我们采用相似的约束条件进行回测,具体设定如下:
个股权重偏离:个股相对基准权重偏离±1.5/1.0%/0.5%;
行业权重偏离:中信行业相对基准权重偏离±2.0/1.5/1.0%;
风格暴露偏离:风格因子Size和Beta相对基准偏离±0.2/0.15/0.1倍标准差;
成分股约束:成分股个数占比大于80%;
换手率约束:调仓双边换手率小于40/60%;
回测设定:周度调仓,回测区间上我们分别测试2020年至2025年12月底;
样本空间:剔除当期不在市、特殊处理以及涨跌停的股票;
交易成本:买入千分之一,卖出千分之二,共计千分之三。
为简洁起见,下述测试固定稀疏度为s=160。
1. 沪深300指数增强测试
以stylePenalty-rtn5D-fctSelected-160因子为例,下述图表分别展示了其在沪深300上的增强测试净值走势与相对(沪深300)净值的分年度统计结果。从分年度表现来看,该因子表现非常稳定,全时段年化超额收益率约为6.93%,月度胜率63.89%,周度胜率59.55%;在2020至2025年回测区间内,所有年份最大回撤均小于6%,风控表现优异。
对比特征筛选流程对预测模型的影响,从回测结果来看,用5日收益率作为标签,使用筛选后特征的模型在年化收益、Sharpe比率等指标上,相较基准模型均具有明显的优势;而在以10日收益率作为标签的情形中,整体表现则与未进行特征筛选的基准模型基本处于同一水平区间,这也与上一节的RankIC测试结果一致。
从分年度相对表现来看,非线性筛选因子在沪深300股票池存在一定的改善但并不显著,与全局测试结果一致。产生这一现象的一个可能原因在于,本研究中的特征筛选过程是基于全市场股票样本完成的,而在全市场样本中,小市值股票数量占比更高,因此模型在筛选阶段更容易捕捉到适用于中小市值股票的非线性信号。相比之下,沪深300成分股整体市值较大、行业分布相对稳定、交易结构更加成熟,其收益生成机制与中小市值股票存在一定差异,因此在全市场样本中筛选得到的特征未必完全适用于该股票池。
2. 中证500指数增强测试
同样以stylePenalty-rtn5D-fctSelected-160为例,下述图表分别展示了其在中证500上的增强测试净值与相对净值的分年度统计结果。从分年度表现来看,该因子表现稳定,全时段年化超额收益率约为8.29%,月度胜率63.38%,周度胜率61.49%;在2020至2025年回测区间内,所有年份最大回撤均小于5%,风控表现较优。
关于特征筛选对预测模型的影响,在中证500指数股票池中,非线性特征筛选则为模型表现带来了明显的改善。从回测结果来看,在加入特征筛选流程后,两类不同标签的组合夏普比率分别从0.9与1.09提升至1.39与1.45。同时最大回撤也有所下降,整体风险收益结构得到优化。
在中证500增强的分年度表现结果中,非线性筛选因子的优势则非常明显。在绝大多数年份,筛选后的模型均稳定跑赢使用全部特征的模型。
3. 中证1000指数增强测试
在中证1000上,下述图表分别展示了stylePenalty-rtn5D-fctSelected-160因子的增强测试净值走势与相对净值的分年度统计结果。从分年度表现来看,该因子表现非常稳定,全时段年化超额收益率约为11.38%,月度胜率73.61%,周度胜率59.24%;在2020至2025年回测区间内,所有年份最大回撤均小于5%,风控表现优异。
进一步观察,特征筛选流程在中证1000股票池中对预测模型的增益效果,可以发现其同样表现出较好的效果。回测结果显示,筛选后模型在收益率和风险调整收益指标上均略优于未经筛选的基准模型,组合整体表现更加稳定。夏普比率分别从1.78与2.15提升至1.93与2.22。
分年度表现显示,筛选因子的领先优势同样突出且更为稳定。作为中小盘代表指数,中证1000的非线性信号密度更高,稀疏HSIC筛选有效剔除了冗余线性特征,注入的非线性因子对XGBoost模型的泛化能力带来一定的改进。
总的来说,非线性稀疏HSIC特征筛选在预测精度、分位数组合及指数增强全场景下均展现稳健增益,尤其在中证500与中证1000等股票池中效果突出。实际投研中,该框架可无缝嵌入现有机器学习流程,为复杂市场环境下的alpha挖掘提供高效、可解释的通用解决方案。
本文系统阐述了稀疏优化在量化投资中的方法论价值,并通过剪接交换算法的高效求解框架,成功破解了维度灾难、过拟合与可解释性等核心痛点。在指数复制、多因子组合、非线性特征筛选三大场景中,该框架均实现了“少即是多”的建模哲学,以极低复杂度换取甚至超越全量模型的预测精度与经济直觉。
实证回测结果充分验证了其落地优势:
稀疏指数复制:针对中证2000,仅用25%~35%成分股即可将年化跟踪误差控制在2.44%,大幅降低管理与换手成本,同时摆脱人工分组的主观偏差;
多因子组合:稀疏线性回归直接控制因子数量,有效剔除冗余,在全市场及三大宽基池中实现RankIC与分位数组合绩效的双提升——全市场多空夏普比率达4.95、多空年化超额收益率54.42%,联合优化优势显著;
非线性特征筛选:基于稀疏HSIC的方法突破线性瓶颈,精准捕捉核空间隐藏依赖,与XGBoost结合后,以中证1000增强策略为例,将相对夏普比率分别提升至1.93~2.22,风控表现同步优化,为复杂异象挖掘提供正交、高信息密度的非线性信号。
展望未来,随着计算资源持续提升与算法迭代加速,稀疏优化有望进一步拓展至高频订单流挖掘、另类文本/图像数据处理、风险模型以及战胜偏股基金指数等领域。其直接控制稀疏度、白盒可解释性与高求解效率三大特性,将使其成为量化投研的高效框架。我们期待未来有更多研究将剪接交换算法嵌入建模流程,为实际投资中的高维求解痛点提供可靠、高效、可解释的解决方案。
风险提示:模型结果基于历史数据的测算,在市场环境转变时模型存在失效的风险。
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《基于剪接交换算法的稀疏学习——机器学习系列十》。
对外发布时间:2026年4月6日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
--------------------------------------
分析师:郑兆磊
SAC执业证书编号:S0190520080006
分析师:陈子轩
SAC执业证书编号:S0190524120001
--------------------------------------
更多量化最新资讯和研究成果,欢迎关注我们的微信公众平台(微信号:XYQuantResearch)!