人工智能与量化投资--基于机器学习的投资策略的五个教训


人工智能与量化投资--基于机器学习的投资策略的五个教训

最近的几篇文章认为,金融市场对于应用机器学习(ML)来说是一个糟糕的选择。这些文章着重于市场或股票收益的预测,并列举了这些收益的高斯性质或此类数据的“嘈杂性”作为得出结论的原因。通常,这些都是由数据科学家撰写的,他们毫无疑问对自己的技术有深刻的了解,但是在他们要解决的问题上缺乏专业知识;我相信这些方法在如何解决问题方面存在缺陷。

在资产管理中,我们已经使用数据驱动的“定量”投资策略来管理资产的重要且不断增长的部分。这应该是讨论投资研究中的机器学习的起点。ML应该被定量驱动的个人用作工具,这些人是金融领域的专家,可以使他们的策略更高效,更有利可图。成功引入ML的比较基准应该是ML无法辅助的当前策略。

在定量研究中引入机器学习

无论使用什么软件或系统,建立数据驱动的投资策略都需要执行多个步骤。首先,我们需要收集不同的数据集,例如公司财务,经纪人估计,定价和公司行为,对集团公司的分类数据以及许多不同类型的替代数据,以发现隐藏的信号。然后,需要将这些数据集进行组合,标准化,清除异常值,并将其转变为具有经济直观意义的因素。然后,可以使用分析工具来分析这些因素对股票价格走势的解释程度,以及它们在一段时间内是否具有持续价值。最后,可以使用基于规则的方法或基于风险的优化等更复杂的方法将这些信号转换为投资组合。

ML适合在哪里?ML擅长查找数据模式。我们可以使用它的一种方法是增强我们传统的数据驱动的投资策略,以发现和利用我们因子中的模式。这使我们可以建立模型来解释各种因素下的股票表现。下图显示了该工作流程。

人工智能与量化投资--基于机器学习的投资策略的五个教训


自动化机器学习

困难在于如何选择和实现正确类型的ML 算法。使用像Python或R中可用的免费工具,新手数据科学家会迅速走入迷局,失败的可能性更大。他们没有经验,无法知道什么类型的算法适用于某个问题或如何有效地训练它们。他们很容易陷入一个永恒的循环,即尝​​试使用具有多种不同参数和数据排列的不同算法。

另一方面,雇用经验丰富的数据科学家可能会很昂贵。几乎没有谁具备解决金融市场问题的所有必要技能。您很可能需要三个人:一位数据科学家来测试和验证算法,一位工程师/程序员要在不同的环境中实现这些算法,以及一位了解数据并能够智能地定义问题的专家。

人工智能与量化投资--基于机器学习的投资策略的五个教训


要在ML中取得成功,就需要自动化更多的编程和统计组件。专家需要使用复杂的工具进行授权,使他们能够以最少的产品支持形式从专业数据科学家那里获得最小的帮助来解决这些问题。为了进行分析,我们通过FactSet使用了DataRobot,这使我们能够在将各种模型集成到实际产品组合之前对其进行研究,构建和自动化。

建立和测试我们的模型

为了表明ML可用于增强传统的量化因子,我们建立了中国A股的股票预测模型。我们为2012年12月至2019年8月编制了CSI 800指数的股票表现和不同因子数据的月度快照。我们将目标变量设置为股票的未来一个月收益,并使用原始投资组合模型中的因子。

人工智能与量化投资--基于机器学习的投资策略的五个教训


通过“适者生存”过程,我们针对该问题系统地测试了数十种不同的算法和预处理排列。首先,我们使用一部分历史数据来训练每个模型,然后在之前未曾见过的数据上测试该模型以确定其有效性。然后,通过不同的方法或优化指标对所有模型进行排名,以确定针对给定问题的最佳模型。

对我们的模型进行评估后,我们从前三个模型中获取了预测,并将其重新纳入了我们的分析模型。我们建立了均等加权的投资组合,在其中我们购买了预测的前20%,并出售了预测的后20%。然后,我们将这些投资组合与更传统的基于因子的投资组合进行了分析。下图显示了这些不同投资组合的回报。

人工智能与量化投资--基于机器学习的投资策略的五个教训

第1课-不要混淆样本内和样本外

乍一看,我们基于ML的策略似乎大大优于传统策略。但这是因为我们专注于整个时期。相反,我们只需要使用尚未经过算法训练或验证的新数据来分析这些模型,以确保该策略将来能够成功。

不幸的是,如果我们将样本内结果与保留(样本外)结果进行比较,那么基于ML的模型几乎无法胜过其传统伙伴。在一种情况下,它实际上表现很差。因此,ML在训练和验证期间非常出色地建模了因子行为,但是这种性能并不能用真正的钱持续下去。这使我们回到了有关将ML应用于投资的一些原始批评。我们可以通过以下几点精心构建我们的问题来解决这些问题。

人工智能与量化投资--基于机器学习的投资策略的五个教训


第2课–屏蔽噪音并一次建模

与ML的典型用例(例如,预测同店销售或个人可能拖欠其银行贷款的可能性)不同,股票收益数据是嘈杂的。众所周知,时间序列财务数据受复杂行为困扰,包括异方差,黑天鹅和长尾依赖。在我们的案例中,我们并不试图预测市场回报,而只是预测要投资的股票。为了最大程度地减少这些现象的影响,我们可以仅关注基准相对性能或同级相对性能,以将噪声降至最低。

第3课–简化问题陈述以产生更好的模型

即使在最小化我们的股票收益中的噪音之后,也无需预测股票收益的连续性。对于典型的多头基金经理来说,只要股票的排名不变,知道实际的股票收益就不会改变他们的行为。如果下个月的股票收益率为10%对11%,您仍然可以购买。切换到基于分类的简单方法,可以使我们在尝试预测实际库存收益时避免过度拟合。

我们试图重新定义问题:一只股票会在指数中排名前30%吗?为了找出答案,我们使用这个新目标重新运行了具有相同数据的相同过程。

如下所示,在样本期内,所有三个基于分类的最佳模型均优于基于回归的模型。重要的是,它们的样本外性能是稳定的:与所有其他因素相比,它是最佳的,并且每个月都非常一致。看来我们可能已经找到了成功的秘诀。

人工智能与量化投资--基于机器学习的投资策略的五个教训


第4课–解释模型与构建模型一样重要

为了在组织中投入资金并最终向客户解释投资策略的优缺点,您必须解释该模型的工作原理。这里的困难在于 ,无论从概念上还是在实践上,这些ML模型都很难理解。

DataRobot为我们提供了告诉我们ML 模型如何工作的工具。下图表示特征影响,本质上是预测变化对特征(或自变量)值变化的敏感性。在这种情况下,我们的模型对价值,流动性,动量和收益增长因素的变化以及公司是否为国有企业(SOE)最为敏感。图表的比例是最重要功能的函数,因此所有其他因素都是根据“价值”的影响进行衡量的。

人工智能与量化投资--基于机器学习的投资策略的五个教训


此图说明了特征与预测的关系。这些可以是并且通常是非线性的。就价值而言,公司的敞口越高,我们模型中的预测就越高。

人工智能与量化投资--基于机器学习的投资策略的五个教训


然后,我们可以从理论到实践的理解,并研究该策略的交易方式。下图显示了该模型推荐的公司的SWS行业。Y轴以1到5的比例显示行业的相对重要性,其中1表示最高,气泡的大小表示观察的频率。我们的模型在购买电子行业的公司时避免了金融和公用事业。

人工智能与量化投资--基于机器学习的投资策略的五个教训


然后,我们根据之前强调的SOE标志将预测分为两组。通过分析每个组中股票收益的相关性,我们发现该模型根据公司是否为国有企业提出了截然不同的建议。对于国有企业,我们的模型更倾向于价值股票,而对于私营公司,我们的模型倾向于对成长型公司进行更多投资。

人工智能与量化投资--基于机器学习的投资策略的五个教训


第5课–尝试多种方法并快速失败

与第3课和第4课有关:您很有可能需要迭代许多不同的方法来找到可以正常工作和推广的东西;我们看到,最初的问题陈述并没有提供我们所需要的样本外信息,因此我们能够快速重新构造问题以获得更好的结果。在迭代过程中,我们使用了DataRobot和FactSet的组合可解释性功能来进一步为我们的建模决策提供依据。举个例子,我们可能会利用我们对模型处理国有企业和非国有企业的不同方式的了解,进一步完善该模型。我们可以说,包括关于国家所有权作为变量的形式的更多信息,甚至可以为国有企业和非国有企业的股票使用不同的数据字段建立单独的模型。同样,我们可能想尝试不同的训练时间,

在这里,有效地对多个问题陈述,输入数据集和目标变量进行建模的能力变得非常有价值。自动ML不仅通过针对给定的建模问题尝试许多不同的ML算法,而且还提高了用户迭代的速度,从而促进了这一点。通过快速构建和评估多个ML模型,用户可以集中精力通过测试关于如何进一步改进其模型和策略的假设,来发挥其领域的专业知识。

只需记住第1课-选择关于样本内验证性能的问题说明,并在部署之前使用样本外保持性能检查其概括性。

结论

此处提供的示例显示了ML的一个用例,该用例用于增强传统上用于管理投资组合的因素。算法的训练和应用只是该过程中几个步骤之一。当我们进行样本外测试时,我们构建并最终选择的模型非常有利可图,并且明显优于传统模型。毫无疑问,在熟练的从业者手中,机器学习是一种强大的工具。但是,在构架问题时需要仔细考虑,以最大程度地减少嘈杂数据的影响和过度拟合的危险。在将ML应用于项目组合管理时,了解ML模型及其构建策略的工作方式也很关键。


分享到:


相關文章: