探索深度强化学习在股票领域的盈利策略財經頭條網

2017-11-20 11:19:01 碼驛

随着GPU计算能力的增强和深层神经网络的突破，人工智能在很多尚未探索的领域获得了应用机会。2017 年，深度学习开始影响金融业。如果你有相关专业的背景，金融领域已经向你打开了大门。

近年来虽然深度学习在理论和实践上都取得了重大的进步，但是在金融界的应用却很少有公开的报道。本头条号——策维推演的宗旨是探索深度强化学习在股票领域的盈利策略。本文仅介绍基础概念，欢迎后续关注！

强化学习是什么

强化学习是多学科多领域交叉的一个产物，它的本质就是解决“决策（decision making）”问题，即学会自动进行决策。在神经科学中，人类研究人脑并发现了一种遵循强化算法的奖励系统。在心理学中，人们研究的经典条件反射和操作性条件反射，也可以被认为是一个强化问题。类似的，在经济学中我们研究理性博弈论；在数学中我们研究运筹学；在工程学中我们研究优化控制。所有的这些问题都可以被认为一种强化学习问题——它们研究同一个主题，即为了实现最佳结果而优化决策。这所有的问题最终都归结为一个问题，人为什么能够做出最优决策，且人类是如何做到的。

深度学习与强化学习

深度学习的出现对机器学习中的许多领域产生了重大影响，大大提高了物体检测、语音识别和语言翻译等任务的state-of-the-art成绩。深度学习最重要的特点在于，深度神经网络可以自动发现高维度数据（例如，图像、文本和音频）的紧凑的低维表示（特征）。通过将推演偏差（inductive biases）融入到神经网络架构中，特别是融入到层次化的表示中。

运用深度学习法训练出具有逻辑分析能力的机器，发挥机器的速度和理性优势。DRL算法已被应用于各种各样的问题，例如机器人技术，创建能够进行元学习（“学会学习”learning to learn）的智能体，这种智能体能泛化处理以前从未见过的复杂视觉环境。

强化学习在股票上的应用例子

股票交易是一个序列决策过程，期间要做出很多的决策，每一个决策动作都要根据当前的股市状态来决定是买，是卖还是观望。假设我们需要在一个单位时间内买入一定数量的股票，我们希望买入的总价尽可能的小。强化学习系统接受环境状态的输入s，也就是剩余的订单量和剩余时间，系统输出相应的最佳动作a，也就是最佳的限价单价格。随着限价单的执行，剩余的订单量会减少，而且剩余时间也会减少，环境就变迁到了新的状态s’。系统接收新的环境状态输入s’，同时将上一个限价单的执行成本，成交成本(成交部分)作为系统的瞬时奖惩反馈r也反馈给强化学习系统。对于强化学习系统来说，目标就是学习一个多阶段的行为策略π：S→A。系统能够根据剩余订单量以及剩余时间，确定当前的最佳的限价单价格，从而使全部订单成交成本最低。

深度强化学习系统的建立

1. 把世界抽象成具有状态、动作(选择)会影响状态的变化的模型(马尔可夫决策过程)。

2. 确定这个学习系统的目标，从而为这个世界中的一些状态赋以收益值。目标就是获得最大的收益的总和(价值)。设计收益=给定目标

设定完以后，你现在拥有:

一，收益分布函数(每个状态对应的收益是多少)

二，状态的集合

三，动作的集合

---------------- 设定结束，以下是学习-----------------------

1. 让学习系统随便跑几次，通过统计获得状态转移概率。

2. 使用动态规划求解出在当前状态转移概率下的最优的价值和最优的策略。

平时要学的东西很多、工作项目进展也很紧迫，时间真心不多，但是小编会坚持每周发表一篇文章。深度强化学习是一个非常有意思的方向，后续会介绍一些前沿专题和算法实现，各位看官多多支持，欢迎交流指导!

分享到: