Deep Reinforcement Learning for Quantitative Trading Challenges and Opportunities

量化交易的深度强化学习：挑战与机遇---IEEE

背景

量化交易：量化交易是指借助现代统计学和数学的方法，利用计算机技术来进行交易的证券投资方式。量化交易从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略，用数量模型验证及固化这些规律和策略，然后严格执行已固化的策略来指导投资，以求获得可以持续的、稳定且高于平均收益的超额回报。极大地减少了投资者情绪波动的影响，避免在市场极度狂热或悲观的情况下作出非理性的投资决策。

自从20世纪70年代以来，量化交易(QT)一直是学术界和金融业的热门话题。在过去的10年中，深度强化学习（DRL）在解决复杂的顺序决策问题（如围棋和视频游戏方面）表现出色。本文概述了在DRL的影响下，QT中出现的几个关键挑战和机遇，以阐明领域的未来研究

截止到2021年，可以被看作生态系统的金融市场全球市值超过90万亿美元，过去十年量化交易（QT）在不断兴起，其利用数据驱动的技术自动生成交易信号，这是由于其及时准确的订单执行（OE），以及分析大量金融市场数据能力的增强

量化交易已经在不同的金融市场无处不在，目前在发达市场（美国）和新兴市场（中国）分别占交易量的70%和40%。

传统的量化交易方法：要么基于启发式规则，要么基于人为导向的预测算法。然而，由于金融市场的高波动性和高噪声性质，他们的性能并不稳定，并且高度依赖于市场条件。为了解决这些问题，深度强化学习DRL已经成为QT的一种十分有用的方法。通过训练端到端代理进行有利可图的交易对策。

量化交易问题

主流的量化交易任务可以分为宏级任务（macrolevel tasks）和微级任务（microlevel tasks）

算法交易（AT）：也称为自动交易，黑盒交易，是利用电子平台，输入涉及算法的交易指令，以执行预先设定好的交易策略。算法中包含许多变量，包括时间，价格，交易量，或者在许多情况下，由“机器人”发起指令，而无需人工干预。算法交易广泛应用于投资银行，养老基金，共同基金，以及其他买方机构投资者，以把大额交易分割为许多小额交易来应付市场风险和冲击。卖方交易员，例如做市商和一些对冲基金，为市场提供流动性，自动生成和执行指令。

交易者持续买卖一种特定的金融资产以获取利润，它广泛应用于各种金融资产的交易，如股票、加密货币和外汇。时间被分成离散的时间步长。交易者在交易期开始时被分配一些现金。随后在每个时间步t，交易者可以选择买入、持有、或卖出一定数量的股票，以改变头寸（意思是指银行、钱庄等所拥有的款项，一个金融术语。），目的是在交易期结束时最大化最终净值。

投资组合管理（PM）：是一项基本的QT任务，其中投资者持有大量的金融资产，并定期重新分配它们，以实现长期利润最大化。在持有期开始时，代理人持有由预选金融资产组成的组合，该组合具有不同的权重。随着市场价格的变动，投资组合经理可以根据市场状况和个人风险偏好建立新的投资组合。

订单执行(OE)：侧重于在固定的时间内执行清算令。OE的目标是以比较低的成本完成整个订单。设计一个好的OE策略的挑战主要有两个方面：一是避免短期内大额交易造成的有害市场影响，二是抑制价格风险，这意味着由于执行缓慢而错过良好的交易窗口。

做市商（MM）：是指为一项金融资产不断报价的交易活动，做市商愿意在买卖双方进行交易。它们提供流动性并从买卖订单之间的微小差价中获利。

深度强化学习下的量化交易

一般来说QT任务侧重于在一定风险承受能力下实现长期利润的最大化，传统的QT策略利用金融专家的知识，基于启发式规则发现交易机会，然而基于规则的方法表现出较差的泛化能力，并且仅在特定的市场条件下表现良好。另一个方向是根据金融预测产生交易信号。在文献中，有使用监督学习方法的尝试，例如：梯度增强树模型和深度神经网络模型来用于金融预测。然而，由于金融市场的高波动性和嘈杂性，预测信号和有利可图的交易行为之间存在着不可忽视的差距

将深度强化学习方法应用在量化交易的优势有四点：