量化交易的深度强化学习:挑战与机遇---IEEE
背景
量化交易:量化交易是指借助现代统计学和数学的方法,利用计算机技术来进行交易的证券投资方式。 量化交易从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,用数量模型验证及固化这些规律和策略,然后严格执行已固化的策略来指导投资,以求获得可以持续的、稳定且高于平均收益的超额回报。极大地减少了投资者情绪波动的影响,避免在市场极度狂热或悲观的情况下作出非理性的投资决策。
自从20世纪70年代以来,量化交易(QT)一直是学术界和金融业的热门话题。在过去的10年中,深度强化学习(DRL)在解决复杂的顺序决策问题(如围棋和视频游戏方面)表现出色。本文概述了在DRL的影响下,QT中出现的几个关键挑战和机遇,以阐明领域的未来研究
截止到2021年,可以被看作生态系统的金融市场全球市值超过90万亿美元,过去十年量化交易(QT)在不断兴起,其利用数据驱动的技术自动生成交易信号,这是由于其及时准确的订单执行(OE),以及分析大量金融市场数据能力的增强
量化交易已经在不同的金融市场无处不在,目前在发达市场(美国)和新兴市场(中国)分别占交易量的70%和40%。
传统的量化交易方法:要么基于启发式规则,要么基于人为导向的预测算法。然而,由于金融市场的高波动性和高噪声性质,他们的性能并不稳定,并且高度依赖于市场条件。为了解决这些问题,深度强化学习DRL已经成为QT的一种十分有用的方法。通过训练端到端代理进行有利可图的交易对策。
量化交易问题
主流的量化交易任务可以分为宏级任务(macrolevel tasks)和微级任务(microlevel tasks)
算法交易(AT):也称为自动交易,黑盒交易,是利用电子平台,输入涉及算法的交易指令,以执行预先设定好的交易策略。算法中包含许多变量,包括时间,价格,交易量,或者在许多情况下,由“机器人”发起指令,而无需人工干预。算法交易广泛应用于投资银行,养老基金,共同基金,以及其他买方机构投资者,以把大额交易分割为许多小额交易来应付市场风险和冲击。卖方交易员,例如做市商和一些对冲基金,为市场提供流动性,自动生成和执行指令。
交易者持续买卖一种特定的金融资产以获取利润,它广泛应用于各种金融资产的交易,如股票、加密货币和外汇。时间被分成离散的时间步长。交易者在交易期开始时被分配一些现金。随后在每个时间步t,交易者可以选择买入、持有、或卖出一定数量的股票,以改变头寸(意思是指银行、钱庄等所拥有的款项,一个金融术语。),目的是在交易期结束时最大化最终净值。
投资组合管理(PM):是一项基本的QT任务,其中投资者持有大量的金融资产,并定期重新分配它们,以实现长期利润最大化。在持有期开始时,代理人持有由预选金融资产组成的组合,该组合具有不同的权重。随着市场价格的变动,投资组合经理可以根据市场状况和个人风险偏好建立新的投资组合。
订单执行(OE):侧重于在固定的时间内执行清算令。OE的目标是以比较低的成本完成整个订单。设计一个好的OE策略的挑战主要有两个方面:一是避免短期内大额交易造成的有害市场影响,二是抑制价格风险,这意味着由于执行缓慢而错过良好的交易窗口。
做市商(MM):是指为一项金融资产不断报价的交易活动,做市商愿意在买卖双方进行交易。它们提供流动性并从买卖订单之间的微小差价中获利。
深度强化学习下的量化交易
一般来说QT任务侧重于在一定风险承受能力下实现长期利润的最大化,传统的QT策略利用金融专家的知识,基于启发式规则发现交易机会,然而基于规则的方法表现出较差的泛化能力,并且仅在特定的市场条件下表现良好。另一个方向是根据金融预测产生交易信号。在文献中,有使用监督学习方法的尝试,例如:梯度增强树模型和深度神经网络模型来用于金融预测。然而,由于金融市场的高波动性和嘈杂性,预测信号和有利可图的交易行为之间存在着不可忽视的差距
将深度强化学习方法应用在量化交易的优势有四点:
-
DRL允许训练一个端到端的代理,它将可用的市场信息作为输入状态,并直接输出交易行为
-
DRL方法直接优化整体利润,绕过财务预测作为中间任务
-
DRL可以直接将特定任务的约束(例如交易成本和滑点)纳入训练过程
-
DRL方法有可能推广到任何市场条件
对于AT,IRDPG 被提出具有GRU层来学习循环市场嵌入和行为克隆,以模仿人类专家的交易行为。
对于PM,提出了分层DRL框架来说明有限的数据和高维顺序决策任务。
DeepTrader,专注于学习具有新颖回报函数和资产评分单元的风险调整投资组合
对于OE,提出了一个无模型DRL框架,该框架具有一种新的策略蒸馏机制,以弥合嘈杂但不完美的市场状态和订单执行的最优行动序列之间的差距。
对于MM,提出了基于对抗性DRL学习的博弈论框架,作为对传统数学MM模型的改编。
挑战与机遇
QT上的高级DRL技术
如今的基于DRL的QT只是在不同的QT场景中应用经典的DRL算法。探索更先进的DRL技术对金融数据的有效性是一个不错的方向。
首先:设计一个较好的基于DRL的QT算法一个主要的挑战就是数据稀缺。基于模型的DRL可以通过学习金融市场模型来加快培训过程,从而应对这一挑战。在最大化累积回报的同时,最坏的情况(如金融危机)可以作为一个正则化因素
第二:不同QT任务的主要目标是在利润最大化和风险最小化之间保持良好的平衡。多目标DRL技术为训练具有适应性风险承受能力的多样化交易政策提供了武器。
第三:图学习在基于预测的方法中对股票之间的相互关系进行建模方面取得了有希望的结果。将图学习与DRL相结合也是一个潜在的方向。
第四:由于金融市场的严重分布转移,当前基于DRL的QT方法表现出较差的泛化能力。Meta-RL和转移学习技术有助于学习不同金融资产类型和市场的稳健交易政策。
第五:可解释性对于高风险决策任务至关重要,比如QT。分层DRL方法将主要目标分解为低级DRL代理的子目标。通过学习低级代理的最优子目标,高级代理形成了可由人类专家解释的金融市场的表示。
第六:通过直接与QT的真实市场互动来培训DRL代理是极其危险的。仅使用历史数据进行培训的离线DRL有可能模拟金融市场的分布转移和风险。
新的QT设置
如高频交易和配对交易尚未探索。
-
日内交易试图捕捉同一个交易日内转瞬即逝的交易机会;
-
高频交易旨在捕捉转瞬即逝的微观交易机会;
-
配对交易侧重于分析两种高度相关的金融资产的相对趋势
用Auto-ML进行增强
金融数据具有嘈杂的性质以及DRL方法的脆弱性,让基于DRL的QT模型的成功高度依赖于精心设计的DRL组件和适当的调整超参数。这里试图引进Auto-ML(自动机器学习),Auto-ML可以进行自动特征选择、超参数调整和神经架构搜索等功能,可以较为显著的提高基于DRL的QT模型的效率。
走向现实市场模拟
尽管在模型设计方面考虑到了很多现实的约束,如交易费用、执行成本和滑点等,但是由于无处不在的各种因素对市场的影响,要提供真实的金融市场模拟来进行模型训练还有很长的路要走。
结论
我们非常需要建立一个具有一套标准化评估数据集的平台,并实施SOTA方法。作为评估标准,有必要在不同市场的多个金融资产上测试DRL算法,以评估稳健性和普遍性。
在大多数QT论文中,训练、验证和测试集的划分是相当随机的。但是,由于金融市场中不同时间之间的显著分布变化,最好在滚动的基础上拆分数据
- Reinforcement Opportunities Quantitative Challenges Learningreinforcement opportunities quantitative challenges reinforcement learning noise reinforcement exploration learning reinforcement transformer learning trainer reinforcement learning chapter reinforcement distillation teachable learning reinforcement transformer decision learning reinforcement exploration off-policy learning reinforcement modelling learning feedback reinforcement adversarial learning through