01.基于深度学习LSTM神经网络的全球股票指数预测研究

发布时间 2023-03-22 21:08:51作者: Rswxgs

基于深度学习LSTM神经网络的全球股票指数预测研究

基于深度神经网络优化技术,本文构造了一个深层LSTM神经网络,并将其应用于全球30个股票指数三种不同预期的预测研究,LSTM神经网络在预测精度和稳定度两方面都有着很大优势,其未来在金融预测等方面将会有广阔的应用场景。

结果发现:

  • LSTM 神经网络具有很强的泛化能 力,对全部指数不同期限的预测效果均很稳定

  • 相比三种对照模型( SVR、MLP 和 ARIMA) ,LSTM 神 经网络具有优秀的预测精度,其对全部指数的平均预测精度在不同期限上均有提升

  • LSTM 神经网 络能够有效控制误差波动,相比三种对照模型,其对全部指数的平均预测稳定度在不同期限上亦均有提高

一、引言


方法上分为线性预测模型非线性预测模型

线性预测模型包括:移动平均自回归模型(ARIMA)、广义自回归条件异方差模型( GARCH) 、指数平滑模型等。

非线性模型主要包括:基于人工神经网络的各种模型(ANN)、支持向量回归模型(SVR)。

上面提到的这些线性模型对金融市场预测领域的进步起到了很大的作用,但是鉴于金融时间序列的不确定性及高噪声特征,精确预测仍然非常之难,加上自变量和因变量之间的关系通常会随着时间发生动态变化导致传统的时间序列模型很难有效应用在金融股票预测的领域。此外,仅适用于平稳序列建模也大幅限制了时间序列模型的应用与拓展。

于是,近些年来非线性模型逐渐取代了时间序列模型在金融预测方面的应用,由于其挖掘变量之间的非线性关系的能力可以有效提高金融预测的表现。

而对于非线性模型来讲,ANN能够以处理非线性、不连续和高频多维的数据,已经被广泛应用于金融预测。

  • Dhar 等在2010年就利用经典多层感知器( Multi-Layer Perceptron,MLP ) 模型预测印度证券交易所股指收盘价

  • Ticknor在2013年,使用三层前馈神经网络预测微软公司和高盛集团的股价走势

但是基于ANN的金融预测存在以下问题:

  • 过拟合使得模型在训练集外预测能力变差

  • 优化过程存在梯度消失或梯度爆炸,使得神经网络无法有效学习

  • 局部极值问题,即无法找到全局最优解(随着深度学习技术的不断发展,已经从技术角度证明了局部极值问题对于深层网络的影响可以被忽略)

将深度学习技术应用于金融市场的主要优势:

  • 对输入变量的形式没有限制,与预测问题可能相关的信 息均可被作为模型输入

  • 有效拟合输入变量间的非线性复杂关系,提高样本拟合程度

  • 避免浅层结构的过拟合问题

深层神经网络模型( Deep Neural Network,DNN) 能够根据数据特征进行一般化学习在学习异质性信息过程中淡化无关因素、强化有效因素的作用,由此获得更好的金融预测效果

DNN 主要包括循环神经网络( Recurrent Neural Network,RNN) 及其衍生模型、卷积神经网络( Convolutional Neural Network,CNN) 和深度信念网络( Deep Belief Network,DBN) 等模型。深度神经网络也逐渐被应用于金融预测中:

  • Xiong 等在2015年,利用 LSTM 神经网络对 S&P 500 波动率进行建模,结果表明 LSTM 神经网络对包含噪声的金融时间序列数据具有预测潜力

  • Shen 等在2015年,使用连续受限玻尔兹曼机构造 DBN 对三种汇率进行预测,预测效果优于自回归滑动平均ARMA 模型

  • Di Persio 和 Honchar在2016年,使用 MLP、CNN 和 LSTM 神经网络对 S&P500 第二天收盘价涨跌进行预测,发现基于 CNN 的预测误差最小

  • Di Persio 和 Honchar在2017年,将 RNN、LSTM 神经网络和 GRU 神经网络用于谷歌股价趋势预测,结果显示 LSTM 神经网络在金融序列预测方面具有优势

长短期记忆神经网络在挖掘序列数据长期以来关系中极具优势,本文结合目前最前沿的DNN优化技术构造了一个LSTM神经网络,利用深层LSTM神经网络对全球30个股票指数(18个国内指数和12个国际指数)进行预测

  • 预测目标更加完备,突破了现有股票指数预测研究

  • 基于LSTM神经网络结构对30个指数进行预测效果评估,证明**LSTM神经网络在股指预测上具有优秀的泛化能力

  • 将全球30个指数基于LSTM神经网络的预测效果于两种非线性模型(SVR和MLP)和一种线性模型(针对每一个指数构造的ARIMA模型)在三种期限进行精度和稳定度的对比分析,证明LSTM的优越性

 

模型构建


LSTM神经元结构

LSTM每个神经元的结构如图,其内部包括一个记忆存储(Cell)和三个门控(Gates)设置,Cell记录神经元状态,输入门和输出门用来接收、输出和修正参数,遗忘门用来控制上一单元的状态和被遗忘程度

 

 

LSTM神经网络的构建

深度神经网络可能影响模型训练效果的问题一是梯度消失导致神经网络难以收敛,二是过拟合导致测试集失效而Batch-Normalization ( 批标准化BN) 能有效解决梯度消失问题, Dropout 技术通过阻止神经元共适应能够缓解过拟合问题。

批标准化BN:

  • 批标准化BN和普通的标准化类似,将分散的数据进行统一化,具有统一规格的数据能让机器学习更容易学习到数据之中的规律

  • 在神经网络中, 数据分布对训练会产生影响. 比如某个神经元 x 的值为1, 某个 Weights 的初始值为 0.1, 这样后一层神经元计算结果就是 Wx = 0.1; 又或者 x = 20, 这样 Wx 的结果就为 2. 现在还不能看出什么问题, 但是, 当我们加上一层激励函数, 激活这个 Wx 值的时候, 问题就来了. 如果使用 像 tanh 的激励函数, Wx 的激活值就变成了 ~0.1 和 ~1, 接近于 1 的部已经处在了 激励函数的饱和阶段, 也就是如果 x 无论再怎么扩大, tanh 激励函数输出值也还是 接近1. 换句话说, 神经网络在初始阶段已经不对那些比较大的 x 特征范围 敏感了.此时我们就会使用标准化,对数据进行预处理,使得输入的x变化范围不会很大,让输入值经过激励函数的敏感部分。

     

  • 上述的问题是发生在输入层,但是这种问题经常也会发生在隐藏层,但是我们不能进行标准化的预处理,于是就发明了批标准化

  • BN批标准化的是批数据,把数据分成小批小批的进行随机梯度下降,并且在每批数据进行向前传递的时候对每一层都进行标准化处理

     

  • BN也可以被看作是一个层面,在一层层的添加神经网络的时候,我们先有数据X,再添加全连接层,全连接层的计算结果会经过激励函数成为下一层的输入,接着重复之前的操作BN就被添加在每一个全连接和激励函数之间

  • 如果我们进行了数据的批标准化,会让数据大多数集合在让激活函数敏感的一个区间上。还有的情况是当数据经过激活函数之后大部分都在激活函数输出的激活值饱和的区间上,并且没有在每个区间都有分布,经过标准化会让每个区间都有分布

     

Dropout 技术:

  • Dropout 技术是在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。

  • 为了防止训练阶段的过拟合,随机去掉神经元。在一个密集的(或全连接的)网络中,对于每一层,给出了一个dropout的概率p。在每次迭代中,每个神经元被去掉的概率为p。Hinton等人的论文建议,输入层的dropout概率为“p=0.2”,隐藏层的dropout概率为“p=0.5”。显然,对输出层感兴趣,这是的预测。所以不会在输出层应用dropout。

因此,本文在设计 LSTM 神经网络时特 别添加了 BN 层和 Dropout 层以优化神经网络结构。本文的LSTM神经网络的主题结构包括三层LSTM神经层和两层全连接层,每个LSTM层包括200个节点,每层LSTM神经层前加入BN层,其后加入Dropout层,并将失活概率设为0.2

 

训练方法及优化器选择

本文采用Mini-Batch的方法(在训练数据过多的情况下,全部进行学习这是不现实的,会耗费大量时间和算力。因此我们从中选取一部分数据进行训练,这种方法被称为 mini-batch.)训练LSTM网络。本文的目标是预测股指未来收盘价,所以选取均方误差作为损失函数。采用Adam优化器进行优化训练(Adam自适应矩估计是目前最常用的优化器,与其他自适应学习率算法相比,Adam算法收敛速度更快,学习效果更为有效)

数据来源及样本选择


数据来源及描述

为了充分评估深度学习技术在全球股市预测上的适用性,这里同时选取大陆市场、美洲市场、欧洲市场和亚太市场中具有代表性、能够反映所在市场整体变动情况的30个股票进行研究。

本文采用的变量包括:股指收盘价、开盘价、最高价、最低价、成交量、成交额,均为日度数据

数据来自于wind数据库

 

总样本区间及训练集、测试集划分

剔除日成交量数据为 0 的初期数据,选取自日成交量数据存在至 2018 年 5 月 14 日的所有交易数据。

为了观察不同预测方法对股指短期、中期、长期的预测效果,本文分别取各指数整体数据集的最后 20、最后 60、最后 250 个交易日作为短期、中期、长 期预测的测试集,剔除测试集即为对应训练集

预测方法及思路


LSTM神经网络方法及预测思路

LSTM神经网络对每一个指数的预测思路是:用历史60个交易日的数据信息对未来1天指数收盘价进行预测

通常对于未来1天交易日的收盘价,前60天的交易数据已经包含了足够信息,超过60个交易日的信息对61天的影响非常小

模型输入方面:

  • 国内股票指数:股指收盘价、开盘价、最高价、最低价、成交量、成交额六个指标作为模型输入

  • 国际股票指数:收盘价、开盘价、最高价、最低价、成交量五个指标作为模型输入

 

非线性对照模型(SVR模型及MLP神经网络)及预测思路

金融预测领域常用的两种机器学习模型(SVR和MLP)作为非线性的对照模型

SVR因其非线性近似能力在金融预测方面仍有一席之地,因此本文将ε-SVR 模型作为一种非线性对照模型

MLP神经网络也曾大量用于金融预测,因此本文构建三层经典MLP神经网络作为另一种非线性对照模型

线性对照模型(ARIMA模型)及预测思路

本 文 选 取ARIMA ( p,d,q) 模 型 作 为 评 估 LSTM 神经网络模型的一种对照模型,其思路是:首先对股指收盘价取对数,通过ADF检验选取最优差分阶数获取平稳序列,其次根据AIC或BIC法则选取模型参数(p,d,q)并进行序列建模;最后由ARIMA模型进行序列预测

 

实证研究


测试集预测效果评估指标构建

由于本实验是针对多个股票市场的股票指数进行预测,因此构建相对误差指标进行测试集预测效果评估。

  • 预测效果评估采用百分比误差绝对值的平均值(MAPE)MAPE的值越小表示预测精度越高

  • 预测稳定度评估采用百分比误差绝对值的标准差(SDAPE)SDAPE值越小,代表预测稳定度越高

短期预测结果比较分析

采用 20 个交易日的时间长度衡量 LSTM 神经网络与 SVR模型、MLP 神经网络、ARIMA 模 型四种预测方法的短期表现

 

18个国内股票指数:

  • 在预测精度方面:16个指数 LSTM 神经网络的 MAPE 值均小于三种 对照模型,即对于 16 个国内股票指数,LSTM 神经网络均能提高预测精度。深证 B 指和中小板指 的 LSTM 神经网络预测精度高于 MLP 神经网络和 ARIMA 模型,仅低于 SVR 模型

  • 在预测稳定度方面:16 个指数 LSTM 神经网络的 SDAPE 值均小于三种对照模型,即对于 16 个国内股票指数, LSTM 神经网络均能提高预测稳定度。深证 B 指和中证 1000 指数的 LSTM 神经网络预测稳定度高于 MLP 神经网络和 ARIMA 模型,仅略低于 SVR模型

  • 因而,针对国内指数短期预测,深层 LSTM 神经网络明显占优,能够提高绝大部分指数的短期预测精度和预测稳定度

12个国际股票指数:

  • 在预测精度方面:,8 个指数的 LSTM 神经网络 MAPE 值均小于三种对照模型,即对 8 个国际股票指数而言,LSTM 神经网络均能提高预测精度。对于道琼斯指数、标 普 500、纳斯达克 100 指数及韩国综合指数,LSTM 神经网络的预测精度高于 MLP 神经网络和 ARIMA 模型,仅略微低于 SVR模型。

  • 在预测稳定度方面:9 个指数的 LSTM 神经网络 SDAPE 值均 小于三种对照模型,即对 9 个国际股票指数而言,LSTM 神经网络均能提高预测稳定度。对于道琼斯指数、日经 225 及英国富时100 指数,LSTM 神经网络的预测稳定度均高于 MLP 神经网络和 ARIMA 模型,仅略低于 SVR 模型。

  • 因而,针对国际指数短期预测,深层 LSTM 神经网络明显占优,能够提高绝大部分指数的短期预测精度和预测稳定度。

综合全球 30 个股票指数,LSTM 神经网络与三种对照方法在预测精度 90 个对比结果中, LSTM 神经网络在 84 个结果上表现出精度提升; 在预测稳定度 90 个对比结果中,LSTM 神经网络 在 85 个结果上表现出稳定度提升,深层 LSTM 神经网络具有指数短期预测优越性

 

中期预测结果比较分析

采用 60 个交易日的时间长度衡量 LSTM 神经网络与 SVR 模型、MLP 神经网络、ARIMA 模 型四种预测方法的中期表现

 

18个国内股票指数:

  • 在预测精度方面:17 个指数的 LSTM 神经网络 MAPE 值均小于三种 对照模型,即对 17 个国内股票指数而言,LSTM 神经网络均能提高预测精度。对于深证 B 指,LSTM 神经网络预测精度优于 MLP 与 ARIMA 模型,仅略低于 SVR模型。

  • 在预测稳定度方面:17 个指数 的 LSTM 神经网络 SDAPE 值均小于三种对照模型,即对 17 个国内股票指数而言,LSTM 神经网络 均能提高预测稳定度。对于深证 B 指,LSTM 神经网络的预测稳定度高于 MLP 神经网络和 ARIMA 模型,仅略微低于 SVR 模型。

  • 总体来看,针对国内指数中期预测,深层 LSTM 神经网络明显占优,能够提高绝大部分指数的中期预测精度和预测稳定度。

12个国际股票指数:

  • 在预测精度方面:全部指数的 LSTM 神经网络 MAPE 值均小于其余 三种模型,即对全部国际股票指数而言,LSTM 神经网络均能提高预测精度。

  • 在预测稳定度方面:11 个指数的 LSTM 神经网络 SDAPE 值均小于三种对照模型,即对 11 个国际股票指数而言,LSTM 神经网络均能提高预测稳定度。对于纳斯达克 100 指数,LSTM 神经网络的预测稳定度均高于 MLP 神经网络和 ARIMA 模型,仅略微低于 SVR 模型

  • 因而,针对国际指数中期预测,深层 LSTM 神经网络显示了绝对的精度优越性,且能够提高绝大部分指数的预测稳定度。

综合全球 30 个股票指数来看,在预测精度 90 个对比结果中,LSTM 神经网络在 89 个结果上表 现出精度提升; 在预测稳定度 90 个对比结果中,LSTM 神经网络在 88 个结果上表现出稳定度提升, 深层 LSTM 神经网络具有指数中期预测优越性。

 

长期预测结果比较分析

采用 250 个交易日的时间长度衡量 LSTM 神经网络与 SVR 模型、MLP 神经网络、ARIMA 模型四种预测方法的长期表现

 

18个国内股票指数:

  • 在预测精度方面:全部指数的 LSTM 神经网络 MAPE 值均小于三种 对照模型,即对 18 个国内股票指数而言,LSTM 神经网络均能提高预测精度

  • 在预测稳定度方面:17 个指数的 LSTM 神经网络 SDAPE 值均小于三种对照模型,即对 17 个国内股票指数而言,LSTM 神 经网络均能提高预测稳定度。对于中小板 300 指数,LSTM 神经网络的预测稳定度高于 MLP 神经 网络和 ARIMA 模型,仅略微低于 SVR 模型。

  • 因而,针对国内股票指数长期预测,深层 LSTM 神经 网络显示出了绝对的精度优越性,且能够提高绝大部分指数的长期预测稳定度。

12个国际股票指数:

  • 在预测精度方面:11 个指数的 LSTM 神经网络 MAPE 值均小于三种 对照模型,即对 11 个国际股票指数而言,LSTM 神经网络均能提高预测精度。对于日经 225 指数, LSTM 神经网络的预测精度高于 MLP 神经网络和 ARIMA 模型,仅略微低于 SVR 模型。

  • 在预测稳定度方面:8 个指数的 LSTM 神经网络 SDAPE 值均小于三种对照模型,即对 8 个国际股票指数而 言,LSTM 神经网络均能提高预测稳定度,对其余 4 个指数的预测稳定效果仅略低于 SVR 模型,但 均优于 MLP 神经网络和 ARIMA 模型

  • 因而,针对国际股票指数长期预测,深层 LSTM 神经网络能 够提高大部分指数的长期预测精度和稳定度。

因此,就股票指数长期预测的整体水平而言,深层 LSTM 神经网络在预测精度及稳定度两 方面优于三种对照模型。

 

LSTM神经网络预测效果比较分析

LSTM神经网络在股票指数预测方面具有优秀的泛化能力,30个来自全球的股票指数利用同一LSTM神经网络结构进行不同期限的预测,其预测误差与误差波动不随预测期限长度或股指种类变化而发生剧烈变动,证明了LSTM神经网络的强大自我学习能力及优秀的泛化能力

 

结论及政策建议


本文构造了LSTM神经网络,并将其应用于全球30个股票指数预测分析,并与三种对照模型(SVR、MLP、ARIMA)预测结果进行了短中长三种不同期限的对比得出一下结论:

  1. LSTM 神经网络在股票指数预测方面具有泛化能力

  2. 在预测精度方面,LSTM 神经网络具有优秀的长短期预测准确性,(相比于 SVR、MLP 和 ARIMA 模型,LSTM 神经网络对全球 30 个股票指数的平均预测精度在短期分 别提高 0. 29%、0. 58% 和 1. 04%,在中期分别提高 1. 28%、0. 70% 和 3. 29%,在长期分别提高 0. 60%、0. 67%和 5. 32%。)预测期限越长,LSTM 神经网络相比于 ARIMA 模型显示出的精度优越性 越明显。

  3. 在预测稳定度方面,LSTM 神经网络能够有效地控制预测误差波动,提高预测稳定度。 (相比于 SVR、MLP 和 ARIMA 模型,LSTM 神经网络对全部 30 个股票指数的平均预测稳定度在短期 分别提高 0. 22%、0. 25% 和 0. 61%,在中期分别提高 0. 51%、0. 59% 和 1. 11%,在长期分别提高 0. 47%、0. 50%和 2. 57%。)LSTM 神经网络优秀的预测稳定度能够在预测指数时给出更窄的置信区 间,提供更有效的预测结果。因此,LSTM 神经网络在预测精度及稳定度两方面均显示出优越性。

改进方向:

  • 鉴于神经网络的高度可调节性,未来可添加多种非同质信息作为神经网络输入,附加小波分解或主成分分析等数据预处理技术进行模型优化或从神经网络本身进行结构优化等

  • 将深度学习技术应用于金融预测只是金融智能 化发展的第一步,后续还可以在两大主题上继续探索:

    1. 一是在金融风险管理领域引入深度神经网络的前沿方法,利用大数据的优势更有效地进行风险识别和风险测度;

    2. 二是将深度学习方法应用于投资领域,帮助金融机构快速识别投资机会,推动我国金融市场智能化投资的发展。