原始题目：TimeGPT-1
中文翻译：TimeGPT-1
发表时间：2023年10月05日
平台：arXiv
文章链接：http://arxiv.org/abs/2310.03589
开源代码：无

摘要

在本文中，我们介绍了TimeGPT，这是第一个用于时间序列的基础模型，能够为训练过程中看不到的各种数据集生成准确的预测。我们根据已建立的统计、机器学习和深度学习方法评估我们的预训练模型，证明 TimeGPT 零样本推理在性能、效率和简单性方面表现出色。我们的研究提供了令人信服的证据，表明人工智能其他领域的见解可以有效地应用于时间序列分析。我们得出的结论是，大规模时间序列模型提供了一个令人兴奋的机会，通过利用当代深度学习进步的能力，使精确预测的访问民主化并减少不确定性。

1. 引言

不确定性是生命的内在方面，是人类孜孜不倦地寻求导航和理解的恒定元素。从古代文明建立的传统到当代世界的复杂研究工作，聪明的头脑一直在不断努力预测未来可能发生的事件的分布，制定系统的方法来揭示未来的未来。

预测潜在结果的愿望是众多学科的基础，反映了人类预测、制定战略和降低风险的根深蒂固的倾向。减少未来不确定性的目标映射到许多现实世界的应用：从了解经济周期和趋势到辨别消费者消费模式;从优化能源生产和电网管理的电力需求，到调整服务器、工作人员和机器的容量和基础设施。

时间序列（按时间顺序排序的数据）构成了系统、企业和机构的底层结构。它的影响范围从测量海洋潮汐到跟踪道琼斯指数的每日收盘价。这种类型的数据表示在金融、医疗保健、气象学、社会科学等领域是必不可少的，在这些领域中，辨别时间模式、趋势和周期性变化对于预测未来价值和为决策过程提供信息至关重要。

然而，目前对时间序列的理论和实践理解尚未在从业者中达成一定程度的共识，这与人类状况的其他基本领域（如语言和感知）对生成模型的广泛赞誉相反（原词mirrors）。我们的领域在评估深度学习对预测任务的有效性方面仍然存在分歧。预测科学的努力未能兑现真正通用的预训练模型的承诺。

在本文中，我们走上了一条新的道路，并介绍了 TimeGPT，这是第一个用于时间序列预测的预训练基础模型，无需额外训练即可在各种领域和应用程序中产生准确的预测。通用的预训练模型构成了一项突破性的创新，它为预测实践开辟了一条新范式的道路，这种范式更易于访问、更准确、更省时，并大大降低了计算复杂性。

2. 背景

关于深度学习方法的优越性，预测界目前存在分歧。统一的方法尚未建立。最近，这些不同的范式越来越多地相互挑战，质疑新发展的有用性、准确性和复杂性。尽管深度学习架构在其他领域取得了成功，但一些时间序列从业者已经证明，该领域提出的一些创新并不能满足他们的主张或期望。1

1 必须指出的是，尽管这种描述未能完全解释混合预测的具体情况，但主要主张仍然有效。有关进一步讨论，请参阅：[Smyl，2020]和[Januschowski等人，2020]

从历史上看，ARIMA、ETS、MSTL、Theta 和 CES 等统计方法已被可靠地应用于各个领域。在过去的十年中，XGBoost 和 LightGBM 等机器学习模型越来越受欢迎，在公开竞赛和实际应用中都取得了可喜的成果。

然而，随着深度学习的出现，时间序列分析发生了范式转变。深度学习方法已在学术界和大规模工业预测应用中流行 [Benidis 等人，2022 年]。

鉴于其全局方法，深度学习方法在可扩展性、灵活性和潜在准确性方面比统计局部方法具有显着优势。此外，它们学习复杂数据依赖关系的能力有效地绕过了其他全局方法（如 LightGBM 或 XGBoost）所需的复杂特征工程需求。因此，基于深度学习的时间序列模型旨在简化预测流程并增强可扩展性。它们能够处理大量数据并捕获长期依赖关系，从而在数据量不断增长的时代为复杂的预测任务提供有利条件。

然而，学术研究人员和从业者对这些承诺的看法存在分歧。各种研究人员和从业者对提高准确性的基本假设提出了挑战，提出证据表明更简单的模型优于更复杂的方法;成本和复杂性更低。相反，一些行业领导者报告说，深度学习方法增强了他们的结果并简化了他们的分析管道 [Kunz 等人，2023 年]。

在当前的历史背景下，深度学习模型的卓越能力对于自然语言处理（NLP）和计算机视觉（CV）是不可否认的，值得注意的是，时间序列分析领域仍然对神经预测方法的性能持怀疑态度。

我们认为，这种怀疑源于：

未对齐的或定义不明确的评估设置：与其他受益于引入理想测试数据集（例如用于计算机视觉的 ImageNet）的领域不同，公开可用的时间序列数据集不具备深度学习方法所需的规模和数量。
次优模型：鉴于数据集有限且具体，即使是精心构思的深度学习架构也可能难以实现泛化，或者需要付出相当大的努力才能找到最佳设置和参数。

此外，缺乏满足深度学习方法要求的标准化大规模数据集也可能阻碍该领域的进展。虽然其他领域已经从基准数据集和明确的评估指标中受益，但时间序列社区仍然需要开发此类资源来促进创新和验证新技术2。

2为了详细分析我们领域的状况，我们向感兴趣的读者推荐值得注意的系统化，例如 [De Gooijer 和 Hyndman，2006] 和 [Benidis 等人，2022 年，Januschowski 等人，2020 年]。

在本文中，我们证明了更大、更多样化的数据集使更复杂的模型能够在各种任务中更好地执行。TimeGPT 是第一个以最小的复杂性始终优于替代方案的基础模型。进一步研究时间序列基础模型的改进可能会开启该领域的新篇章，促进对时间数据的更深刻理解，并提高预测的准确性和效率。

图 1：单序列预测和多序列预测的图示

3. 文献综述

深度学习预测模型已成为一个突出的研究领域，这得益于它们在最近的著名竞赛中的成功，包括 [Makridakis et al.， 2020， 2022]，以及它们对行业中大规模任务的适用性。[Benidis 等人，2022 年] 对神经预测模型及其应用进行了全面的回顾和分类。

最初的深度学习时间序列预测成功源于对现有架构的适应，即循环神经网络（RNN）和卷积神经网络（CNN），最初分别设计用于自然语言处理（NLP）和计算机视觉（CV）。RNN 是 DeepAR [Salinas et al.， 2020] 等流行模型的支柱，用于概率预测和 ESRNN [Smyl， 2020]，M4 竞赛的获胜者。CNN 在顺序数据的多个任务中表现出优于 RNN 的性能，如 [Bai et al.， 2018] 所示。它们现在构成了一个流行的构建块，正如 DPMN [Olivares et al.， 2023b] 和 TimesNet [Wu et al.， 2022] 等模型所使用的那样。前馈网络由于其低计算成本和效率，也经常被使用，值得注意的例子包括 N-BEATS [Oreshkin 等人，2019 年，Olivares 等人，2022 年] 和 NHITS [Challu 等人，2023 年]。

近年来，基于 Transformer 的模型 [Vaswani et al.， 2017] 越来越受欢迎，因为它们在大规模环境 [Kunz et al.， 2023] 和复杂任务（如长序列预测）中表现出卓越的性能。早期的例子包括 TFT [Lim et al.， 2021] 和 MQTransformer [Eisenach et al.， 2020]，两者都具有多分位数功能。Informer 通过 Prob-sparse 自注意力机制引入了用于长序列预测的 Transformer [Zhou et al.， 2021]。此后，这一概念通过各种形式的归纳偏差和注意力机制在 Autoformer [Wu et al.， 2021]、FEDformer [Zhou et al.， 2022] 和 PatchTST [Nie et al.， 2022] 等模型中得到了进一步完善。

基础模型的潜力，即在大型数据集上预先训练的大规模模型，然后针对特定任务进行微调，对于时间序列预测任务来说，仍然相对不足。然而，有早期迹象表明预测基础模型的可能性。例如，[Oreshkin 等人，2021 年] 表明，预训练模型可以在任务之间转移而不会降低性能。此外，[Kunz et al.， 2023] 提供了证据，证明在时间序列预测任务中，Transformer 架构的数据和模型大小存在缩放规律。

4. 时间序列的基础模型

基础模型依靠其跨域泛化的能力，尤其是在训练期间不可用的新数据集中。因此，我们将迁移学习理解为将从一项任务中收集的知识应用于解决新任务的能力。接下来，我们解释了迁移学习的概念，建立在之前的时间序列预测研究的基础上 [Oreshkin et al.， 2021， Olivares et al.， 2023a]。

预测模型提供函数 $f_θ:\mathcal{X}\mapsto\mathcal{Y}$，其中 X 为特征空间，Y 为因变量空间。我们考虑 $X = {y[0：t]， x[0：t+h]} $和$ Y = {y[t+1：t+h]} $的设置，其中 h 是预测范围，y 是目标时间序列，x 是外生协变量。预测任务的目标是估计以下条件分布：

迁移学习是指在（通常较大的）源数据集上预训练模型 $D_s={(X,y)|X\in{\mathcal{X}},Y\in{\mathcal{Y}}}$，以提高其在具有目标数据集 $D_t $的新预测任务上的性能。本文考虑了迁移学习的两种情况：零样本学习和微调。在第一种情况下，直接传输预训练模型以解决新的预测任务，而无需在新数据集上重新训练其参数 θ。相反，在微调中，模型在新数据集上进一步训练（从预先训练的参数开始）。

所提出的基础模型的核心思想是通过在迄今为止最大的公开时间序列数据集上训练它来利用这些原则，利用数据集和模型大小的缩放规律。就广度和深度而言，多样化的数据集使 TimeGPT 能够从跨多个领域的前所未有的时间模式中收集见解。

迄今为止最大的公开时间序列数据集：全文并没有指出这个数据集到底是啥。。。

5. TimeGPT

5.1 结构

TimeGPT 是一个基于 Transformer 的时间序列模型，具有基于 [Vaswani et al.， 2017] 的自注意力机制。TimeGPT 采用历史值窗口来生成预测，添加本地位置编码以丰富输入。该架构由具有多个层的编码器-解码器结构组成，每个层都有残差连接和层归一化。最后，线性层将解码器的输出映射到预测窗口维度。一般的直觉是，基于注意力的机制能够捕捉到过去事件的多样性，并正确地推断出潜在的未来分布。

开发时间序列的广义全局模型会带来许多挑战，主要是由于处理来自广泛基础过程的信号的复杂任务。频率、稀疏性、趋势、季节性、平稳性和异方差性等特征对局部和全局模型都呈现出不同的复杂性。因此，任何基础预测模型都必须具备管理这种异质性的能力。我们的模型 TimeGPT 旨在处理不同频率和特征的时间序列，同时适应不同的输入大小和预测范围。这种适应性很大程度上归因于构建 TimeGPT 的底层基于 transformer 的架构。

需要注意的是，TimeGPT 并非基于现有的大型语言模型（LLM）。虽然 TimeGPT 遵循在庞大数据集上训练大型转换器模型的相同原则，但其架构专门用于处理时间序列数据，并经过训练以最大程度地减少预测误差。

图 3：新时间序列的推断。TimeGPT 将目标值的历史值和其他外生变量作为输入来生成预测。我们依靠基于历史误差的共形预测来估计预测区间。

5.2 训练数据集

据我们所知，TimeGPT 是在最大的公开时间序列集合上训练的，总共包含超过 1000 亿个数据点。该训练集包含来自广泛领域的时间序列，包括金融、经济、人口统计、医疗保健、天气、物联网传感器数据、能源、网络流量、销售、运输和银行业。由于这组不同的领域，训练数据集包含具有广泛特征的时间序列。

在时间模式方面，训练数据集包含具有多个季节性、不同长度的周期和各种趋势类型的序列。除了时间模式外，数据集在噪声和异常值方面也各不相同，从而提供了一个强大的训练环境。一些系列包含干净、规则的模式，而另一些系列则具有明显的噪声或意外事件，为模型提供了广泛的学习场景。大多数时间序列都包含在其原始形式中;处理仅限于格式标准化和填写缺失值以确保数据完整性。

选择如此多样化的训练集对于开发强大的基础模型至关重要。这种多样性包括非平稳现实世界数据的复杂现实，其中趋势和模式可能会因多种因素而随着时间的推移而发生变化。在这个丰富的数据集上训练 TimeGPT 使其能够处理广泛的场景，增强其鲁棒性和泛化能力。这有效地使 TimeGPT 能够准确预测看不见的时间序列，同时消除对单个模型训练和优化的需求。

5.3 训练时间GPT

TimeGPT 在 NVIDIA A10G GPU 集群上进行了为期多天的训练。在此过程中，我们进行了广泛的超参数探索，以优化学习率、批量大小和其他相关参数。我们观察到一种与 [Brown et al.， 2020] 的研究结果一致的模式，其中较大的批量大小和较小的学习率被证明是有益的。在 PyTorch 中实现，TimeGPT 使用 Adam 进行训练，其学习率衰减策略将率降低到其初始值的 12%。

5.4 不确定性量化

概率预测是指估计模型围绕预测的不确定性。正确评估预测模型的校准有助于进行风险评估和做出明智的决策。共形预测是一种非参数框架，它提供了一种令人信服的方法，可以生成具有预先指定覆盖精度水平的预测区间 [Shafer 和 Vovk，2008 年，Stankeviciute 等人，2021 年]。与传统方法不同，共形预测不需要严格的分布假设，使其对模型或时间序列域更加灵活和不可知。在推断新时间序列的过程中，我们对最新的可用数据进行滚动预测，以估计模型在预测特定目标时间序列时的误差。

图 4：TimeGPT 和各种模型组的相对平均绝对误差（rMAE）和各种模型。图中的每个 Bean 表示一个组的 rMAE 分布，中心线表示平均值。TimeGPT 在性能方面处于领先地位，其次是深度学习方法、统计、机器学习和基线模型。其他频率的结果与此类似。

6. 实验结果

传统上，预测性能评估基于根据定义的截止值将数据集的每个时间序列拆分为训练集和测试集。这样的原理，即使在其交叉验证版本中，也不够严格，无法评估基础模型，因为它的主要特性是能够准确预测全新的序列。

在本节中，我们通过在模型训练期间从未见过的大量多样化时间序列中对其进行测试，来探索 TimeGPT 作为预测基础模型的功能。该测试集包括来自多个领域的超过 30 万个时间序列，包括金融、网络流量、物联网、天气、需求和电力。

评估在每个时间序列的最后一个预测窗口中执行，其长度因采样频率而异。TimeGPT 使用之前的历史值作为输入，如图 3 所示，无需重新训练其权重（零样本）。我们根据频率指定不同的预测范围来表示常见的实际应用：12 表示每月，1 表示每周，7 表示每日，24 表示每小时数据。3

3未来的工作将受益于扩展和改变这个测试集。

TimeGPT 以广泛的基线、统计、机器学习和神经预测模型为基准，以提供全面的性能分析。基线和统计模型在测试集的每个时间序列上单独训练，利用最后一个预测窗口之前的历史值。我们为每个频率选择了机器学习和深度学习方法的全局模型方法，利用测试集中的所有时间序列。一些流行的模型，如 Prophet [Taylor and Letham， 2018] 和 ARIMA，由于其令人望而却步的计算要求和漫长的训练时间被排除在分析之外。

我们选择的评估指标包括相对平均绝对误差（rMAE）和相对均方根误差（rRMSE），两者都根据季节性朴素模型的性能进行归一化。这些相对误差提供了额外的见解，因为它们显示了相对于已知基线的性能提升，从而提高了我们结果的可解释性。相对误差指标带来了规模独立性的额外好处，可以比较每个频率的结果。为了确保稳健的数值稳定性和评估的一致性，我们在全球范围内对每个综合数据集应用这种归一化。这些指标的具体计算适用于具有 n 个时间序列且预测范围为 h 的数据集，如公式 2 所示。

表 1：使用零样本推理的 TimeGPT 的主要性能结果，以及使用 rMAE 和 rRMSE 测量的基准模型，分数越低越好。每个频率和指标的最佳模型以粗体突出显示，第二好的模型以虚线突出显示，第三好的模型以虚线突出显示

6.1 零样本推理

我们首先在零样本推理上测试 TimeGPT 功能，这意味着无需对测试集进行额外的微调。表 1 显示了零样本结果。值得注意的是，TimeGPT 的表现优于经过实战考验的统计模型和 SoTA 深度学习方法，在所有频率上都位居前 3 名。

SoTA 深度学习方法似乎不是很sota

必须指出的是，预测模型的有效性只能根据其与竞争替代方案的性能来评估。虽然准确性通常被视为唯一相关的指标，但计算成本和实现复杂性是实际应用的关键因素。在这方面，值得注意的是，TimeGPT 的报告结果是简单且极快地调用预训练模型的预测方法的结果。相比之下，其他模型需要完整的管道进行训练和预测。

6.2 微调

微调是有效利用基础模型和基于变压器的架构的关键步骤。基础模型在大量数据上进行了预训练，捕获了广泛和通用的特征。但是，这些模型通常需要针对特定的上下文或域进行专门设置。通过微调，我们在特定于任务的数据集上调整模型参数，使模型能够根据新任务的要求定制其大量预先存在的知识。这个过程确保模型保持其广泛的理解，并在手头的特定任务中表现出色。由于其固有的灵活性和学习复杂模式的能力，基于 Transformer 的架构特别受益于微调，增强了它们在特定领域应用中的性能。因此，微调是一座至关重要的桥梁，将基础模型的广泛功能与目标任务的特殊性联系起来。图 5 显示了 TimeGPT 相对于测试集上时间序列子集的微调步骤数的准确性改进结果。

图 5：对 rMAE 测量的测试集中的时间序列子集进行微调的 TimeGPT 性能。

6.3 时间比较

对于零样本推理，我们的内部测试记录了 TimeGPT 每个系列的平均 GPU 推理速度为 0.6 毫秒，这几乎反映了简单的 Seasonal Naive 的推理速度。作为比较点，我们考虑了并行计算优化的统计方法，当与Numba编译相辅相成时，每个序列的平均训练和推理速度为600毫秒。另一方面，考虑到训练和推理，LGBM、LSTM 和 NHITS 等全球模型显示出更长的平均每个序列 57 毫秒。由于其零样本功能，TimeGPT 的总速度比传统的统计方法和全局模型高出几个数量级。

7 讨论与未来研究

当前的预测实践通常涉及复杂的管道，包括从数据处理到模型训练和选择的多个步骤。TimeGPT 通过将管道减少到推理步骤，大大简化了这一过程，大大降低了复杂性和时间投入，同时仍实现了最先进的性能。也许最重要的是，TimeGPT 使大型转换器模型的优势民主化，如今仅限于拥有大量数据、计算资源和技术专长的组织。我们相信，基础模型将对预测领域产生深远影响，并可以重新定义当前的实践。

在时间序列中引入一个类似于其他领域的基础模型，并为未来的改进开辟了可能的途径，可以被认为是时间序列领域的一个重要里程碑。然而，这项工作必须被理解为一个更大的学术传统的一部分，其中包含大量悬而未决的问题。虽然我们相信 TimeGPT 展示了惊人的结果，首次展示了能够准确预测看不见的序列的通用全局模态，但仍存在许多重要的局限性和悬而未决的问题。我们希望这一评估对当前和未来的研究人员有所帮助。

我们的结果与之前关于大型时间序列模型预期性能的直觉一致。这与 Zalando、OpenAI、阿里巴巴和亚马逊的发现一致 [Kunz et al.， 2023， Brown et al.， 2020， Eisenach et al.， 2020]。这些结果验证了与模型大小、数据集大小和 Transformer 性能相关的缩放定律。这些定律阐明了为什么更简单的模型在较小的数据集上可能优于 Transformers，正如在 [Zeng 等人，2023 年] 等研究中观察到的那样。因此，Transformer 的相关性取决于上下文，并且随着数据集大小的增加，它们通常会变得更加有益。这些定律提供了重要的实用见解，指导了特定任务的模型选择。在大型数据集或计算资源的可用性受到限制的情况下，更简单的模型可能更合适。

展望未来，我们确定了未来探索的两个主要领域：