原始题目：OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling
中文翻译：OneNet：通过在线集成增强概念漂移下的时间序列预测模型
发表时间：2023年09月22日
平台：Proceedings of the National Academy of Sciences
文章链接：http://arxiv.org/abs/2309.12659
开源代码：https://github.com/yfzhang114/OneNet

摘要

时间序列预测模型的在线更新旨在通过基于流数据的预测模型的高效更新来解决概念漂移问题。许多算法都是为在线时间序列预测而设计的，有些算法利用跨变量依赖性，而另一些算法则假设变量之间的独立性。鉴于每个数据假设在在线时间序列建模中都有其优点和缺点，我们提出了在线集成网络（OneNet）。它动态更新并组合了两个模型，一个侧重于跨时间维度的依赖关系建模，另一个侧重于跨变量依赖关系。我们的方法将基于强化学习的方法整合到传统的在线凸规划框架中，允许两个模型与动态调整权重的线性组合。OneNet解决了传统在线学习方法的主要缺点，这些方法在适应概念漂移方面往往很慢。实证结果表明，与最先进的（SOTA）方法相比，OneNet将在线预测误差降低了50%以上。该代码可在 https://github.com/yfzhang114/OneNet 上获得。

1 引言

近年来，我们目睹了将深度学习应用于时间序列预测的研究工作显着增加 [Lim and Zohren， 2021， Wen et al.， 2022]。事实证明，深度模型不仅在预测任务中表现出色，而且在表示学习方面也表现出色，能够提取抽象表征，这些抽象表征可以有效地转移到分类和异常检测等下游任务中。然而，现有的研究主要集中在批量学习设置上，假设整个训练数据集事先可用，并且输入和输出变量之间的关系在整个学习过程中保持不变。这些方法在现实世界的应用中是不足的，在这些应用中，概念通常不稳定，但会随着时间的推移而变化，称为概念漂移[Tsymbal，2004]，其中未来的数据表现出与过去观察到的模式不同的模式。在这种情况下，从头开始重新训练模型可能很耗时。因此，需要在线训练深度预报员，用新样本逐步更新预报模型，以捕捉环境中不断变化的动态。

在线训练: 在这种方法中，学习过程发生在一系列回合中，其中模型接收回溯窗口并预测预测窗口。然后揭示真实值，以提高模型在下一轮中的性能

现实世界的设置，称为在线预测，带来了一些挑战，例如与离线小批量训练相比，噪声梯度高[Aljundi等人，2019a]，以及连续的分布偏移，这可能会使从历史数据中学习的模型对当前预测的效果降低。虽然一些研究试图通过设计先进的更新结构或学习目标来解决这些问题 [Pham et al.， 2023， You et al.， 2021]，但它们都依赖于 TCN 骨干网 [Bai et al.， 2018]，它们没有利用更先进的网络结构，例如 transformer [Nie et al.， 2023， Zhou et al.， 2022b]。我们的研究表明，基于transformer的模型 PatchTST [Nie et al.， 2023]，在没有使用任何先进的在线学习适应方法的情况下，比 SOTA 在线适应模型 FSNet [Pham et al.， 2023] 表现更好，特别是对于具有挑战性的 ECL 任务（表 1）。此外，我们发现变量独立性对于PatchTST的鲁棒性至关重要。具体来说，PatchTST 专注于对时间依赖性（跨时间依赖性）进行建模并独立预测每个变量。为了验证变量独立性假设的有效性，我们设计了Time-TCN，它只在时间维度上卷积。Time-TCN 优于 FSNet，FSNet 是一种最先进的在线预测方法，与常用的可变维度卷积 TCN 结构相比，它取得了显着的收益。

表 1：在线集成的一个激励示例，其中报告的指标为 MSE，预测跨度长度设置为 48。单元格根据 MSE 值进行着色，从低（红色）到中（白色）再到高（蓝色）。标题为“交叉变量”的列是指专注于对跨变量依赖性进行建模的方法，标题为“跨时间”的列是指仅利用时间依赖性并假设协变量之间独立性的方法。所有方法都使用相同的训练和在线适应策略。

图 1：在线适应的激励示例，其中报告的指标是 MSE，在在线适应期间预测跨度长度设置为 48。Cross-Time 是指假设协变量之间独立且仅对时间依赖性进行建模的 TCN 主干，而交叉变量是指采用跨变量依赖性的 TCN 主干。

尽管变量独立性增强了模型的鲁棒性，但跨变量依赖性对于预测也至关重要，即对于特定变量，来自其他变量中相关序列的信息可能会改善预测结果。如表 1 所示，对于数据集 ETTm1 和 ETTh2，对于变量数量较少的数据集，跨时间预测器往往会产生较低的性能。令人惊讶的是，旨在利用跨变量和跨时间依赖关系的现有模型，例如 CrossFormer [Zhang and Yan， 2023] 和 TS-Mixer [Chen et al.， 2023]，其性能往往比原生 TCN 差。为了研究这一现象，我们在图1中可视化了跨时间模型（Time-TCN）和跨变量模型（TCN）在整个在线适应过程中不同时间步长的MSE。我们观察到 MSE 相对于在线适应的大幅波动，表明随着时间的推移存在显着的概念漂移。我们还观察到，这两种方法的性能都不比另一种方法好，这表明这两种数据假设在整个时间序列中都不成立。这就是为什么依靠像CrossFormer这样的单一模型无法解决这个问题的原因。现有的工作依赖于一个简单的模型，但对于在线时间序列预测，模型偏差的数据偏好会随着在线概念漂移而不断变化。因此，我们需要一个依赖于数据的策略来不断改变模型选择策略。换句话说，在线时间序列预测应该超越参数更新。

在本文中，我们通过引入一组共享不同数据偏差的模型来解决单一模型在在线时间序列预测中的局限性。然后，我们学习动态组合来自各个模型的预测，以便更好地进行预测。通过允许每个模型独立训练和在线更新，我们可以充分利用每个在线模型;通过动态调整不同模型的组合，我们可以从整个模型集合中发挥出最佳效果。我们将我们的方法称为在线集成网络或简称 OneNet。更具体地说，OneNet 维护着两个在线预测模型，一个专注于时间相关性建模，另一个专注于跨变量依赖性建模。每个模型都使用同一组训练数据进行独立训练。在测试过程中，开发了一种基于强化学习（RL）的方法，用于动态调整用于组合两个模型预测的权重。与传统的在线学习方法（如指数梯度下降）相比，我们基于RL的方法在适应概念的变化/漂移方面更有效，从而获得更好的性能。本文的贡献包括：

我们介绍了 OneNet，这是一种用于在线时间序列预测的双流架构，它使用在线凸规划集成了两个模型的输出。OneNet利用变量无关模型的鲁棒性来处理概念漂移，同时捕捉不同变量之间的相互依赖关系，以提高预测的准确性。此外，我们提出了一种基于RL的在线学习方法，以减轻传统OCP算法的局限性，并通过实证和理论分析证明其有效性。
我们对四个数据集的实证研究表明，与最先进的方法相比，OneNet 将平均累积均方误差（MSE）降低了 53.1%，平均绝对误差（MAE）降低了 34.5%。特别是，具有挑战性的数据集 ECL 的性能提升更胜一筹，其中 MSE 降低了 59.2%，MAE 降低了 63.0%。
我们进行了全面的实证研究，以调查预测模型的常用设计选择，例如实例归一化、变量独立性、季节性趋势分解和频域增强，如何影响模型的鲁棒性。此外，我们系统地比较了现有基于Transformer的模型、基于TCN的模型和基于MLP的模型在面对概念漂移时的鲁棒性。

2 前期及相关工作

概念漂移。现实世界中的概念通常是动态的，并且会随着时间的推移而变化，对于天气预报和客户偏好等场景尤其如此。由于基础数据分布的未知变化，从历史数据中学习的模型可能会与新数据不一致，因此需要定期更新以保持准确性。这种现象被称为概念漂移[Tsymbal，2004]，增加了从数据中学习模型的过程的复杂性。在本文中，我们专注于时间序列预测的在线学习。与大多数现有的在线时间序列预测研究 [Li et al.， 2022， Qin et al.， 2022， Pham et al.， 2023] 不同，这些研究只关注如何在线更新他们的模型，这项工作超越了参数更新，引入了多个模型和可学习的权重，产生了丰富而灵活的假设空间。由于篇幅所限，更多关于时间序列预测和强化学习的相关著作留在附录中。

在线时间序列预测：流数据。传统的时间序列预测任务具有多变量时间序列的集合，其回溯窗口 $L：（x_i）^L_{i=1}$，其中每个 xi 是 M 通道向量$ \mathbf{x}i = （x^j_i ）^M$。给定预测跨度 H，目标是预测 H 的未来值 $（x_i）^{L+H }_{i=L+1}$。在实际应用中，该模型建立在预测未来数据所需的历史数据之上，即给定时间偏移量 $K′ > L$，并且 $（x_i）^{K′} _{i=K′−L+1}$，模型需要预测$ （x）^{K′+H}{ i=K′+1}$。在线时间序列预测 [Anava et al.， 2013， Liu et al.， 2016， Pham et al.， 2023] 由于数据的顺序性和概念的频繁漂移，在现实世界中是一种广泛使用的技术。**在这种方法中，学习过程发生在一系列回合中，其中模型接收回溯窗口并预测预测窗口。然后揭示真实值，以提高模型在下一轮中的性能**。当我们进行在线自适应时，使用在线数据流重新训练模型，每个通道的 MSE 损失为：$\mathcal{L}= \frac{1}{M}\sum^M ∥ \hat{x}^j_{K′+1：K′+H} − x^j_{K′+1：K′+H }∥$。

图 2：（a） OneNet 通过跨时间和跨变量分支处理多变量数据，每个分支负责捕获不同的方面。这两个分支的权重由 OCP 块生成，只有黑色箭头需要在训练期间执行。（b） OCP 模块通过利用指数梯度下降（EGD）的长期历史和离线强化学习（RL）的短期历史来产生编码权重。

与变量无关的时间序列预测。大多数结构中使用的传统交叉变量策略将所有时间序列特征的向量作为输入，并将其投射到嵌入空间中以混合信息。相反，PatchTST [Nie et al.， 2023] 采用与变量无关的方法，其中每个输入令牌仅包含来自单个通道/变量的信息。我们的研究表明，变量独立性对于在概念漂移下提高模型鲁棒性至关重要。对于多变量时间序列样本$ （x^j_ i ）^L _{i=1}$，每个通道 j 独立输入模型，预报员相应地生成预测结果 $（x^j_ i ）^{L+H} _{i=L+1}$。如表 1 所示，当数据集具有大量变量时，交叉变量方法往往会过拟合，从而导致性能不佳。这在 ECL 数据集中 SOTA 在线适应模型 FSNet [Pham et al.， 2023] 的糟糕表现中很明显。但是，缺乏跨变量信息的模型在具有少量变量的数据集上表现较差，其中跨变量依赖关系可能是必不可少的。尽管一些现有的工作试图将跨变量交互作用和时间依赖性合并到一个单一的框架中，但我们的实验表明，这些模型在概念漂移下是脆弱的，并且性能并不比提出的简单基线 Time-TCN 好。为了解决这个问题，我们提出了一种新的方法，训练两个独立的分支，每个分支分别专注于建模时间和跨变量依赖关系。然后，我们将这些分支的结果结合起来，在概念漂移下实现更好的预测性能。我们首先介绍用于相干性的 OCP 模块。

3 OneNet：用于在线时间序列预测的集成学习

我们首先研究了在线学习方法，以动态调整集成学习使用的组合权重。然后，我们介绍了OneNet，这是一个用于在线时间序列预测的集成学习框架。

3.1 通过在线凸规划（OCP）学习最好专家

为了清楚起见，这里我们用 $\mathbf{x}\in{\mathcal{R}^{L×M}}$ 表示为历史数据，将 $\mathbf{y}\in{R^{H×M }}$表示为预测目标。我们目前的方法涉及多个互补模型的集成。因此，如何更好地将模型预测整合到在线学习环境中是一个重要问题。指数梯度下降（EGD） [Hill 和 Williamson， 2001] 是一种常用的方法。具体来说，决策空间 △ 是一个 d 维单纯形，即 $△ = {\mathbf{w}_t|w_t，i ≥ 0 \& ∥ \mathbf{w}_t ∥_1= 1}$，其中 t 是时间步长指示符，为了简单起见，我们省略了下标 t，以免混淆。给定在线数据流 $\mathbf{x}$、其预测目标$ \mathbf{y} $和具有不同参数$ \mathbf{f} = [\tilde{y}i = f_i（\mathbf{x}）]^d $的预测专家，玩家的目标是将预测误差最小化为

根据 EGD，选择 $\mathbf{w}_1 = [w_1，i = 1/d]^d_{i=1}$ 作为单纯形的中心点，并将 $l_{t，i} $表示为时间步长 t 处的$ f_i $损失，每个$ w_i $的更新规则将为

其中$ Z_t = \sum^d_{i=1} w_{t,i }exp（−ηl_{t,i}）$ 是归一化器，算法有一个遗憾边界：

命题 1。（在线凸编程边界）对于 T > 2 log（d），将时间步长 t = 1，. . . ， T的遗憾表示为 R（T），设置$ η = \sqrt{2 log（d）/T} $，OCP 更新策略具有外部遗憾（有关证明和分析，请参阅附录 B.1)。

也就是说，指数加权平均预测器保证预测器的累计预期损失不会比最佳决策的累计损失大多少。然而，众所周知，指数加权平均预报员对分布的剧烈变化的反应非常缓慢[Cesa-Bianchi和Lugosi，2006]。这种现象在在线学习文献中有时被称为“慢速切换现象”，如图 3 所示，其中前 50 次试验的 f1 损失为 0，接下来的 50 次试验为 1。f2 的性能则相反。当步长η较小（例如，η = 0.01）时，对权重进行微小的更改，并且不会发生明显的调整。当应用较大的步长η（例如，η = 1）时，我们观察到EGD算法通过在前几次迭代中将权重w1增加到几乎1，在前50次试验中快速适应环境变化。但是 EGD 算法需要多次迭代才能适应接下来 50 次迭代的变化，其中 f2 比 f1 工作得更好。我们最后注意到，无论我们如何调整步长η，EGD算法都必须在整个范围内进行切换速度和整体良好性能之间的权衡。

图 3：分配给 f1 的权重的演变，其中预报员的损失在第一种制度 [0， 50] 和第二制度 [50， 100] 中有所不同。

尽管很少有算法可以解决在线学习中的这个问题[Stoltz and Lugosi， 2005， Cesa-Bianchi and Lugosi， 2003， Blum and Mansour， 2007， Foster and Vohra， 1998]，但关键思想是找到一个激活函数，该函数根据最近所有专家的流失将原始策略映射到新策略。尽管做出了这些努力，但无论是在经验上还是在理论上，都取得了非常有限的成功。在这项工作中，我们在实验中观察到，EGD算法生成的组合权重w是基于长期的历史性能，因此不能快速适应瞬态环境变化。因此，最好有效地将长期历史信息和环境的最新变化结合起来。一个简单的想法是重新初始化每 K 步的权重 w。我们展示了这样一个简单的算法可以实现更严格的界限：

命题 2.（非正式）表示 I = [l， · · · ， r] ∈ [1， · · · ， T ] 作为任意时间段。然后，我们得到，与 EGD 相比，K 步重新初始化算法在任何小间隔 I 上都具有更严格的遗憾界限，其中$|I|< T^{\frac{ 3} {4}} $.（证据见附录B.2)。

命题 2 强调，通过考虑短期信息，我们可以在短时间内获得较低的遗憾。这种简单的策略仍然在K的超参数选择上挣扎。此外，丢弃长期信息会使算法在很长一段时间的在线学习过程中不如EGD。在这项工作中，我们通过利用离线强化学习来解决在线学习的这一挑战 [Levine et al.， 2020]。首先，我们使用 EGD 来维持长期权重 w。此外，我们引入了一组不同的权重b，可以更好地捕捉单个模型的近期表现。通过结合 w 和 b，我们的方法可以有效地整合长期历史信息和最近环境的变化。

具体来说，我们采用 RvS [Emmons et al.， 2022] 框架，该框架通过监督学习来制定强化学习，如图 2（b）所示。在时间步长 t 中，我们的目标是学习一个短期权重，条件是长期权重 w 和专家在短时间内的表现 I = [l， t]。为了简单起见和计算效率，我们只让 l = t − 1。然后，代理使用策略$π_{θ_{rl}}(b_t|\{\{w_t，i \tilde{y}_i\}^d_{i=1}\}_{t∈I};\mathbf{y}\}$ 由$ θ_{rl}$ 参数化。在训练过程中，我们将每个预测和专家权重$（w_{t，i} ∗ \tilde{y}_i）$之间的乘积与结果 y 作为条件输入连接起来。我们遵循 RvS [Emmons et al.， 2022] 将策略网络实施为两层 MLP$ f_{rl} ： R^{H×M×（d+1）} → R^d$。那么短期权重和最终权重将是：

然而，与 RvS 不同的是，我们无法通过简单的分类任务来训练决策网络，因为无法访问地面实况目标动作。相反，我们建议通过最小化新权重产生的预测误差来训练网络，即$min_{θ_{rl}} \mathcal{L}（ \tilde{w}）：=∥ \sum^d _{i=1} \tilde{w}_{t，i}f_i（x） − y ∥^2$。在推理过程中，随着概念漂移的逐渐变化，我们使用 $w_{t−1} + b_{t−1} $来生成预测，并在观察到地面实况结果后训练网络。我们从理论和实证上验证了附录B.4中提出的OCP模块的有效性。

3.2 OneNet：利用两种结构的优势

模型结构如图2（a）所示，我们介绍组件如下：

双流预报员。输入的多变量时间序列数据被输入到两个单独的预报器中，即跨时间预报员$ f_1$ 和跨变量预报员 $f_2$。每个预测器都包含一个编码器和一个预测头。假设模型的隐藏维度都是 $d_m$，则$ f_1$ 的编码器将输入序列投影到表示 $z_1 ∈ R^{M×d_m}$ ，预测头生成最终的预测结果:$\tilde{y}_1 ∈ R^{M×H}$ 。对于交叉变量预报器 $f_2$，编码器将 x 投影到$ z_2 ∈ R^{L×d_m}$ 。然后，选择最后一个时间步长 $z_2，L ∈ R^{d_m} $的表示并输入预测头，以生成最终的预测结果 $y_2 ∈ R^{M×H}$ 。与$f_1$的投影头参数为$d_{m} ×H$相比，$f_2$的投影头的参数为$d_m ×M ×H$，更重，尤其是在M较大时。此外，虽然$ f_1$ 忽略了变量依赖性，但 $f_2 $只是选择最后一个时间步长时间序列的表示形式，忽略了时间依赖性。这两个模块为预测任务产生不同但互补的归纳偏差。然后使用 OCP 模块来学习最佳组合权重。具体来说，我们使用 EGD 来更新每个预测者的权重$ w_i$，并使用离线强化学习来学习额外的短期权重 $b_i$，一个预测者的最终组合权重将是 $w_i ← w_i + b_i$。考虑到变量之间的差异，我们进一步为每个变量构造不同的权重，即我们将有 $w ∈ R^{M×2} $的组合权重。

解耦训练策略。OneNet 的一个简单训练策略是最小化 OCP 块和两个预测器的$ \mathcal{L}（w_1 ∗ \tilde{y}_1 + w_2 ∗ \tilde{y}_2， y）$，其中$ w_i$ 表示带有附加偏差项的权重。然而，耦合训练策略有一个致命的缺陷：考虑到$ f_1$ 总是比 $f_2 $表现好得多的极端情况，那么 $w_1$ 将接近 1，$w_2 → 0$。在这种情况下，$\nabla _{\tilde{y}_2}\mathcal{ L}（w_1 ∗ \tilde{y}_1 + w_2 ∗ \tilde{y}_2， y） ≈ 0$，也就是说，$f_2$ 可能很长一段时间没有训练。在概念漂移的背景下，如果不应用再训练，随着时间的推移，$f_2$的性能会变得很差。因此，在本文中，我们将OCP块和两个预报器的训练过程解耦。具体来说，两个预测器由$ L（ ̃ y1， y） + L（ ̃ y2， y） $训练，OCP 块由 $L（w1 ∗ ̃ y1 + w2 ∗ ̃ y2， y）$ 训练。

注：OneNet是针对时间序列预测和概念漂移下在线适配方法的高级架构的补充。更强大的骨干或更好的适应策略/结构都可以提高绩效。

4 实验

在本节中，我们将展示：（1）所提出的OneNet仅通过简单的再训练策略（与以前的SOTA模型相比，MSE降低了50%以上）即可获得卓越的预测性能;（2）OneNet比其他方法实现更快、更好的收敛;（3）我们进行了彻底的消融研究和分析，以揭示当前先进预测模型中每个设计选择的重要性。最后，我们介绍了OneNet的一个变体，称为OneNet-，它的参数明显较少，但仍然大大优于以前的SOTA模型。由于篇幅所限，附录中提供了部分实验设置和结果。

表2：各种适应方法的MSE。H：预测范围。OneNet-TCN是TCN和Time-TCN的混合体，OneNet是FSNet和Time-FSNet的混合体。

4.1 实验设置

适应方法的基线 我们评估了实验的几个基线，包括持续学习、时间序列预测和在线学习的方法。我们的第一个基线是 OnlineTCN [Zinkevich， 2003]，它连续训练模型，没有任何特定的策略。第二个基线是体验回放（ER） [Chaudhry et al.， 2019]，其中以前的数据存储在缓冲区中，并在学习过程中与较新的样本交错。此外，我们考虑了ER的三种高级变体：TFCL [Aljundi et al.， 2019b]，它使用任务边界检测机制和知识整合策略;MIR [Aljundi et al.， 2019a]，选择导致最遗忘的样本;和 DER++ [Buzzega 等人，2020 年]，它结合了知识蒸馏策略。值得注意的是，ER及其变体是在线环境中的强基线，因为我们在训练期间利用小批量来减少单个样本的噪音，并实现更快、更好的收敛。最后，我们将我们的方法与 FSNet [Pham et al.， 2023] 进行比较，后者是以前最先进的在线适应方法。考虑到不同的模型结构，我们比较了各种结构在概念漂移下的性能，包括TCN [Bai et al.， 2018]、Informer [Zhou et al.， 2021]、FEDformer [Zhou et al.， 2022b]、PatchTST [Nie et al.， 2023]、Dlinear [Zeng et al.， 2023]、Nlinear [Zeng et al.， 2023]、TS-Mixer [Chen et al.， 2023]。

强大的整合基线。为了验证所提出的OCP模块的有效性，我们将其与几个合并基线进行了比较。给定在线输入 x、每个专家的预测 ̃ y1、̃ y2 和基本事实结果 y，不同基线的最终结果 ̃ y 如下：（1） 简单平均：我们简单地将两位专家的预测平均得到最终预测，即 ̃ y= 1 2（ ̃ y1 + ̃ y2）。（2）门控机制Liu et al. [2021]：我们学习每个预报员输出的权重，即h = WConcat（ ̃ y1， ̃ y2） + b;W1， W2 = Sof Tmax（h），最终结果由下式给出 ̃ y = w1 ∗ ̃ y1 + w2 ∗ ̃ y2.（3） Mixture-of-expertsJacobs et al. [1991]， Shazeer et al. [2017]：我们使用专家混合方法，首先通过对输入的线性组合应用 softmax 函数来学习权重 w1 和 w2，即 h = Wx + b;W1， W2 = Sof Tmax（h），然后我们将两位专家的预测组合为 ̃ y = w1 ∗ ̃ y1 + w2 ∗ ̃ y2 来获得最终预测。（4）线性回归（LR）：我们使用简单的线性回归模型来获得最优权重，即[w1， w2] = （XT X）−1XT y，其中X = [ ̃ y1， ̃ y2]，y是真值结果。（5） 指数梯度下降 （EGD）：我们使用 EGD 分别更新权重 w1 和 w2，而没有额外的偏差。（6）强化学习直接学习权重（RL-W）：我们使用OCP块中的偏差项，根据专家的预测和真实结果更新权重，即权重仅取决于̃y1、̃y2和y，而不取决于每个专家的历史表现。对于所有具有可训练参数的基线，训练过程与建议的 OCP 块相同。

4.2 在线预测结果

累积性能 表 2 和表 3 显示了不同基线在均方误差（MSE）和均值绝对误差（MAE）方面的累积性能。特别是，Time-TCN 和 PatchTST 表现出强大的性能，优于之前最先进的模型 FSNet [Pham 等人，2023 年]。拟议的OneNet-TCN（TCN和Time-TCN的在线结合）在各种预测范围内都超过了大多数竞争基线。有趣的是，如果合并后的分支更强大，例如，OneNet 将 FSNet 和 Time-FSNet 组合在一起，则性能比 OneNet-TCN 好得多。也就是说，OneNet可以集成任何先进的在线预测方法或表示学习结构，以增强模型的鲁棒性。OneNet 的平均 MSE 和 MAE 明显优于单独使用任何一个分支（FSNet 或 Time-TCN），这凸显了整合在线集成的重要性。

表3：各种适应方法的MAE。H：预测范围。OneNet-TCN是TCN和Time-TCN的混合体，OneNet是FSNet和Time-FSNet的混合体。

表4：融合方法的消融研究（MSE结果）。

与强结合基线的比较如表4所示。与 FSNet 相比，双分支框架仅使用简单的集成方法（如平均）大大提高了性能。从输入 x 中学习权重的 MOE 方法表现不佳，甚至不如简单地平均预测结果。另一方面，从预测中学习权重会导致 ̃ y1 和 ̃ y2（门控）的表现比 MOE 好得多。这表明组合权重应取决于模型预测。然而，将学习问题表述为线性回归并使用封闭式解决方案并不是一个好主意，因为在线数据流的稀缺性和学习权重中的高噪声。与平均法相比，EGD具有显著的优势，这突出了每个专家累积历史表现的重要性。此外，我们观察到RL-W在某些数据集上的性能与EGD相当甚至更好。因此，我们提出了使用 EGD 更新长期权重和离线 RL 学习短期权重的 OCP 块。与所有其他基线相比，这种设计具有卓越的性能。

预测结果如图 4 所示。与难以适应新概念并产生较差预测结果的基线相比，OneNet 可以成功捕获时间序列的模式。更多可视化结果和收敛分析见附录C.7。

4.3 消融研究与分析

实例归一化和季节性趋势分解的效果如表5.所示。结果表明，无论模型是否在线适配，从 PatchTST 中去除季节性趋势分解分量的效果都有限。实例归一化通常用于缓解训练数据和测试数据之间的分布偏移，这在无法进行在线自适应时对于模型的鲁棒性至关重要。但是，在进行在线适配时，实例规范化的影响会降低。有趣的是，我们的实验表明，当预测跨度较长（24或48）时，实例归一化会阻碍ETTH2、ETTm1和WTH数据集中的模型适应过程。因此，在概念漂移下，简单地使用零均值和单位标准差对时间序列进行归一化可能不是最佳方法。可变独立性和频域增强的消融研究详见附录。

图 4：在线学习期间可视化模型的预测和参数。（a） ECL数据集上不同模型在不同预测范围下的参数数量。我们专注于从 t = 2500 开始的短 50 时间步长范围。（b）和（c）描述了模型对 ECL 数据集的第一和第二通道的预测结果。

表 5：非适应性 PatchTST 和在线适应性 PatchTST 的实例归一化（inv）和季节性趋势分解（Decomp）的消融研究，其中指标为 MSE

深入研究参数高效的在线适配。虽然OneNet大大降低了预测误差，但由于其双流框架，它也增加了参数的数量和推理时间。我们还设计了 OneNet 的变体，其性能可能略低于 OneNet，但参数更少，使其更适合轻量级应用程序，用 OneNet- 表示。具体来说，我们集成了 PatchTST 和 Time-FSNet，它们都是与变量无关的。在这种情况下，将 z1、z2 表示为来自两个分支的一个变量的生成特征，我们将这两个特征连接起来并将它们馈送到投影头中，这进一步避免了用于组合权重学习的离线强化学习模块并减少了参数。例如，在 ECL 数据集中，隐藏维度 FSNet [Pham et al.， 2023] 为 320，序列有 321 个通道。当预测跨度为 48 时，投影头仅由一个具有 320 × 321 × 48 = 4， 930， 560 参数的线性层组成。相反，OneNet- 的串联特征始终小于 1024 维，导致最终投影头小于 1024 × 48 = 49， 152 个参数。图4（a）显示了ECL数据集上不同方法的详细比较。对于较小的预测范围，所有方法都具有相当数量的参数。随着预测范围的增加，现有适应方法的参数数量迅速增加。相反，OneNet-的参数数量对预测范围仍然不敏感，并且总是少于所有基线。OneNet-的性能如表12所示，它比FSNet好得多，但实现的参数更少。

请参阅附录，了解不同预测模型的比较和更多数值结果，例如不同超参数的详细消融研究和更多设置下的适应结果。

5 结论和未来工作

通过对具有概念漂移的高级预测模型行为的调查，我们发现，当变量数量较多时，跨时间模型表现出更大的鲁棒性，但在变量数量较少时，跨时间模型表现出较弱的模型。此外，由于概念漂移的发生，这个问题变得更具挑战性，因为在整个在线预测过程中，两种模型偏差的数据偏好都在动态变化，这使得单个模型难以克服。为此，我们提出了OneNet模型，该模型通过OCP利用了两种模型的优势。此外，我们建议通过离线强化学习来学习额外的短期权重，以缓解传统策略学习算法中常见的慢转换现象。我们广泛的实验表明，OneNet能够有效地处理各种类型的概念漂移，并且在预测性能方面优于以前的方法。

我们还发现，实例归一化增强了模型在概念漂移下的鲁棒性，但会阻碍模型在某些场景中快速适应新分布的能力。这促使人们进一步探索是否存在一种归一化技术，该技术可以减轻分布变化，同时能够快速适应不断变化的概念。此外，尽管我们设计了一个精简版的OneNet来解决引入额外参数和推理时间的问题，但有可能采用更有效的适应方法，例如利用NLP / CV社区的提示和有效的调整方法，以避免重新训练完整的模型。