盘古天气大模型-526互联

摘要：ERA5数据训练。创新：1. 三维transformer 2. 层级结构的时间聚合算法，能够缓解误差累积

硬件：华为云 192个英伟达 Tesla-V100，100epoch训15天

方法：预训练任务就是预测

和Climax一样，没有采用迭代预测，而是指定Δt，直接进行预测。但是前者使用的是时间编码，让模型来识别需要预测多久的，这里使用不同的lead time使用不同的model，然后使用模型聚合的方式实现指定时间

编解码结构是类似unet，编码下采样一次，解码上采样一次

具体自注意力计算方式只是非常简单的提了一句用了shifted-window方式，然后给了一篇文献，不知道和swin有多相似，但是明确说了自注意力是在窗口内计算的。

这里有一个比较特色的贡献就是改了一下注意力计算中的bias项，提出了一个适合地球特征的B。原始版本应该是不分维度和高度，全图都使用同一套自注意力参数，也就是同一个B，这里提出根据纬度和高度给出不同的B，其本质是多了许多可学习的参数。这里有一个很重要的点，作者说在实际操作中，并没有发现因为增加了大量的参数而训练困难，反而因为引入了有效的先验知识（不同纬度和高度应该不同对待），模型收敛的更快了。

好像climax还是哪个用的是基于地球特征的损失函数权重，也就是说极地地区密集分布点的位置给少一点权重，赤道地区显然每个点的预测结果更重要，权重更大。

以上两种方式，如果将来做全球的，需要参考

时间聚合：作者发现迭代预测的误差累积无法避免，如果将一次预测的时间步长缩短，那么预测到同样未来时间长度就需要更多的时间步，这样的做法会让累计误差急剧增大。所以不管你预测多远的未来，更多的迭代次数一定会带来更大的误差。反之如果一次预测的时间步长缩短，更少的迭代次数通常能带来更好的结果。所以这里提出了时间聚合算法，分别训练了1/3/6/24小时预测模型，在给定预测时间后，模型自动选择迭代步骤最少的一个组合。说白了就是用支付纸币的组合方案。作者指出时间聚合算法也使得模型更容易训练。

上面说的四种时间长度模型都在192个tesla-V100上训练了16天，但还没有到最优。作者反复提及训练开销太大了，100epoch并没有下降到最优，同时模型的超参也没有调等等