transformer中decoder到底是串行还是并行-526互联

在Transformer中，Decoder部分内部的不同层通常可以并行工作，这意味着每个Decoder层可以同时处理整个序列。比如，在处理Self-Attention时，模型可以同时计算所有位置的注意力权重。

但在生成输出序列时，尽管Decoder内部的不同层可以并行工作，模型仍然需要按顺序逐步生成每个词。这是因为Transformer是一个自回归模型，每个词的生成都依赖于前面已经生成的部分。因此，尽管Decoder内部的处理可以并行进行，但生成输出序列的过程本身是一个逐步的、自回归的过程，无法一次性并行地输出整个序列。

所以，在处理不同位置的信息时，Decoder内部的操作通常可以并行进行；但在生成序列时，模型仍然需要按顺序逐步生成每个词。这种情况下，并行性是在不同层内部的操作上，而不是在序列生成的过程中。