LLaMA

预训练Token数量 1.4T
- CommonCrawl，C4：互联网网页
- github：代码
- wikipedia：百科
- books，arxiv：书籍论文
- StackExchange：科学问答
pre-norm + RMSNorm
- $Pre Norm: x_{t+1}=x_t+F(Norm(x_t))$
- $Post Norm: x_{t+1}=Norm(x_t+F(x_t))$
- 关于两者的讨论可以参考博客
- RMSNorm：计算减少，效果不差
  - layernorm：re-scale（方差）+ re-center（均值）
  - RMSNorm：re-scale（方差）
FFN->SwiGLU
- FFN: $ max(0,xW_1 )W_2 $
- SiLU：$ x*sigmoid(x)$，零点附近梯度较为友好
- SwiGLU: $ (SiLU(xW_{gate}) ⊗ xW_1 )W_2 $
RoPE
- 将相对位置的计算放在QKV的QK时进行博客1 博客2
上下文长度2048

LLaMA-2