LLaMA,LLaMA-2中的变化

发布时间 2023-09-28 13:52:39作者: shiiiilong

LLaMA

  • 预训练Token数量 1.4T

    • CommonCrawl,C4:互联网网页
    • github:代码
    • wikipedia:百科
    • books,arxiv:书籍论文
    • StackExchange:科学问答
  • pre-norm + RMSNorm

    • \(Pre Norm: x_{t+1}=x_t+F(Norm(x_t))\)
    • \(Post Norm: x_{t+1}=Norm(x_t+F(x_t))\)
    • 关于两者的讨论可以参考 博客
    • RMSNorm:计算减少,效果不差
      • layernorm:re-scale(方差)+ re-center(均值)
      • RMSNorm:re-scale(方差)
  • FFN->SwiGLU

    • FFN: $ max(0,xW_1 )W_2 $
    • SiLU:$ x*sigmoid(x)$,零点附近梯度较为友好
    • SwiGLU: $ (SiLU(xW_{gate}) ⊗ xW_1 )W_2 $
  • RoPE

  • 上下文长度2048

LLaMA-2

  • 预训练Token数量 2T
  • pre-norm + RMSNorm(layerNorm的简化版)
  • SwiGLU activation function
  • RoPE
  • 上下文长度4096
  • GQA(grouped-query attention)