AI经典模型参数规模-526互联

| 模型 | 参数数量 |
|-----------------------------|-----------------------------|
| AlexNet | 约 60 million |
| VGG16 | 约 138 million |
| ResNet50 | 约 25 million |
| InceptionV3 | 约 23 million |
| MobileNetV2 | 约 3.5 million |
| EfficientNetB0 | 约 5 million |
| BERT (Base) | 约 110 million |
| GPT-1 | 约 110 million |
| GPT-2 (1.5 billion 参数) | 约 1.5 billion |
| GPT-3 (175 billion 参数) | 约 175 billion |
| GPT-3.5 (175 billion参数) | 约 175 billion |

1. BERT (Bidirectional Encoder Representations from Transformers):
参数数量：约 110 million（BERT Base）
简介：BERT 是一种基于 Transformer 模型的预训练模型，通过双向上下文表示学习在各种 NLP 任务中取得了显著的成功。

2. ELMo (Embeddings from Language Models):
参数数量：依赖于具体配置，通常较大
简介：ELMo 通过组合不同层次的语言模型来生成词嵌入，具有上下文感知性。

3. Transformer-XL:
参数数量：依赖于具体配置，通常较大
简介：这是 Transformer 模型的变体，专注于处理长文本序列，并引入了相对位置编码。

4. XLNet:
参数数量：依赖于具体配置，通常较大
简介：XLNet 结合了 Transformer 和自回归模型的优点，引入了“permutation language modeling”来捕捉全局关系。

5. RoBERTa (Robustly optimized BERT approach):
参数数量：约 125 million
简介：RoBERTa 是对 BERT 的一种改进，通过修改训练动态和采样策略来提高性能。
6. GPT-2 (Generative Pre-trained Transformer 2):
参数数量：约 1.5 billion（GPT-2 Small）
简介：GPT-2 是一个自回归语言模型，采用了 Transformer 架构，被设计用于生成文本。