Falcon：我们是靠洗数据洗败 LLaMA 的！-526互联

原文链接：https://blog.csdn.net/qq_27590277/article/details/131298092

思想：

从数据入手，想炼丹，先把好原材料的关。

这个模型仅使用“互联网语料”（不需要额外的数据源），就可以训练一个不错的大模型。

问题点：

数据、wikipedia、论文集这些数据集质量高，但是不易扩展，数量级起不来。

假设：世界上所有的信息都能在互联网信息中被找到，只是信息密度比【结构化的精选数据集】要更低。

方案：

互联网数据清洗

1 url过滤

2 内容抽取

3 语言识别

4 规则过滤：篇章级：整体长度、符号比率；句子级：关键词匹配“点赞”、"转发"、“展开”

5 去重 tokenizer+spark+simhash+faiss

6 基于统计知识的打分模型

结论：

FalCon的模型也是传统的Rotary Emb+Flash Attention的Decoder结构，从效果看，不管是pretrain还是finetuning，【数据质量】都比【模型结构】更重要。