Falcon:我们是靠洗数据洗败 LLaMA 的!

发布时间 2023-10-25 15:20:40作者: 是我菜了

原文链接:https://blog.csdn.net/qq_27590277/article/details/131298092

思想:

从数据入手,想炼丹,先把好原材料的关。

这个模型仅使用“互联网语料”(不需要额外的数据源),就可以训练一个不错的大模型。

问题点:

数据、wikipedia、论文集这些数据集质量高,但是不易扩展,数量级起不来。

假设:世界上所有的信息都能在互联网信息中被找到,只是信息密度比【结构化的精选数据集】要更低。

方案:

互联网数据清洗

1 url过滤

2 内容抽取

3 语言识别

4 规则过滤:篇章级:整体长度、符号比率;句子级:关键词匹配“点赞”、"转发"、“展开”

5 去重 tokenizer+spark+simhash+faiss

6 基于统计知识的打分模型

结论:

FalCon的模型也是传统的Rotary Emb+Flash Attention的Decoder结构,从效果看,不管是pretrain还是finetuning,【数据质量】都比【模型结构】更重要。