ner的回忆与暂别

发布时间 2023-10-12 16:42:50作者: 时光如你般美好

最近在做一些ner方面的工作,想到了一些小细节,这里回顾记录一下自己之前工作中用到的一些小技巧,主要是通过数据增强和训练策略做一些小提升。后面估计主要工作研究点放大模型和知识图谱了,记录一下原始的

数据集的采集:

  • 很多项目没有数据集,那么就需要我们去找一些数据集,数据集的一些网站如下:

  • 数据增强技巧

    • 同类型实体随机替换,当实体全集足够全足够多的时候,那么效果肯定是最好的
    • 实体随机MASK,实体根据语句长度随机删除实体中的字
    • 实体拼接,拼接同类实体能够增多实体的识别
    • 训练的时候动态加载替换的实体,那么语料中10个实体训练一轮中随机替换一次能够换一次实体
    • 随机删除全是“O”的语句中的一些停用词,或者一定概率删除全是“O”的语句