526互联

HanLP — HMM隐马尔可夫模型 -- 语料库

发布时间 2023-12-13 16:54:41作者: VipSoft

BMES => B:词语开始、M：词语中间、E：词语结束、S:单独成词
并非所有中文任务都需要分词

语料库

每行是一篇“文章”
每篇文章用空格分开
语料库的准确性，严重影响分词结果
理论上，语料库越大越好

每个字都有一个标识（隐藏状态），可以根据语料库得到所有标识

中文分词就是为了得到状态

麻	辣	肥	牛	真	好	吃	！
B	M	M	E	S	B	E	S

根据已知状态进行分词，即在"E"和"S"后面输出空格即可

将已分好的词得到每个字的状态

https://www.bilibili.com/video/BV1aP4y147gA?p=3

语料库语料模型hanlp

模型hanlp hmm

语料cleaning模型corpus

信息attention语料库语料

方法论语料库语料雅思听力

语料minhashlsh文本spark

语料库语料指令coig

语料库语料section4 section