nlp八股-中文分词

发布时间 2023-09-22 15:09:13作者: shiiiilong

分词

基于字典的分词,基于标注的分词

基于字典的分词

基于字典 博客

  • 列出所有分词可能,算出每种分词概率
    • 马尔可夫假设:每个词的出现只跟前一个词的出现有关
    • n-gram:每个词的出现跟前n-1个词有关
  • 构建有向无环图,viterbi算法求最优路径
    • 效率更高

jieba分词原理