HanLP
HanLP — HMM隐马尔可夫模型 -- 训练和预测
训练的过程,就是求三个矩阵的过程 初始概率矩阵 转移概率矩阵 发射矩阵 每个字有4种可能性,上图中有7个字,就是 4^7 种可能性 维特比算法,从众多路径中,挑出最优的那条,他和隐马尔可夫没有强关联 初始概率矩阵 根据频率得到概率 今天 天气 真 不错。 麻辣肥牛 好吃 ! 我 喜欢 吃 好吃 的! ......
HanLP — HMM隐马尔可夫模型 -- 语料库
BMES => B:词语开始、M:词语中间、E:词语结束、S:单独成词 并非所有中文任务都需要分词 语料库 每行是一篇“文章” 每篇文章用空格分开 语料库的准确性,严重影响分词结果 理论上,语料库越大越好 每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识 中文分词就是为了得到状态 麻 辣 ......
HanLP 学习
学习 HanLP 需要了解, 双数组Trie树 (Double-array Trie) Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机 TreeMap pip install hanlp[full] -i https://pypi.tun ......