SentencePiece

NLP开源库SentencePiece

SentencePiece:SentencePiece 是一个提供无监督文本标记化和文本编码的库。它的主要特点是可以在字符级别和单词级别之间找到一个平衡,使用所谓的"subword units"作为标记化的单位。这种方法特别适合处理罕见词和词汇变化。SentencePiece 包括两种主要的标记化算 ......
SentencePiece NLP

基于SentencePiece扩充LLaMa中文词表

Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于 ......
词表 SentencePiece LLaMa
共2篇  :1/1页 首页上一页1下一页尾页