词表

大模型词表构建

1.引言 在文本输入embedding层之前,以中文文本为例,首先对文本进行分词并进行one-hot编码,分词肯定是根据词表来进行分词,那构建一个合适的词表就显得至关重要,过大或者过小都会对后续模型的训练效果产生影响。所以这里介绍当前各个大模型的词表构建方法。 2.技术基础 在介绍具体的词表构建方法 ......
词表 模型

Llama2-Chinese项目:2.2-大语言模型词表扩充

因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese ......
词表 Llama2-Chinese 模型 Chinese 语言

基于SentencePiece扩充LLaMa中文词表

Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于 ......
词表 SentencePiece LLaMa

Llama2-Chinese项目:2.2-大语言模型词表扩充

因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese ......
词表 Llama2-Chinese 模型 Chinese 语言

怎么裁剪LLM(大语言模型)的vocab(词表)?

怎么裁剪LLM(大语言模型)的vocab(词表)? Part1前言 对于一些多语言的大语言模型而言,它的词表往往很大。在下游使用这些模型的时候,可能我们不需要其它的一些语言,例如只需要中文和英文,此时,我们可以对其vocab进行裁剪,既可以大大减少参数量,也能够保留模型的性能,接下来以Bloom模型 ......
词表 模型 语言 vocab LLM

动词过去式、过去分词不规则变化词表

一般来说,英语中使用过去时、完成时等时态时,动词要变为过去式或过去分词的形式。 那么动词过去式、动词过去分词如何变化呢? 一般情况下,规则动词的过去式、过去分词的构成规则相同。 规则动词变化形式有: ▪直接在动词原型后面+ed构成过去式,如called; ▪以不发音e结尾的动词,直接在动词词尾+d构 ......
词表 动词
共6篇  :1/1页 首页上一页1下一页尾页