词表-526互联

大模型词表构建

1.引言在文本输入embedding层之前，以中文文本为例，首先对文本进行分词并进行one-hot编码，分词肯定是根据词表来进行分词，那构建一个合适的词表就显得至关重要，过大或者过小都会对后续模型的训练效果产生影响。所以这里介绍当前各个大模型的词表构建方法。 2.技术基础在介绍具体的词表构建方法 ......

词表模型更新时间 2023-12-06

Llama2-Chinese项目：2.2-大语言模型词表扩充

因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese ......

词表 Llama2-Chinese 模型 Chinese 语言更新时间 2023-10-01

基于SentencePiece扩充LLaMa中文词表

Sentencepiece是google开源的文本Tokenzier工具，其主要原理是利用统计算法，在语料库中生成一个类似分词器的工具，外加可以将词token化的功能；对比开源的分词器，它会将频繁出现的字符串作为词，然后形成词库进行切分，所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于 ......

词表 SentencePiece LLaMa更新时间 2023-09-25

Llama2-Chinese项目：2.2-大语言模型词表扩充

因为原生LLaMA对中文的支持很弱，一个中文汉子往往被切分成多个token，因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型，然后将中文tokenizer与LLaMA原生tokenizer进行合并，最终得到一个扩展后的tokenizer模型。国内Chinese ......

词表 Llama2-Chinese 模型 Chinese 语言更新时间 2023-09-16

怎么裁剪LLM（大语言模型）的vocab（词表）？

怎么裁剪LLM（大语言模型）的vocab（词表）？ Part1前言对于一些多语言的大语言模型而言，它的词表往往很大。在下游使用这些模型的时候，可能我们不需要其它的一些语言，例如只需要中文和英文，此时，我们可以对其vocab进行裁剪，既可以大大减少参数量，也能够保留模型的性能，接下来以Bloom模型 ......

词表模型语言 vocab LLM更新时间 2023-04-21

动词过去式、过去分词不规则变化词表

一般来说，英语中使用过去时、完成时等时态时，动词要变为过去式或过去分词的形式。那么动词过去式、动词过去分词如何变化呢？一般情况下，规则动词的过去式、过去分词的构成规则相同。规则动词变化形式有： ▪直接在动词原型后面+ed构成过去式，如called； ▪以不发音e结尾的动词，直接在动词词尾+d构 ......

词表动词更新时间 2023-04-14