Subtokenization

Proj. CAR Paper Reading: CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code

## Abstract 本文：探索LLM在source code上pretrain时的subtokenization效果。 subtokenization: split long tokens into smaller subtokens, in order to ensure the relati ......

Subtokenization Investigating Pretraining Language CodeBPE更新时间 2023-06-22

共1篇 :1/1页 首页上一页1下一页尾页

526互联

Subtokenization

Proj. CAR Paper Reading: CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code