baichuan2-13b-chat加速

发布时间 2023-11-02 17:28:09作者: 努力生活的叶子吖

当前加速框架层出不穷,到底哪个能一统天下未可知,那在当前阶段我们加速大模型该选取哪个框架呢。目前存在的大模型加速框架:VLLM,TGI,FasterTransformer,DeepSpeed-MII,FlexFlow Server,LMDeploy等等等等。但是这些框架大部分支持的模型都很少,或只支持英文模型,支持中文模型的更少,目前社区最活跃的就是伯克利大学出的这个VLLM框架了,目前github 9.1k星,但当前这个框架支持的模型有一部分https://github.com/vllm-project/vllm ,虽支持百川,但定睛一看支持baichuan不支持baichuan2,这两者有些差别,我仍然不死心,用它来加速baichuan2试试,加速是能加速,但完全不能与人交流。有人说它的惩罚计算方式与HF计算不一致导致模型加速前后输出不同,也有人说attention计算导致的,先说结果,结果就是真的不支持baichuan2-13b,说一下工作:
1、首先说明一点,用官方的api接口启动,然后openai_chatcompletion_client.py调用模型,输出总是不一致并且很离谱,所以能自己写就自己写吧;
2、尝试修改惩罚计算方式,看知乎上有人说:https://github.com/yanxiyue/vllm 修复了问题,不知道别的model是咋样,反正baichuan2仍然不行;
3、尝试增加baichuan2.py等一系列工作到VLLM库中,具体参考:https://github.com/vllm-project/vllm/pull/1022/files 现在发现这个同学的merge请求已经被拒绝了,总之不行;
4、我认真仔细看了一下代码中的惩罚计算,baichuan中有一个重复惩罚项,但vllm根本就没有给这个选择,然后看到有个大神加上去了:https://github.com/vllm-project/vllm/pull/1424 试过,还是不行
所以总之,不太支持baichuan2-13b,中文开源的大模型到底哪家强,谁能告诉我