baichuan2-13b-chat加速-526互联

当前加速框架层出不穷，到底哪个能一统天下未可知，那在当前阶段我们加速大模型该选取哪个框架呢。目前存在的大模型加速框架：VLLM，TGI,FasterTransformer,DeepSpeed-MII,FlexFlow Server,LMDeploy等等等等。但是这些框架大部分支持的模型都很少，或只支持英文模型，支持中文模型的更少，目前社区最活跃的就是伯克利大学出的这个VLLM框架了，目前github 9.1k星，但当前这个框架支持的模型有一部分https://github.com/vllm-project/vllm ，虽支持百川，但定睛一看支持baichuan不支持baichuan2,这两者有些差别，我仍然不死心，用它来加速baichuan2试试，加速是能加速，但完全不能与人交流。有人说它的惩罚计算方式与HF计算不一致导致模型加速前后输出不同，也有人说attention计算导致的，先说结果，结果就是真的不支持baichuan2-13b,说一下工作：
1、首先说明一点，用官方的api接口启动，然后openai_chatcompletion_client.py调用模型，输出总是不一致并且很离谱,所以能自己写就自己写吧；
2、尝试修改惩罚计算方式，看知乎上有人说：https://github.com/yanxiyue/vllm 修复了问题，不知道别的model是咋样，反正baichuan2仍然不行；
3、尝试增加baichuan2.py等一系列工作到VLLM库中，具体参考：https://github.com/vllm-project/vllm/pull/1022/files 现在发现这个同学的merge请求已经被拒绝了，总之不行；
4、我认真仔细看了一下代码中的惩罚计算，baichuan中有一个重复惩罚项，但vllm根本就没有给这个选择，然后看到有个大神加上去了：https://github.com/vllm-project/vllm/pull/1424 试过，还是不行
所以总之，不太支持baichuan2-13b，中文开源的大模型到底哪家强，谁能告诉我