HyperAttention

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

前言本文介绍了一项近似注意力机制新研究，耶鲁大学、谷歌研究院等机构提出了 HyperAttention，使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪 ......

长上下文 HyperAttention 注意力机制更新时间 2023-11-19

共1篇 :1/1页 首页上一页1下一页尾页

526互联

HyperAttention

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%