论文阅读: Co-design Hardware and Algorithm for Vector Search

发布时间 2023-09-15 21:12:27作者: 辛几何旋律

1. Introduction

介绍一下论文背景,
向量检索常用于 搜索引擎,推荐系统,LLM和科学计算等
对应的常用的硬件向量检索方法,IVF-PQ
其中IVF:将多个向量聚类, PQ将向量压缩
而为了最大化IVF-PQ的效果,也会面临很多的挑战

在芯片设计的过程中,会遇到针对六个阶段如何设计合适的微架构?如何将有限的资源分配给六个阶段等问题。所以这篇文章对特定的算法参数进行优化,以实现performance-recall的平衡。

本篇文章提出了FANNS,一个端到端加速器生成框架(依据IVF-PQ算法),
会根据目标数据集和召回率的需求,实现硬件资源和算法的平衡,以最大化加速器的性能。
基本工作流如下:
image
首先,FANNS会评估数据集召回率要求和IVF-PQ参数间的关系,找到所有合适的加速器设计。
之后,FANNS性能评估模型预测每个算法参数和硬件组合的QPS(queris-per-second)
最后,选择最好的组合,生成合适的FPGA代码。
同时,FANNS支持在加速器中实例化TCP/IP栈。

结果:
和固定的FPGA设计,提升了23倍。和CPU相比,提升了37.2倍。
单个GPU的运算效率强于设计的FANNS,但是,多个单元配合时,FPGA效率明显更高。