feast 开源feature store

发布时间 2023-09-19 14:16:02作者: 荣锋亮

对于机器学习特征处理是一个比较重要,特征的质量会严重影响模型的质量,而且很多时候我们都是希望实时的特征数据
feast 是一个开源的特征存储实现,包含了离线以及实时特征的存储以及获取(包含了sdk,可以进行特征的获取)

参考架构

包含的组件:
registry: 对象存储,持久化特征,我们可以通过sdk 获取特征的信息
feast python sdk /cli 管理特征定义版本,物化特征值到在线存储中,构建以及查看离线的数据集
stream processor 流处理部分,主要是进行实时处理,当前是基于spark 与kafa 的集成
batch materialization engine 批量物化引擎进行批量的数据处理(实时以及离线)
online store 主要是对于实时进入的特征数据的存储
offlone store 主要是存储离线的数据,这些数据主要是用来产品训练的

说明

目前也有不少类似的,目前feast 是一个社区比较活跃的项目

参考资料

https://www.iguazio.com/glossary/feature-store/
https://feast.dev/
https://domino.ai/blog/an-introductory-guide-to-feature-stores
https://www.serverless-ml.org/
https://github.com/featureform/featureform
https://github.com/logicalclocks/hopsworks