Hugging Face

发布时间 2023-09-19 15:37:33作者: qev211

什么是Hugging Face

Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来,变成了机器学习界的github,就像 Github 之于代码、Dockerhub 之于 docker image。
Hugging Face 不仅包含机器学习模型和数据集,也包含了演示应用程序。也就是说你可以在 Hugging Face 下载公开的模型和数据集,然后用他们构建你的应用。你还可以直接在 Hugging Face 上编写演示应用程序,并在 Hugging Face 上运行

如下是其官方介绍

Hugging Face Hub 是一个平台,拥有超过12万个模型、2万个数据集和5万个演示应用程序(Spaces),全部都是开源且公开可用的,在这个在线平台上,人们可以轻松合作并一起构建机器学习。该Hub作为一个中央地点,任何人都可以通过它来探索、实验、协作和构建机器学习技术。你准备好加入通向开源机器学习之路了吗?

就像官方介绍所说,Hugging Face 主要的功能主要由三块组成:Models(模型)、Datasets(数据集)、Spaces(演示应用程序)。下面依序介绍这三个部分。
而且 Hugging Face 上托管的 Models、Datasets 和应用程序,基于Git,可以很容易地进行版本管理。

Models --- 托管用于NLP、视觉和音频的最模型

Hugging Face 上有大量开源的机器学习模型,由Hugging Face、OpenAI、谷歌、微软、Facebook、清华以及很多优秀社区和个人用户上传。例如 GPT 的祖先 gpt2、谷歌的预训练模型 bert 系列、清华发布的 chatglm 。

搜索特定模型

以openai的语音转文字库whisper为例,

点击找到的model,会转到此model的介绍页面如下:

Datasets --- 包含不同领域和模式的各种数据

Hugging Face 归集了超过5000个数据集,涵盖100多种语言,可用于自然语言处理、计算机视觉和音频等广泛领域的任务。
按Most Likes排序,第一的为火的一塌糊涂的Chatgpt的prompt数据,如下图