数据
数据科学家、数据工程师、数据分析师和数据产品经理
教育背景和工作经验背景: 业务领域,机器学习 工程能力 沟通能力
Amazon Redshift 是一款高性能、全托管的PB级云数仓
数据工具行业在从旧的软件时代进入新的一个以开源和云为主的时代
意味着围绕解决这些性能问题而构建的BI和ETL产品都立刻成为了遗留软件,构建适合新的世界的产品的新的供应商也应运而生
行业要经历的一个正常的周期
数据使用的场景的增加
Amazon Redshift 是一款高性能、全托管的PB级云数仓
数据工具行业在从旧的软件时代进入新的一个以开源和云为主的时代
意味着围绕解决这些性能问题而构建的BI和ETL产品都立刻成为了遗留软件,构建适合新的世界的产品的新的供应商也应运而生
行业要经历的一个正常的周期
数据使用的场景的增加--依然有很多存量业务
单机和云原生
基于云的基础设施(云盘,S3,消息队列)实现数据的持久化,存储计算分离/微服务化实现弹性伸缩和池化。
数据传输链路,包括数据备份,迁移,导入能力
向量数据库(Vector Database)
向量数据(Embedding Data),是一种词向量,可用于表达包括文本、图片、视频、语音等非结构化数据转化而来的语义信息
Building LLMs-Powered Apps with OPL Stack
FOMO (Fear of Missing Out),是一个网络流行语,是指害怕错过朋友圈里发生的事情。
googlecloud 函数
Google Cloud Function 创建微服务
Cloud Functions 是 Google Cloud 的事件驱动型无服务器计算平台
pinecone
Pinecone: it provides embedding vector storage, semantic similarity comparison, and fast retrieval.
LangChain
Large Language Models (LLMs)
Vector Store similarity_searchfunction
Framework for interacting LLMs
LangChain 是一种LLMs接口框架,它允许用户围绕大型语言模型快速构建应用程序和管道
Embedding Data
在非结构化数据和结构化数据层之上又加了一个新的数据层,这个数据层中的信息主要以向量的方式存在
7个向量数据库对比:Milvus、Pinecone、Vespa、Weaviate、Vald、GSI 和 Qdrant
Milvus是Linux基金会的一个人工智能和数据项目,它是一个众所周知的企业首选矢量数据库
非结构化数据--解决方式
大量非结构化数据, blob 存储-最近邻 (ANN) 搜索
01.利用历史资源--非结构数据结构化,再利用结构化数据的数据库等做数据处理-增删改查-传统词汇搜索
02.相似性搜索-存储、索引和搜索这些嵌入的工具是矢量数据库
001.生成嵌入-通过AI算法-把一段非结构化数据变成一个数值列表-嵌入向量
002.计算一下距离
003.跨越矢量搜索:矢量搜索一般分为两部分:相似性度量和索引
矢量数据库是专门为存储、索引和查询通过机器学习模型传递非结构化数据产生的嵌入矢量而设计的数据库。
FAISS,Facebook AI Similarity Search)AI向量相似性检索库
谷歌研究院 向量相似性搜索库ScaNN
以大模型为算力,以Prompt为控制程序,以向量数据库为存储的范式逐渐成为共识
场景:
图像搜索、推荐系统、文本理解、视频总结、药物发现、股票市场分析
论文搜索 https://arxivxplorer.com/
方式方法
非结构化数据——例如图像、视频、音频和用户行为——通常不适合关系数据库模型;它不能轻易地分为行和列关系
标签可能充斥着不太明显的分类和关系
Tensor Database
Milvus、Pinecone、Vespa、Weaviate、Vald、GSI 和 Qdrant
OpenAI 供 Pinecone、Weaviate、Zilliz、Milvus、Qdrant、Redis
数据集成:Fivetran, Stitch
数据仓库:Snowflake, Bigquery, Redshift
数据转换:dbt
BI: Looker, Mode, Periscope, Chartio, Metabase, Redash
数据接入
Fivetran and dbt fundamentally
Fivetran是做数据集成和连接的
connector分为两大类型: Pull Connector(拉的数据连接器) Push Connector(推类型数据连接器)
Airbyte Airbyte - Fivetrans的开源竞争版本
Datapipeline
dbt 定位的用户是具备SQL能力的数据分析师群体,这个群体使用的数据生态链中的产品具备很强的共性
Fivetran官方宣布用dbt来作为Transform层--分析师应该都是会写SQL的
Apache Seatunnel
Input/Source[数据源输入] -> Filter/Transform[数据处理] -> Output/Sink[结果输出]
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台
技术栈
OpenAI 的 GPT-3 和 GPT-3.5 模型以及 Hugging Face 的开源替代品
01.数据预处理管道(data preprocessing pipeline)、
02.嵌入终端(embeddings endpoint )+向量存储(vector store)、
03.LLM终端(LLM endpoints)
04.LLM编程框架(LLM programming framework) 。
概念说明
嵌入终端(embeddings endpoint)和向量存储(vector store)-数据存储和访问方式的重大演变。
Hugging Face - 这个公司我第一次听说,是一个开源的数据科学平台和社区
Scale AI,这个是一个提供数据科学平台和训练数据的公司
DataRobot-这家公司属于AI领域非常知名的公司
参考
7个向量数据库对比 https://www.modb.pro/db/516016
2022 Data50-A16z关注的世界最好的2022年的50家数据创业公司 https://zhuanlan.zhihu.com/p/493467466