Atlas初步调研

发布时间 2024-01-08 13:30:56作者: 粒子先生

简介

Atlas是Hadoop生态的元数据管理框架,有以下功能特性:

  • 元数据类型:支持多种Hadoop和非Hadoop元数据的预定义类型,提供元数据定义新类型的能力,类型可以具有原始属性、复杂属性、对象引用,可以从其他类型继承。
  • 分类:提供动态创建分类的能力,元数据实体可以与多个分类相关联,具有分类传播的特性。
  • 血缘:提供直观的UI界面,可以通过REST API访问和更新血统。
  • 搜索/发现:支持通过类型、分类、属性值或全文检索进行搜索。
  • 安全与数据屏蔽:与Apache Ranger集成可以实现基于分类的数据访问策略。

架构原理

安装

组件依赖

 

组件
版本
Hadoop 3.1.1
Hive 3.1.0
Zookeeper 3.4.6
Hbase 2.0.2
Kafka 2.0.0
Elasticsearch 5.6.4
Solr 7.5.0
Storm 1.2.0
Sqoop 1.4.6.2.3.99.0-195
falcon 0.8
Atlas 2.1.0

  • 内嵌安装
  • 独立安装

元数据采集

数据源
提供者
备注
数据源
提供者
备注
Hbase 官网 待验证
Hive 官网 已验证,支持元数据全量同步和实时更新,支持血缘关系
Sqoop 官网 待验证,支持导入RDBMS元数据,但是否支持血缘关系,需要验证
Storm 官网 待验证
Kafka 官网 待验证
Falcon 官网 待验证
Spark hortonworks 待验证
自定义元数据类型  

实现自定义数据源需要两部分工作:

  • 自定义元数据类型(Typs System)
  • 通过Rest API 或 自定义Hook插件,将元数据导入到Atlas

Rest API 使用

http://atlas.apache.org/api/v2/index.html

待调查内容

  • 自定义元数据类型、自定义Hook
  • 关系型数据库元数据接入、血缘分析
  • Admin UI 功能详细使用,包括 Search,Classification,Glossary
  • Rest API的使用
  • 业务元数据、技术元数据区分
  • 数据库集群信息或表的统计信息收集,包括表名、所属集群、所属库、表中的记录数、数据占用存储量等。