元数据管理系统

发布时间 2024-01-08 14:36:41作者: 粒子先生

产品背景

市场分析

元数据管理是数据治理的基础,企业以元数据为基础进行数据治理,能帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。就国内而言,目前完备成熟的元数据产品较少,市场正处于上升期,是抢占市场份额的好时机。

用户痛点

随着大数据技术的发展和日渐成熟,如何进行海量数据的治理工作成为各个企业面临的共同难题,尤其是中大型企业,数据种类繁多,数据标准不一,数据质量参差不齐,如何进行数据资产管理,如何深入挖掘数据数据价值,如何分析数据血缘关系,往往需要需要大量的数据治理工作,然而如何进行有效的元数据管理,是数据治理最重要的一环,开发一款成熟的元数据产品,现已成为各企业的最核心痛点。

产品概述

元数据管理系统是一款支持多数据源、高性能、高可靠、易扩展的分布式元数据管理系统,该系统能够整合游离于企业各环节的元数据信息,包括技术元数据、业务元数据、管理元数据等。支持自定义元模型,自定义采集策略,提供便捷的元数据查询和分析功能。帮助用户管理企业数据资产,理清数据之间的关系,统一数据标准,挖掘数据潜在价值。

产品定位

元数据管理系统用于管理企业技术元数据、业务元数据、管理元数据,帮助企业管理数据资产,梳理数据关系,帮助用户获得更多的数据洞察力。

元数据管理系统将分散到企业各环节的元数据信息进行统一收集管理,提供分类查询、血缘分析、质量分析等完整的元数据管理功能,为企业数据治理提供基础服务。

元数据管理系统通过收集业务指标、业务规则、业务定义等信息,为企业统一数据标准,统一业务口径提供基础。

产品特性

  • 多数据源,支持丰富的采集适配器,支持多种数据源,包括关系型数据库、大数据组件、业务系统、文件等;
  • 高性能,采用大数据组件作为底层数据存储,提供高效的数据读写性能;为网关服务提供负载均衡策略,提高对外接口的QPS;
  • 高可靠,采用HA部署,保障服务可靠性;
  • 易扩展,分布式架构,支持动态横向扩展;
  • 自定义元模型,提供了基于CWM(Common Warehouse Meta model,公共仓库元模型)标准的元模型(即M2)自定义功能;
  • 全文检索,提供元数据全文检索功能,并提供按元数据类型、业务分类、词汇表、时间的高级检索功能;

  • 图形化分析,提供图形化的血缘分析、统计分析、关联分析等功能;

产品需求

功能性需求

  • 内置元模型查看,包括基本信息、属性、父类、子类、组合、被组合、依赖、被依赖
  • 采集任务配置,包括适配器查看、数据源定义、任务配置
  • 元数据查询,提供按元数据类型、业务分类、词汇表、全文检索、时间进行查询
  • 关系型数据库适配器开发,完成采集模块整体架构规划,完成关系型数据库适配器开发,包括Mysql、TIDB、Oracle、PostgreSQL

非功能性需求

  • 支持HA部署

产品主要功能

  1. 元模型管理
    • 包管理,新建、查询、编辑、删除
    • 内置元模型树形展示,初始化内置元模型列表
    • 元模型详情展示:基本信息、属性、父类、子类、组合、被组合、依赖、被依赖
    • 自定义元模型
    • 版本发布
    • 导入导出
  2. 采集管理
    • 适配器管理,新建、查询、编辑、删除、详情、上传(暂时手动上传)
      适配器信息包括,适配器名称、适配器类型、适配器版本、工具名称、工具版本、下载路径、修改时间、描述
    • 数据源管理,新建、查询、编辑、删除、测试连接
      数据源信息包括:数据源名称、挂载点、适配器类型、工具版本、修改时间、描述
    • 任务调度,立即执行、启用、停用、新建、编辑、删除;
      同步方式:定期全量、定期增量、实时(不依赖调度)
      任务调度新建页面配置内容:数据源、同步方式、执行策略配置
    • 采集日志收集、展示
  3. 元数据管理
    • 元数据查询-查询条件:元数据类型、业务分类、词汇表、全文检索、时间
      展示内容:名称、类型、描述、分类标签
      详情展示内容:基础属性、业务属性、自定义属性、关系
    • 标签管理
    • 版本管理
    • 元数据维护
  4. 关系型数据库适配器开发
    • 模块结构调整
    • 同步方式(全量)
    • guid、qualifiedName生成规则,关系映射
    • 删除元数据同步问题
    • 索引、外键元数据处理
    • 采集日志
    • 实体名称大小写统一
  5. 对外服务接口
    • 基础查询(元数据类型、业务分类、唯一标识等)
  6. 首页
    • 元数据数量、元数据类型数量、元数据分类TOP5(饼图)、业务分类TOP5(柱状图)、元数据变更趋势图
  7. 元数据分析
    • 数据地图
    • 血缘分析
    • 统计分析
    • 关联的分析
  8. 元数据质量
    • 一致性校验
    • 完整性校验
    • 规范性校验
  9. 自动部署
    • 自动部署脚本(HA部署)

技术分析

设计基础

 

设计思路

产品业务架构图

产品技术架构图

部署结构图

项目计划

进度计划

描述项目时间,开发的工作日天数。

可采用如下表所示的方式描述进度计划:

  • 下表标题列中描述功能名称,标题行描述迭代的开始和结束时间,写明哪个迭代完成哪些功能。
  • 如有里程碑事件,需描述里程碑的具体交付物、交付时间,以及完成的程度。

 

需求

迭代1

2021-4-28 - 2021-4-23

10个工作日 

迭代2

2021-4-25 - 2021-5-8 

9个工作日 

迭代3(里程碑)

2021-5-10 - 2021-5-21 

10个工作日

迭代4

2021-5-24 - 2021-6-4 

10个工作日

迭代5

2021-6-7 - 2021-6-11 

5个工作日

立项
  •  
       
基础代码框架搭建(Console、Gateway、Importer)
  •  
       
自动化构建流程
  •  

 

     
包管理,新建、查询、编辑、删除
  •  
       
内置元模型树形展示,展示内容基本信息、属性、父类、子类、组合、被组合、依赖、被依赖

 

  •  
     
自定义元模型  

 

     
版本发布

 

 

     
元模型导入导出  

 

     
适配器管理,新建、查询、编辑、删除、详情、上传(暂时手动上传)  
  •  
     
数据源管理,新建、查询、编辑、删除、测试连接  
  •  

 

   
任务调度,立即执行、启用、停用、新建、编辑、删除  
  •  

 

   
采集日志收集、展示  

 

 

   
元数据查询-查询条件:元数据类型、业务分类、词汇表、全文检索、时间    
  •  

 

 
标签管理      
  •  
 
版本管理          
元数据维护          
关系型数据库适配器开发(功能调整)

 

  •  
     
对外服务接口    
  •  
   
数据地图      
  •  
 
血缘分析      
  •  
 
统计分析          
一致性校验          
完整性校验          
规范性校验          
自动部署脚本          
结项、申请著作权    

 

 
  •  

 

需求

迭代1

(开始日期-结束日期) 例如(0101-0115)

迭代2

(开始日期-结束日期)

里程碑
(日期)

......

迭代N

(开始日期-结束日期)

功能1
  •  
       
功能2
  •  
  •  
 

 

 
......
  •  
     
  •  
功能N

 

     
  •  

组织结构

产品经理  
业务负责人  
技术负责人  
质量保证人员  
敏捷教练  

成本评估

填写项目成本,需要注意的是,项目成本除了研发功能和管理项目的成本之外,还包括准备产品文档、发布会资料、培训资料、申请软件著作权资料的成本。

资源名称

总工时(人日)

项目开发  
开发管理  
质量保证  
敏捷管理  
Total  

按照         元/人日计算。

质量计划

描述质量计划,包括测试用例(单元、接口、UI自动化测试用例等)覆盖率目标,是否100%进行SonarQube等。

产品竞争要素分析

描述产品的核心竞争力或优势价值等。

包括但不限于以下内容:

  • 描述产品相较于市场上的其他产品,有什么竞争力,例如从产品亮点、研发技术、研发成本等角度描述。
  • 描述是否有已有目标用户,用户体量或数量如何,预估的经济效益如何。

风险评估

预估项目的风险,包括人员数量、进度、技术难点、技术能力等方面的风险,并提出风险监控或预防风险的措施。

验收标准

描述项目的交付物,包括功能完成、可获得方式(制品库等)、项目应用、交付哪些文档等,其中文档包括产品说明、实施手册、使用手册、二次开发手册、发布会资料、培训资料、申请著作权资料等。

说明:关于产品功能方面,不必将本模板的产品需求内容复制下来,建议简单描述,例如“完成本立项文档中描述的产品需求功能”。