数据系统_构建数据平台

发布时间 2023-03-24 11:46:15作者: 辰令

数据系统

数据库版本化
   将变更记录存入版本库,定期可以将数据库定义的脚本导入SVN,数据库版本的历史记录可以像在SVN中那样查看	
模型因为特征工程, 参数调优, 新数据的增加会导致其版本呈现指数式增加.
   指定模型的名称,版本和训练脚本
标签的数据集
    代码 配置、数据和模型
	GitHub, Bitbucket, and GibLab等平台上备份相应的代码

账户管理系统

账户权限管理-继承-转交

调度

 Airflow Dolphinschedule

数据管理

元数据管理 Atlas等元数据管理工具
   数据产生的链路关系
     数据谱系管理-数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系
	   系统级、表级、字段(列)级
	   归属性-层次性-多源性-可追溯
	 马哈鱼数据血缘分析工具(英文名称为Gudu SQLFlow )是一款用于分析SQL 语句,并发现其中数据血缘关系的分析软件
    Transformation - dbt  
	    dbt - Transform data in your warehouse  Dbt Labs。 Fishtown Analytics 
		 数据加工大师 —— dbt
	
	数据集成领域
	     Airbyte: Sources Destinations connection

数据集版本控制

 GitLFS、Dolt、Pachyderm (DVC)库
  Git Large File Storage是一个对于大文件的版本控制扩展,
 Data Version Control
 跟踪和版本化代码、数据、模型、流水线和实验 数据集版本控制是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
   版本控制:版本控制您的数据--正确性、可追溯性和可控性
         数据集版本控制: 实现可再现性。是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
         数据集版本控制: 实现可再现性。是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
		 变更跟踪:控制变更的范围和影响
		 快速恢复:回滚和恢复
		 协作: 避免冲突和重复工作,了解变更历史和进度-重复使用和共享数据
   数据来去:(又名数据血缘):跟踪数据的来源
 数据版本控制方案  

技术发展应用

 团化ERP,就是统一集团财务管控、统一集团人力管控、统一集团流程管理、统一集团数据管控。
   财权 人事任命权 事权  数据权力  信息权 
    监控指挥系统
  军权是凌驾于任何权力之上,军权需要财权去维系,需要人事任命权提拔忠信心腹 
   收与放,此一时彼一时,时代需要
    用人管人,用事管事; 用制度管人,用流程管事。 

数据权:

 设备联网
 数据的采集和管理-数据管理规范,来保证数据的一致性和准确性,数据采集的接口规范 
   数据采集的实时流技术和软件服务  https://github.com/airbytehq/airbyte
   Airbyte 是一个开源 EL(T) 平台

数据管理工具

参考

 https://rmoff.net/2022/11/08/data-engineering-in-2022-elt-tools/