数据系统
数据库版本化
将变更记录存入版本库,定期可以将数据库定义的脚本导入SVN,数据库版本的历史记录可以像在SVN中那样查看
模型因为特征工程, 参数调优, 新数据的增加会导致其版本呈现指数式增加.
指定模型的名称,版本和训练脚本
标签的数据集
代码 配置、数据和模型
GitHub, Bitbucket, and GibLab等平台上备份相应的代码
账户管理系统
账户权限管理-继承-转交
调度
Airflow Dolphinschedule
数据管理
元数据管理 Atlas等元数据管理工具
数据产生的链路关系
数据谱系管理-数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系
系统级、表级、字段(列)级
归属性-层次性-多源性-可追溯
马哈鱼数据血缘分析工具(英文名称为Gudu SQLFlow )是一款用于分析SQL 语句,并发现其中数据血缘关系的分析软件
Transformation - dbt
dbt - Transform data in your warehouse Dbt Labs。 Fishtown Analytics
数据加工大师 —— dbt
数据集成领域
Airbyte: Sources Destinations connection
数据集版本控制
GitLFS、Dolt、Pachyderm (DVC)库
Git Large File Storage是一个对于大文件的版本控制扩展,
Data Version Control
跟踪和版本化代码、数据、模型、流水线和实验 数据集版本控制是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
版本控制:版本控制您的数据--正确性、可追溯性和可控性
数据集版本控制: 实现可再现性。是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
数据集版本控制: 实现可再现性。是为数据状态设置书签的一种方法,方便为将来的试验应用数据集的特定版本
变更跟踪:控制变更的范围和影响
快速恢复:回滚和恢复
协作: 避免冲突和重复工作,了解变更历史和进度-重复使用和共享数据
数据来去:(又名数据血缘):跟踪数据的来源
数据版本控制方案
技术发展应用
团化ERP,就是统一集团财务管控、统一集团人力管控、统一集团流程管理、统一集团数据管控。
财权 人事任命权 事权 数据权力 信息权
监控指挥系统
军权是凌驾于任何权力之上,军权需要财权去维系,需要人事任命权提拔忠信心腹
收与放,此一时彼一时,时代需要
用人管人,用事管事; 用制度管人,用流程管事。
数据权:
设备联网
数据的采集和管理-数据管理规范,来保证数据的一致性和准确性,数据采集的接口规范
数据采集的实时流技术和软件服务 https://github.com/airbytehq/airbyte
Airbyte 是一个开源 EL(T) 平台
数据管理工具
参考
https://rmoff.net/2022/11/08/data-engineering-in-2022-elt-tools/