DataLeap

活动回顾|火山引擎 DataLeap 分享:DataOps、数据治理、指标体系最佳实践(文中领取 PPT)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在 7 月 21 日至 22 日举行的 ArchSummit 全球架构师峰会(深圳站)及 DataFunCon.数据智能创新与实践大会(北京站)上,来自火山引擎 DataLeap 的三位专家分别就 DataOps、 ......

火山引擎DataLeap的Data Catalog系统公有云实践 (下)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Data Catalog公有云遇到的挑战 Data Catalog经历了一个从0到1在火山引擎公有云部署并逐步优化和迭代发布10+版本的过程,在这个过程中经历不少挑战,下面将介绍其中比较典型的问题以及我们探索并实践 ......
火山 DataLeap Catalog 引擎 系统

火山引擎DataLeap的Data Catalog系统公有云实践 (上)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 前言 Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景。本篇内容源自于火山引擎大数据研发治理套件DataLeap中的Data Catalog 功能模 ......
火山 DataLeap Catalog 引擎 系统

火山引擎DataLeap如何解决SLA治理难题(三): 平台架构与未来展望

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 平台架构总结 火山引擎 DataLeap SLA平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块,系统组件架构图如下: 规划式治理服务 所谓“规划式治理”,即在问题发现前治理,通过主动规划约定SLA的 ......
火山 架构 难题 DataLeap 引擎

火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解

申报签署流程详解 火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以申报单签署的形式达成SLA协议。平台核心特点是优化了SLA达成的流程,先通过“系统卡点计算”减少待签署任务的数量,再通过“SLA推荐计算”自动签署部分任务,最后为剩下的待签署任务智能提供合适的SLA ......
火山 难题 DataLeap 流程 引擎

火山引擎DataLeap如何解决SLA治理难题(一):应用场景与核心概念介绍

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 基于火山引擎分布式治理的理念,数据平台数据治理团队自研了火山引擎DataLeap SLA保障平台,目前已在字节内部得到广泛使用,并支持了绝大部分数据团队的SLA治理需求,每天保障的SLA链路数量过千,解决了数据SL ......
火山 难题 DataLeap 场景 核心

火山引擎 DataLeap 构建Data Catalog系统的实践(三):关键技术与总结

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 关键技术 构建一个好的Data Catalog系统,需要考虑的核心产品设计和技术设计有很多。篇幅所限,本文只概要介绍技术设计中最核心重要的部分,更多细节展开可参照后续的文章。 数据模型统一 将不同元数据的数据模型统 ......
火山 DataLeap Catalog 关键 引擎

火山引擎 DataLeap 构建Data Catalog系统的实践(二):技术与产品概览

技术与产品概览 架构设计 元数据的接入 元数据接入支持T+1和近实时两种方式 上游系统:包括各类存储系统(比如Hive、 Clickhouse等)和业务系统(比如数据开发平台、数据质量平台等) 中间层: ETL Bridge:T+1方式运行,通常是从外部系统拉取最新元数据,与当前Catalog系统的 ......
概览 火山 DataLeap Catalog 引擎

火山引擎 DataLeap 套件下构建数据目录(Data Catalog)系统的实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 摘要 Data Catalog 产品,通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Da ......
套件 火山 DataLeap Catalog 引擎

火山引擎DataLeap数据质量解决方案和最佳实践(三):最佳实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 最佳实践 前面介绍了DataLeap数据质量平台的一些实现方式,下面为大家介绍一些我们在数据量和资源这两个方面的最佳实践。 表行数信息-优先 HMS 获取 内部的离线监控中,表行数的监控占比非常大,可能至少 50% ......
火山 DataLeap 解决方案 质量 引擎

火山引擎 DataLeap 构建Data Catalog系统的实践(一):背景与调研思路

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 摘要 Data Catalog 产品,通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Da ......
火山 DataLeap 思路 背景 Catalog

火山引擎DataLeap数据质量解决方案和最佳实践(二):解决方案

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 DataLeap流批数据质量解决方案 产品功能架构 火山引擎DataLeap流批数据质量解决方案有 4 个大的功能: 离线数据质量监控:解决批和微批监控场景,支持 Hive、ClickHouse、ES 等多种数据源 ......
解决方案 方案 火山 DataLeap 质量

DataLeap的全链路智能监控报警实践(二):概念介绍

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 概念介绍 基线监控 根据监控规则和任务运行情况,DataLeap的基线监控能够决策是否报警、何时报警、如何报警以及给谁报警。它保障的是任务整体产出链路,核心目标包括: 覆盖链路中的所有任务; 降低任务监控配置成本; ......
监控报警 链路 DataLeap 概念 智能

DataLeap的全链路智能监控报警实践(三): 系统实现

系统实现 整体架构 基线管理模块:负责基线创建、更新、删除等操作,管理基线元信息,包括保障任务,承诺时间,余量及报警配置等); 基线实例生成:系统每天定时触发生成基线实例,生成实例的同时根据保障任务,由下而上逐层遍历 (BFS)所有上游任务并生成基线监控埋点。生成基线监控埋点的过程中,会计算每个任务 ......
监控报警 链路 DataLeap 智能 系统

DataLeap的全链路智能监控报警实践(一):常见问题

随着字节跳动业务的快速发展,大数据开发场景下需要运维管理的任务越来越多,然而普通的监控系统只支持配置相应任务的监控规则,已经不能完全满足当前需求,在日常运维中开发者经常会面临以下几个问题: 任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无用报警,导致 ......

火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

Learning to rank Learning to rank主要分为数据收集,离线训练和在线预测三个部分。搜索系统是一个Data-driven system,因此火山引擎DataLeap的Catalog系统设计之初就需要考虑数据收集。收集的数据可以用来评估和提升搜索的效果。数据收集和在线预测前 ......
火山 DataLeap Learning Catalog 引擎

火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构

整体架构 火山引擎DataLeap的Catalog搜索系统使用了开源的搜索引擎Elasticsearch进行基础的文档检索(Recall阶段),因此各种资产元数据会被存放到Elasticsearch中。整个系统包括4个主要的数据流程: 实时导入。资产元数据变更时相应的平台发出实时变更消息,Data ......
火山 架构 DataLeap 整体 Catalog

火山引擎 DataLeap:如何构建一套完整、易用的数据标准体系

数据标准是数据治理体系中的核心要素之一。 一方面,统一的数据标准可以在复杂的业务场景下,帮助团队对齐数据口径,提升数据在分析、诊断等场景的质量与效率;另一方面,数仓团队与分析师团队也需要沉淀一套敏捷、可控的数据标准指标管理流程,以便后续在指标口径的增加、修改、下线等方向更标准、高效。 但数据标准建设 ......
火山 DataLeap 体系 引擎 标准

火山引擎DataLeap的Catalog系统搜索实践(一):背景与功能需求

火山引擎DataLeap的Data Catalog系统通过汇总和组织各种元数据,解决了数据生产者梳理数据、数据消费者找数和理解数的业务场景,其中搜索是Data Catalog的主要功能之一。本文详细介绍了火山引擎DataLeap的Catalog系统搜索实践:功能的设计与实现。 Data Catalo ......
火山 DataLeap 背景 需求 Catalog

火山引擎DataLeap联合DataFun发布《数据治理知识地图》

近期,火山引擎DataLeap和技术社区DataFun联合发布《数据治理知识地图专业版V1》(以下简称“地图”),地图将数据治理的领域、流程、技术、工具等内容进行系统化整理和分类,为从业者提供全面的学习和思路参考。 据介绍,《数据治理知识地图专业版V1》包括引言、数据治理体系、治理流程落地、数据治理 ......
火山 DataLeap DataFun 地图 引擎

火山引擎DataLeap数据调度实例的 DAG 优化方案(三):技术实现

在原始数据中,是以一个数组的形式返回节点信息及依赖关系。所以,需要对数据进行处理形成图所需要的数据,同时,利用多个 map 对数据进行存储,方便后续对数据进行检索,减少时间复杂度。 实例节点的样式需要通过基础图形 Text(文本)、Rect(矩形)、Icon(图标)进行组合,以达到我们的设计要求。 ......
火山 实例 DataLeap 引擎 方案

看火山引擎DataLeap如何做好电商治理(一):挑战与痛点

现在人们的日常生活中,网购已经成为人们生活中不可或缺的购物形式。根据中国电子商会发布的《中国社交电商行业发展白皮书(2022)》的数据显示,2022年社交电商市场交易规模达到28542.8亿元,预计2023年中国社交电商行业交易规模将达34165.8亿元。同时在2022年,抖音电商每月新增超2亿条短 ......
痛点 火山 DataLeap 引擎

火山引擎 DataLeap 下 Notebook 系列文章三:架构升级详解

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 当使用 Notebook 的项目日渐增加时,火山引擎 DataLeap 研发团队发现运行中的 PaaS 服务实在太多了,之前的架构有如下缺点: 部署麻烦。全量升级 JupyterLab 较为痛苦。尽管有升级脚本,但 ......
火山 架构 DataLeap Notebook 引擎

火山引擎 DataLeap:在数据研发中,如何提升效率?

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在数仓及中台研发过程中,研发人员经常需要在不同任务中维护相同或类似代码,不仅费时费力,并且代码迭代后也面临不同业务单元逻辑性不一致的问题,对运维管理形成挑战。 一般来说,研发人员往往通过代码模板来解决这一问题。具体 ......
火山 DataLeap 效率 引擎 数据

火山引擎 DataLeap 下 Notebook 系列文章二:技术路线解析

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在 Jupyter 的生态下,除了 Notebook 本身,火山引擎 DataLeap 研发团队还注意到了很多其他组件。彼时,JupyterLab 正在逐渐取代传统的 Jupyter Notebook 界面,成为新 ......
火山 DataLeap Notebook 路线 引擎

火山引擎DataLeap下Notebook 系列文章一:技术选型之路

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Notebook 是一种支持 REPL 模式的开发环境。所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。Notebook 通常使得探索性的开发和调试更加便捷,在 ......
火山 DataLeap Notebook 引擎 文章

从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。 这种校验工作也被称为“数据探 ......
门槛 DataLeap 数据 SQL

电商流量分析怎么做?试试这款数据工具 DataLeap!

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作为成熟的电商模式,货架场景可以让商家以更低的门槛入驻,让消费者完成更高销量的购买和复购。 在这一场景下,运营人员每天都需要根据数据来做决策,精准识别每一份流量的效果是最重要的日常运营洞察之一。而每一个流量入口的用 ......
DataLeap 流量 工具 数据

火山引擎 DataLeap 推出全链路智能监控报警平台

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 随着大数据开发场景下需要运维管理的任务越来越多,在日常运维中开发者经常会面临以下几个问题: 任务多,依赖关系复杂:很难查找到重要任务的所有上游任务并进行监控。如果监控所有任务,又会产生很多无用报警,导致有用报警被忽 ......
监控报警 链路 火山 DataLeap 引擎

低至200元 / 月,火山引擎DataLeap帮你搭建企业级数据中台

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 企业数字化转型正席卷全球,这不仅是趋势所在,也是企业发展必然面对的考题。数字化不仅仅考验企业的技术“硬”实力,还考验选型、平台能力、数据部署方式等“软”技能。 企业数字化转型离不开数据工具的支持。大数据研发治理套件 ......
火山 DataLeap 引擎 数据 企业