数据结构 共识 算法 核心

开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上

再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、... ......
数据 数据分析 分布式 仓库 规模

开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下

本篇先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。 ......
数据 数据分析 分布式 仓库 规模

大数据实时多维OLAP分析数据库Apache Druid入门分享-上

Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个最新版本25.0.0单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式 ......
据实 大数 数据库 数据 Apache

大数据实时多维OLAP分析数据库Apache Druid入门分享-下

了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式 ......
据实 大数 数据库 数据 Apache

风控核心子域——名单服务构建及挑战

名单服务是风控架构中重要子域,对风险决策的性能、用户体验、成本管控、风险治理沉淀都有重要影响,本文将详细介绍名单服务设计思路和实现。 ......
核心 名单

基于遗传算法的地图四色原理绘图上色的Python代码

本文介绍利用Python语言,实现基于遗传算法(GA)的地图四色原理着色操作。 1 任务需求 首先,我们来明确一下本文所需实现的需求。 现有一个由多个小图斑组成的矢量图层,如下图所示。 我们需要找到一种由4种颜色组成的配色方案,对该矢量图层各图斑进行着色,使得各相邻小图斑间的颜色不一致,如下图所示。 ......
算法 原理 代码 地图 Python

文本数据预处理:可能需要关注这些点

要进行自然语言处理相关工作,文本数据预处理是个必不可少的过程。本文将对文本数据预处理相关的内容进行归纳整理,主要包括以下4个方面内容:文本数据获取、常规文本数据预处理、任务相关的文本数据预处理、文本预处理工具。 ......
文本 数据

图解B树及C#实现(3)数据的删除

前言 本文为系列文章 B树的定义及数据的插入 数据的读取及遍历 数据的删除 阅读本文前,建议先复习前两篇文章,以便更好的理解本文。 从删除的数据所在的节点可分为两种情况: 从叶子节点删除数据 从非叶子节点删除数据 无论从叶子节点还是非叶子节点删除数据时都需要保证B树的特性:非根节点每个节点的 key ......
数据

(数据科学学习手札149)用matplotlib轻松绘制漂亮的表格

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,matplotlib作为数据可视化的强力工具,可以帮助我们自由创作各式各样的数据可视化作品,其中matplotlib.pyplot ......
手札 matplotlib 表格 科学 数据

Blazor入门100天 : 身份验证和授权 (6) - 使用 FreeSql orm 管理ids数据

目录 1. **建立默认带身份验证 Blazor 程序** 2. 角色/组件/特性/过程逻辑 3. DB 改 Sqlite 4. 将自定义字段添加到用户表 5. 脚手架拉取IDS文件,本地化资源 6. freesql 生成实体类,freesql 管理ids数据表 7. 初始化 Roles,free... ......
身份 FreeSql 数据 Blazor 100

前端算法之二分查找

在数组中查找指定元素,如果存在就返回它的位置,如果不存在,就返回-1。 这是一道非常经典的算法题,考的就是二分查找算法,首先分析二分查找的思路: 假设一个数组为 [3,5,19,22,25,33,45,47,57,66,71,78](已经从小到大排好序),要求找出数值80的位置,如图: ps: g  ......
前端 算法

《深入理解Java虚拟机》第三章读书笔记(二)——HotSpot垃圾回收算法实现(OopMap,安全点安全区域,卡表,写屏障,三色标记算法)

系列文章目录和关于我 前面《深入理解Java虚拟机》第三章读书笔记(一)——垃圾回收算法我们学习了垃圾回收算法理论知识,下面我们关注下HotSpot垃圾回收算法的实现,分为以下几部分 对象是垃圾的判断依据 GC Roots 是如何高效扫描的 如何解决跨代引用对象的垃圾回收问题 如何降低垃圾回收STW ......
算法 色标 屏障 垃圾 区域

《深入理解Java虚拟机》第三章读书笔记(一)——垃圾回收算法

参考书籍《深入理解java虚拟机》周志明著 系列文章目录和关于我 本文主要介绍垃圾回收理论知识 1.jvm哪些区域需要进行垃圾回收 虚拟机栈,本地方法栈,程序计数器都是线程私有的,随线程而生,随线程而灭。其中栈中的栈帧随着方法的进入和退出而有条不紊的执行出栈和入栈操作,每一个栈帧需要分配内存基本上在 ......
算法 垃圾 第三章 笔记 Java

k8s部署canal-1.1.6版本实现MySQL数据库数据同步

1、版本说明 软件&镜像 版本&镜像信息 说明 Kubernetes v1.23.7 k8s服务器 Kuboard v3.5.2.0 k8s连接管理工具 Canal v1.1.6 数据同步 Canal-deployer canal/canal-server:latest canal-deplyer镜 ......
数据 版本 数据库 canal MySQL

(一) MdbCluster分布式内存数据库——基础架构介绍

(一) MdbCluster分布式内存数据库——基础架构介绍 这个项目是怎么开始的我已经有些记不清楚了,大概是原来的内存数据库很不好用,一次次地让我们踩坑,我又自以为是地觉得可以做一个更好的出来。自从拥有自己的团队以来,我思考最多的总是如何带着团队做出有意义和有价值的产品,而不是将时间浪费在无谓的琐 ......
分布式 MdbCluster 架构 内存 数据库

从 Cloud-Native Relational DB 看数据库设计

论文内容:Amazon Aurora: Design Considerations for HighThroughput Cloud-Native Relational Databases 里面介绍了一种云原生的关系型数据库 Aurora 的体系结构,以及导致该体系结构的设计考虑因素。我觉得和普通的 ......

火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。 本 ......
字节 火山 DataLeap 步骤 关键

深度学习炼丹-数据标准化

当我们处理的数据具有不同尺度时,执行数据标准化操作是很有必要的。本文给出了数据标准化(Normalization)的定义、常用方法以及为什么要做数据标准化,并给出相关代码实现。 ......
深度 标准 数据

2022数据分析: 电商天猫维生素类药品销售分析

前言 这篇数据分析记述了一次关于天猫维生素类的药品(2020-2021)销售数据的分析。 有些不足的地方,希望大家斧正。 题目 随着国家政策的逐步开放,越来越多的药品可以在网络上购买,医药电商平台蒸蒸日上,受新冠疫情的影响,线下药店购买困难,更让医药电商进入了更多消费者的视野,各大药企也纷纷加大力度 ......
维生素类 数据分析 药品 数据 2022

云端智创 | 聚焦云剪辑核心,一文详述智能生产全链路

本文内容整理自 「智能媒体生产」系列课程第一讲:概念、原理和基本使用,由阿里云视频云媒体服务技术负责人分享智能媒体生产的领域与定位、构架与服务层次、基本概念与技术原理,以及如何一站式开发接入视频制作业务。课程回放视频见文末。 “超视频化”时代,云计算打破产业原有壁垒,推动技术演进发生。媒体生产制作的 ......
链路 云端 核心 智能

Dijkstra算法详解(朴素算法+堆优化)

定义 Dijkstra(读音:/'daɪkstrə/)算法,是用来求解一个边带权图中从某个顶点出发到达其余各个顶点的最短距离的算法。(为表达简便,下文中“起点(源点)到某个顶点的距离”简称为“某个顶点的距离”) 限制条件:各个边的权不能为负。 原理 假设s,v1,v2,...,vn(以下简称P1)为 ......
算法 Dijkstra

分布式协议与算法-Raft算法

本文总结自:极客时间韩健老师的分布式协议与算法实战课程。 大家都知道,Raft算法属于Multi-Paxos算法,它是在Multi-Paxos思想的基础上,做了一些简化和限制。关于Paxos算法,博主在之前的文章有过总结,大家可以从这里跳转:分布式协议与算法-Paxos算法 关于Raft算法相关的开 ......
算法 分布式 Raft

初探富文本之CRDT协同算法

初探富文本之CRDT协同算法 CRDT的英文全称是Conflict-free Replicated Data Type,最初是由协同文本编辑和移动计算而发展的,现在还被用作在线聊天系统、音频分发平台等等。当前CRDT算法在富文本编辑器领域的协同依旧是典型的场景,常用于作为实现文档协同的底层算法,支持 ......
算法 文本 CRDT

SOFAJRaft源码阅读(肆)-Netty时间轮算法的实践

SOFAJRaft的定时任务调度器是基于Netty来实现的,所以本文将会基于Netty时间轮算法,然后再结合SOFAJRaft源码进行分析。 @Author:Akai-yuan @更新时间:2023/1/29 1.HashedWheelTimer概览 一个时间轮算法的组成成分图: 一个基于Netty ......
算法 SOFAJRaft 源码 时间 Netty

C#开发PACS医学影像三维重建(十四):基于能量模型算法将曲面牙床展开至二维平面

在医学影像领域中,将三维重建中的人体组织展开平铺至二维,用来研判病灶和制定治疗方案的重要手段之一, 它能够将立体曲面所包含的信息更为直观的展示到二维平面上,常用的情景包括: 牙床全景图、平铺血管、骨骼二维化展开(肋骨平铺)。 众所周知,人体牙床正常情况下是有弧度的,无论是从俯视位还是冠状位观察都是不 ......
牙床 医学影像 曲面 算法 能量

Sqoop导出ClickHouse数据到Hive

背景 公司采购了外部服务,其存储为ClickHouse,按照公司要求需要将其数据采集到Hive。 验证环境 CDH: 6.3.2 ClickHouse: 19.15.4.10 Sqoop: 1.4.7 Driver 需要在脚本中明确指明所使用的Driver完整签名。 ClickHouse使用自定义协 ......
ClickHouse 数据 Sqoop Hive

[数据结构] 二分查找 (四种写法)

#二分查找 ##二分查找 二分查找(Binary Search)也叫作折半查找,前提是查找的顺序结构是有序的,我们一般在数组上进行二分查找。 二分查找就好像猜数字大小游戏一样。假设要数字目标值属于 [1, 1000] 范围内,当我们猜的数字小于这个目标值时("Too low"),我们需要往大去猜;反 ......
数据结构 写法 结构 数据

[数据结构] 树、二叉树、森林的转换

#树 ##树的表示方法 ###双亲表示法 用一组地址连续的存储单元来存放树中的各个节点,每一个节点中有一个数据域和一个指针域,数据域用来存储树中该节点本身的值;另一个指针域用来存储该节点的双亲节点在存储结构中的位置信息。 采用双亲链表存储方式实现查找一个指定节点的双亲节点比较方便,但难以实现查找一个 ......
数据结构 森林 结构 数据

[数据结构] 二叉搜索树 (二叉排序树)

#二叉搜索树 ##二叉搜索树的基本概念 二叉搜索树( Binary Search Tree )也称二叉排序树,是一种各节点值之间存在一定次序关系的二叉树。 ##二叉搜索树的特点 一般情况下,二叉搜索树中所有节点值是不重复的。 对于二叉搜索树中的每个节点: (1)如果其左子树不为空,那么其左边的节点值 ......
数据结构 结构 数据

[数据结构]二叉树的前中后序遍历(递归+迭代实现)

#二叉树的遍历 ##主要的三种遍历方式 二叉树主要的遍历方式有前序遍历、中序遍历和后序遍历。 (1)前序遍历:根节点-->左子树-->右子树 (2)中序遍历:左子树-->根节点-->右子树 (3)后序遍历:左子树-->右子树-->根节点 其实还有一种比较基础的遍历方式是层次遍历,但是在本篇文章中不会 ......
数据结构 结构 数据