笔记 数据hadoop hive

《软件工程—实践者的研究方法》读书笔记

《软件工程—实践者的研究方法》这本书内容丰富,从软件工程的定义、软件过程、建模、质量管理到管理软件项目和软件工程发展趋势的探讨,作者逐个展开并做了大量的讲解。内容丰富,当然书也是非常厚。借到这本书之后,一开始没看,一再推迟,大概十一月末才鼓起勇气开始翻阅这本厚厚的书。 这本书不像之前翻阅的软件工程书 ......
实践者 软件工程 笔记 方法 工程

【专题】2023中国数字平台开放性指数研究报告PDF合集分享(附原数据表)

原文链接:https://tecdat.cn/?p=34786 原文出处:拓端数据部落公众号 在数字平台的开放性持续向好的背景下,交易和转移两个方面成为推动数字平台总体开放性不断提升的主要动力。然而,接入和退出维度仍然是限制数字平台总体开放性的重要因素。电商交易平台的整体开放性平均得分最高,而社交媒 ......

【学习笔记】并查集

并查集是一种树形数据结构。它管理一系列不相交的集合。它支持两种操作: 查询 Find 合并 Union 查询 有一个 fa 数组,里面存放了每个节点的父节点。这样下去,查询一个节点的父节点,再查询它的父节点的父节点,再查询它的父节点的父节点的父节点……我们就可以顺藤摸瓜,通过这个数组来查询这个节点的 ......
笔记

Golang学习笔记(八)—— 泛型

泛型 泛型是什么?为什么要用泛型? 在开发中,会有一些复用性很强的功能,它被应用到很多地方,但为了适用会被不断重写,这很低效。例如一个intADD函数,他能进行 int 的加法,假如我们想进行 float 加法,又得重写一个floatADD函数,泛型就是为了解决这个问题而推出的功能。 想要接收多种类 ......
笔记 Golang

Hive之set参数大全-5

I 限制外部表数据插入 set hive.insert.into.external.tables=true; 在Apache Hive中,通过INSERT INTO语句向外部表(External Table)插入数据时,有一些注意事项和限制。外部表是Hive中的一种特殊表,它与Hive管理的存储位置 ......
参数 大全 Hive set

Hive之set参数大全-6

L 指定是否启用延迟评估(lazy evaluation)的扩展布尔字面量 在 Apache Hive 中,hive.lazysimple.extended_boolean_literal 是一个配置属性,用于指定是否启用延迟评估(lazy evaluation)的扩展布尔字面量。延迟评估可以提高性 ......
参数 大全 Hive set

Hive之set参数大全-7

指定 Hive LLAP(Live Long and Process) 守护进程的委托令牌的生存期 在 Apache Hive 中,hive.llap.daemon.delegation.token.lifetime 是一个配置属性,用于指定 Hive LLAP(Live Long and Proc ......
参数 大全 Hive set

关于大数据平台上任务管理的思考

本文于2019年7月16日完成,发布在个人博客网站上。 考虑个人博客因某种原因无法修复,于是在博客园安家,之前发布的文章逐步搬迁过来。 作业,比如提交一个hive脚本到计算平台上运行,这个脚本宏观上称为一个作业。 任务,比如mapper,reducer等。 资源,比如CPU时间,内存,硬盘IO,网络 ......
任务 数据 平台

Hive之函数解析

1.1 查看系统自带的函数 -- 查看系统自带函数 show functions; -- 查看自带函数的用法 desc/describe function 函数名; -- 查看自带函数的具体用法 desc/describe function extended 函数; 1.2 窗口函数 1.2.1 相 ......
函数 Hive

Python Pandas 数据可视化

​ 1、Pandas 的绘图功能 Pandas 内置的绘图功能进行数据可视化是一种快速且有效的方法,它主要依赖于 Matplotlib 库。Pandas 提供了多种绘图类型,适用于不同的数据分析和可视化需求。 1)折线图 使用plot()绘制拆线图,常用参数如下, 参数 描述 x 一维数组或列表,表 ......
数据 Python Pandas

【Application Insights】使用CURL命令向Application Insgihts发送测试数据

问题描述 在使用App Service或者Kubernetes等服务时,需要收集一些日志数据并且发送到Application Insights中,当使用SDK或者是服务自带的Application Insights配置时遇见问题,有没有快速的调试方式能验证App Service是否与Applicat ......
Application Insights Insgihts 命令 数据

MyBatis—Spring 动态数据源事务的处理

在一般的 Spring 应用中,如果底层数据库访问采用的是 MyBatis,那么在大多数情况下,只使用一个单独的数据源,Spring 的事务管理在大多数情况下都是有效的。然而,在一些复杂的业务场景下,如需要在某一时刻访问不同的数据库,由于 Spring 对于事务管理实现的方式,可能不能达到预期的效果 ......
数据源 事务 MyBatis 动态 数据

【笔记】wqs 二分

适用范围 wqs 二分可以用来解决类似这样的问题: 令 \(f(x)\) 为恰好使用 \(x\) 次某种操作,求 \(f(p)\)。 \(f(x)\) 具有凸性(图像为上凸或下凸)。 对于一个值 \(k\),若是下凸壳能较快的求出 \(\min\limits_{i = 1}^n\{f(i) - k\ ......
笔记 wqs

高级数据结构笔记

树套树 顾名思义,就是一个树套一个树。。。 广义的树套树是指嵌套多层的数据结构。常见的有:线段树套线段树(二维线段树),线段树套平衡树(“二逼平衡树”),分块套平衡树,树状数组套线段树(带修主席树)等等。 在这里,由于 set,map 等 STL 内部实现是平衡树,因此将这些 STL 的嵌套也算作树 ......
数据结构 结构 笔记 数据

[python]沪深龙虎榜数据导入通达信的自选板块,并标注于K线图上

1 #coding=utf-8 2 3 #读取'[paint]'开头的csv文件 4 #copyright @ WangXinsheng 5 #http://www.cnblogs.com/wangxinsheng/ 6 import os 7 import struct 8 import time ......
线图 龙虎榜 板块 数据 python

模式识别自学笔记:最小错误率贝叶斯决策

目标:判断特征x属于标签ω1还是ω2 似然度 = 条件概率密度p(x|ωi) * 先验概率p(ωi) 后验概率p(ωi|x) = 条件概率密度 * 先验概率 / 特征向量的概率分布 比较方法一:直接比较分子大小 由于比较后验概率大小时,分母特征向量的概率分布与特征x无关,比较的后验概率的两个分母(特 ......
错误率 错误 模式 笔记

docker学习笔记

目录基本使用搜索镜像下载镜像列出镜像信息列出容器信息创建并运行容器删除容器进入容器执行命令查看日志容器文件拷贝容器运行和停止run命令详解-p端口对外发布(端口映射)-v数据卷-e设置环境变量--name机器命名--restart容器退出后的重启策略其他镜像详细信息容器详细信息容器内进程数据卷高级d ......
笔记 docker

深度学习图像复原之去雨:常用数据集介绍

可能有帮助的链接:https://paperswithcode.com/task/single-image-deraining 合成数据集 Rain100H 出自 CVPR 2017 论文 Deep Joint Rain Detection and Removal from a Single Ima ......
深度 图像 常用 数据

Oracle、达梦:☆获取数据库对象、获取对象的DDL定义语句(达梦)

一、获取数据库对象(Oracle、达梦) 以下方式在达梦DM数据库中都能跑通,Oracle未测试所有的方式。 1、获取对象(表、视图、函数等……) 1.1、获取所有对象——所有模式下的 ①、ALL_OBJECTS视图 数据库所有对象表:包括表、视图、物化视图、函数、存储过程……等 -- 查询所有对象 ......
对象 语句 数据库 数据 Oracle

Linux firewalld 防火墙 笔记

Linux 防火墙策略: 严格过滤入站,允许出站 防火墙有两类: 硬件防火墙(可以组成集群保护),软件防火墙(本机安装的软件,本机防护)。 1.firewalld防火墙服务: Linux默认安装的防火墙系统服务: firewalld防火墙是centos7系统默认的防火墙管理工具,一般是自带的无需安装 ......
防火墙 firewalld 笔记 Linux

C# 使用protobuf序列化反序列化数据

protobuf是谷歌的一个序列化数据结构的协议,性能高,存储占用小 经过我的测试对比 1,最慢的是C#内置的BinaryFormatter,这个玩意能不用则不用 2,然后是json,用起来很方便,比BinaryFormatter快了1-2倍 3,接下来就是protobuf,不过需要给类的成员加上特 ......
序列 protobuf 数据

Hive文件存储格式

结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark ......
格式 文件 Hive

Hive 数据写入流程

概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例: ......
流程 数据 Hive

hive分区表数据导入

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta ......
数据 hive

Hive 复杂数据类型Array,Map,Struct

建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p ......
类型 数据 Struct Array Hive

Hive写入JSON数据

优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g ......
数据 Hive JSON

Hive Array数据处理

建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE ......
数据处理 数据 Array Hive

vue实现虚拟滚动(面试题:后端给你十万条数据,你怎么处理?)

<template> <div class="viewport" @scroll="scroll"> <div class="list-phantom" :style="{height: totalHeight+'px'}"></div> <div class="list-area" :style= ......
万条 数据 vue

Power BI - 5分钟学习修改数据类型

每天5分钟,今天介绍Power BI修改数据类型 Power BI加载数据时,会尝试将源列的数据类型转换为更高效的存储、计算和数据可视化的数据类型。例如,如果从Excel导入的值的列没有小数值,Power BI Desktop会将整个数据列转换为整数数据类型,这能更好地优化存储提高计算效率。 但是某 ......
类型 数据 Power BI
共24800篇  :15/827页 首页上一页15下一页尾页