hadoop spark

Spark常用Sql

一、日期处理 1、查询当前日期 SELECT current_date() 2023-12-22 2、查询当前时间戳 select current_timestamp() 2023-12-22 14:50:19.213 3、查询当前时间戳-1小时 select current_timestamp() ......

常用 Spark Sql更新时间 2023-12-22

Hive和Spark生产集群搭建

1.环境准备 1.1 版本选择序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 MySQL-8.0.31 mysql Datax Datax Datax Datax Datax Datax Spark-3.3.1 Spar ......

集群 Spark Hive更新时间 2023-12-21

Hadoop生产集群搭建

1.环境准备 1.1 集群规划序号 bigdata-001 bigdata-002 bigdata-003 bigdata-004 bigdata-005 IP x x x x x x xxx xxx xxx 组件 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5 节 ......

集群 Hadoop更新时间 2023-12-21

大数据hadoop理论面试题

1、列举几个hadoop生态圈的组件并做简要描述？（1）Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务，配置维护，命名服务。（2）Flume:一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。（3）Hbase:是一个分布式的、面向列 ......

理论数据 hadoop更新时间 2023-12-20

报错：org.apache.hadoop.hbase.util.GetJavaProperty

hbase和flume查看版本时显示如下 [root@slave1 flume-1.9.0]# hbase version 错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty SLF4J: Class path contains m ......

GetJavaProperty apache hadoop hbase util更新时间 2023-12-19

hadoop集群常见错误

虚拟及没有启动任何服务器查看jps会显示jps，如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2 ......

集群常见错误 hadoop更新时间 2023-12-18

hadoop启动时报错process information unavailable

启动hadoop，jps查看报错 [root@slave1 home]# jps 7798 -- process information unavailable 7081 -- process information unavailable 查看进程是否存在 [root@slave1 home]# ......

information unavailable 时报 process hadoop更新时间 2023-12-18

Hadoop的“前世今生”

Hello，小伙伴们，作为大数据的第一篇博文，肯定要先介绍一下大数据中的“大哥大”Hadoop了，别急，咱们慢慢介绍。一：Hadoop名称由来与很多其他的开源框架不同，Hadoop的名字并不是一个缩写，而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命 ......

Hadoop更新时间 2023-12-18

安装spark启动及遇到的问题

参考博主：Ubuntu下安装Spark3.2.0教程_ubuntu火狐浏览器怎么下载spark-CSDN博客在这个博主的内容中安装spark，要注意滴是：这里同时修改了spark-evn.sh的文件名称记得修改，然后下面运行的时候我啥结果也没有，后面直接不管了打算执行命令：spark-shel ......

问题 spark更新时间 2023-12-18

Hadoop Yarn Tool接口接入

项目搭建参考 Java实现对Hadoop HDFS的API操作 1.驱动类 package cn.coreqi.mapreduce.tool; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.Too ......

接口 Hadoop Yarn Tool更新时间 2023-12-17

Hadoop Yarn 调度器多队列

1.容量调度器多队列 1.为何需要多队列调度器默认就1个default队列，不能满足生产的要求。 1个队列在任务极限的情况下，容易资源耗尽。特殊时期通过对任务的区分可以保证重要的任务队列资源充足按照框架区分队列，如hive/spark/flink 每个框架的任务放入指定的队列(企业用的不是特别 ......

队列 Hadoop Yarn更新时间 2023-12-17

Hadoop YARN生产环境核心配置参数

1.ResourceManager相关配置参数说明默认值备注 yarn.resourcemanager.scheduler.class 配置调度器,默认为容量调度器(Apache) org.apache.hadoop.yarn.server.resourcemanager.scheduler ......

核心参数环境 Hadoop YARN更新时间 2023-12-17

Hadoop YARN

1.Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.Yarn基础架构 Yarn主要由ResourceManager、NodeManager、Applicatio ......

Hadoop YARN更新时间 2023-12-16

Hadoop 数据压缩

1.概述 1.好处 & 坏处优点：减少磁盘IO、减少磁盘存储空间缺点：增加CPU开销 2.压缩的原则运算密集型的Job，少用压缩 IO密集型的Job，多用压缩 2.MR 支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带? 算法文件扩展名是否可切片换成压缩格式后,原来的程序 ......

数据 Hadoop更新时间 2023-12-16

Hadoop快速入门

Hadoop快速入门一、大数据思维分而治之所谓“分而治之”，就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分，然后逐个分别找出各部分的解，再把各部分的解组成整个问题的解。传统的计算都是基于内存去完成的，但是内存是有限的，数据量太大，导致无法在较短时间内迅速解决，也就是 ......

Hadoop更新时间 2023-12-16

Hadoop MapReduce框架原理

1.InputFormat数据输入 1.数据切片与MapTask并行度决定机制一个Job的Map阶段并行度由客户端在提交Job时的切片数决定每一个Split切片分配一个MapTask并行实例处理默认情况下，切片大小 = BlockSize 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片 ......

MapReduce 框架原理 Hadoop更新时间 2023-12-14

Hadoop 数据类型及序列化

1.Hadoop数据类型 Java类型 Hadoop Writable类型 Boolean BooleanWritable Writable Writable Writable Writable Writable Writable Writable Writable Writable 2.为何Had ......

序列类型数据 Hadoop更新时间 2023-12-13

Hadoop MapReduce编程规范

用户编写的程序分为三个部分:Mapper、Reducer和Driver 1.Mapper阶段用户自定义的Mapper要继承自己的父类 Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法中 Mapper的输出数据是KV对的形式（KV的类型可自定义） ......

MapReduce Hadoop更新时间 2023-12-13

[spark] coalesce() 和 repartition()的区别

coalesce(1) 的主要作用是将数据合并到尽可能少的分区中，而 repartition(1) 则是将数据随机重分区为一个分区。这使得 coalesce(1) 相对而言更加高效，因为它减少了数据移动的次数，只需要在当前 Executor 上将所有分区的数据都收集到当前应用程序的单个 Execut ......

repartition coalesce spark更新时间 2023-12-13

Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析

NameNode被格式化之后，将在NameNode目录下产生一些文件 1.Fsimage文件 Fsimage文件是HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息 2.Edits文件 Edits文件存放了HDFS文件系统的所有更新操作的路径， ......

SecondaryNameNode NameNode Fsimage Hadoop Edits更新时间 2023-12-12

Hadoop 配置的优先级

从低到高 1.默认配置默认文件文件存放在Hadoop的jar包中的位置 core-default.xml hadoop-common-3.3.6.jar/core-default.xml hdfs-default.xml hadoop-hdfs-3.3.6.jar/hdfs-default.xm ......

优先级 Hadoop更新时间 2023-12-11

Java实现对Hadoop HDFS的API操作

1.配置Hadoop的Windows客户端 Hadoop 配置Windows 客户端 2.新建Maven项目[略] 3.添加依赖  <dependen ......

Hadoop Java HDFS API更新时间 2023-12-10

Hadoop 配置Windows 客户端

1.根据Hadoop版本下载Windows依赖，并放置到非中文目录下 https://github.com/cdarlint/winutils 2.配置环境变量 HADOOP_HOME -> 放置的目录地址 PATH -> 追加%HADOOP_HOME%\bin 3.测试环境双击winutils. ......

客户端 Windows 客户 Hadoop更新时间 2023-12-10

Hadoop HDFS 文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M. 建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M，SSD则配置为256M。 ......

大小文件 Hadoop HDFS更新时间 2023-12-10

基于Docker容器搭建hadoop完全分布式集群环境

简介物理机：windows10 宿主机：Centos7虚拟机，需要安装Docker服务 hadoop集群节点：3个centos7的容器，hadoop1、hadoop2、hadoop3 组件：容器镜像：Centos7 Docker CE 24.0.7 JDK1.8.0_181 Hadoop3.1. ......

分布式集群容器环境 Docker更新时间 2023-12-10

Hadoop 常用端口号

端口名称 Hadoop2.x Hadoop3.x HDFS NameNode内部通信端口 8020 / 9000 8020 / 9000 / 9820 HDFS NameNode HTTP UI 50070 9870 YARN MapReduce查看执行任务端口 8088 8088 历史服务器通信端 ......

口号常用 Hadoop更新时间 2023-12-09

Iceberg Spark存储过程-表治理工具

一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......

过程 Iceberg 工具 Spark更新时间 2023-12-08

虚拟机运行Hadoop | 各种问题解决的心路历程

ps：完成大数据技术实验报告的过程，出项各种稀奇古怪的问题。(知道这叫什么吗？经济基础决定上层建筑，我当时配置可能留下了一堆隐患，总之如果有同样的问题，希望可以帮到你) 一、虚拟机网络连接不通的各种情况我这里遇到的是，三台虚拟机，两台piing百度不同原因：改了下内存，重启就又未知的网络名称解 ......

心路历程 Hadoop 问题更新时间 2023-12-07

hive执行sql报错 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

前言：执行hive sql报错，sql逻辑是两个表左连接并将数据插入新的表中。报错信息： [ERROR] 2023-12-05 15:49:49.165 +0800 - execute sql error: Error while processing statement: FAILED: Ex ......

hive MapredLocalTask Execution FAILED apache更新时间 2023-12-06

共540篇 :3/18页 首页上一页123456下一页尾页

526互联