hadoop spark
Spark简介
(一)Spark介绍 Spark是一个通用的分布式数据处理引擎。 通用:通用指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。 分布式:指的是Spark处理数 ......
尚硅谷Hadoop的WordCount案例实操练习出现的bug
这个错误是由于WordCount程序在Windows系统上运行时,尝试调用了Hadoop的NativeIO类的access0方法,但无法找到正确的JNI库导致的UnsatisfiedLinkError异常。
NativeIO类是Hadoop用来执行一些本地文件操作的类,它依赖于JNI来调用Windo... ......
在本地运行spark程序,出现Scala module 2.13.4 requires Jackson Databind version >= 2.13.0 and < 2.14.0 - Found jackson-databind version 2.12.7
这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson,在pom.xml文件里修改: 添加 <exclusions> <exclusion> <groupId>com.fasterxml.jackson.module</groupId> <artifactId>*</a ......
hadoop安装过程与踩雷记录
1. 安装教程 https://blog.csdn.net/weixin_47749831/article/details/109607682 在粘贴脚本修改代码时需要注意用自己的路径替换博客中代码的路径 2. 报错:‘-Dhadoop.security.logger‘ 不是内部或外部命令,也不是可 ......
HDFS文件因Hadoop版本原因导致append操作失败的问题
**问题重现: 2023.05.24练习B站尚硅谷Hadoop3里的HDFS的Shell操作(append)** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......
【博学谷学习记录】超强总结,用心分享 | spark知识点总结1
【博学谷IT技术支持】 ## Spark基础 ### spark的特点 * 运行速度快 ```js 提供了一个全新的数据结构哦RDD(弹性的分布式数据集) 整个Spark是基于线程来运行的,线程的启动和销毁优于进程 ``` * 易用性 ```js spark 提供了多种操作语言的API,python ......
hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法
# hadoop集群搭建后,启动集群后网络畅通,却无法访问web页面的解决办法 > 问题引入:在学习hadoop搭建完全分布式集群时,已经集群配置了4个核心文件,并且启动所有相关进程,在使用jps命令检查进程,该集群启动完整正常,但是无法访问hdfsweb页面和yarnweb页面,我尝试了ping通 ......
hadoop 2.7.7 ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件中止了一个已建立的连接。
最近在测试Hbase在windows上的单机版的功能。 版本:hadoop 2.7.7 hbase 2.0.0 错误: ERROR datanode.DataNode: BlockSender.sendChunks() exception: java.io.IOException: 你的主机中的软件 ......
Hadoop-3.3.5单机版安装步骤
1.下载JDK和Hadoop[略] 2.解压[略] 3.创建hadoop数据存储的目录 mkdir -p /home/hadoop/tmp /home/hadoop/hdfs/data /home/hadoop/hdfs/name 4.配置JAVA环境和HADOOP_HOME vim /etc/pr ......
hadoop多节点,单词数计算,java代码
1、pom.xml代码 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst ......
提高数据的安全性和可控性,数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路
在企业级应用中,数据的安全性和隐私保护是极其重要的。Spark 作为数栈底层计算引擎之一,必须确保数据只能被授权的人员访问,避免出现数据泄露和滥用的情况。为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性,数栈基于 Apache Ranger 实现了 Spark SQL 对数据 ......
hadoop distcp 参数详解
distcp 是一个用于数据复制的工具,它可以将数据从一个 Hadoop 集群复制到另一个 Hadoop 集群。 Usage: hadoop distcp [OPTIONS] <srcurl> <desturl> OPTIONS: -p[rbugpcax] Preserve status (rbug ......
hadoop中distcp的mapreduce任务中的task0详解及优化
distcp 是 Hadoop 中一个用于数据复制的工具,可用于大规模数据复制场景。在 distcp 执行过程中,会运行多个 MapReduce 任务,其中第一个任务通常被称为 "task0" 或 "main task"。 task0 主要负责以下操作: 解析命令行参数并生成 distcp 配置。 ......
Hadoop API使用 大坑
这几天一直在困扰我 pycurl 版本和本机的版本不符合 他连接又连接的自己自带的版本 与系统不相同 低级也会报错 https://blog.csdn.net/u010910682/article/details/89496550/?ops_request_misc=&request_id=&biz ......
hadoop基础
大数据的5v特征 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类 ......
hadoop启动脚本
if (($# < 1)); then echo no args input, exit. exit 1 fi case $1 in start) echo [INFO] starting dfs ... start-dfs.sh echo [INFO] done. echo [INFO] star ......
spark资源动态调整--内容搬运,周知
动态资源分配 Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。 动态增加executor配置项:spark.dyn ......
Hadoop的运行模式
Hadoop官方网站 http://hadoop.apache.org/ Hadoop运行模式 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。 完全分 ......
Hudi学习笔记4 - Hudi配置之Spark配置
Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增,时间旅行查询从哪儿开始,有两种格式的值:yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s ......
hadoop前期环境搭建
主机名 ip ssh免密登陆 #修改主机名 hostnamectl set-hostname node1 #修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-ens33 #node1 IPADDR="192.168.88.101" NETMASK="22 ......
基于Hadoop3.1.3安装Hive3.1.2
Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 ......
[HiBench] 安装HiBench,测试在Spark上跑PageRank与修改源码测试
[HiBench] 安装HiBench,测试在Spark上跑PageRank与修改源码测试 背景:我想在HiBench上测试在Spark上跑PageRank性能,并想要修改PageRank的源码进行测试。本来,HiBench在README里写的已经挺清楚的了,直接照着做就行。奈何我用的服务器没有珂学 ......
[Hadoop] 在集群中安装Hadoop
[Hadoop] 在集群中安装Hadoop 类似的教程其实有很多,网上随便一搜就是一大把。这里简单的记录一下本人的安装过程,留给本人或者后人参考。 集群配置 内网互联的三台机器,IP分别为10.0.0.1,10.0.0.2,10.0.0.3。 我们的目标配置是让10.0.0.1做主节点,也就是mas ......
hadoop 3.3.5伪分布式集群部署
hadoop包下载 https://archive.apache.org/dist/hadoop/common/ 安装好jdk并配置环境变量 下载hadoop压缩包并放至 /data/hadoop目录 解压 tar -zxvf hadoop-3.3.5.tar.gz 1配置 1.1在Hadoop安装 ......
Hadoop之HDFS的API操作文件的上传下载参数的优先级
Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
DB - HDFS (Hadoop Distributed File System)
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
Hadoop运行集群搭建
Hadoop运行集群搭建 虚拟机环境准备 安装虚拟机及基本配置 IP地址192.168.10.100、主机名称hadoop100,内存4G、硬盘50G 测试下虚拟机联网情况 1 [root@hadoop100 ~]# ping www.baidu.com 2 PING www.baidu.com ( ......
Mapreduce二次排序时,将jar包上传至Hadoop上运行时,抛出异常"java.util.NoSuchElementException"
查询原因后发现是java中实现实现Mapper时StringTokenizer 类时使用了一个方法nextToken()会抛出这个异常, ”我们可以使用 hasMoreTokens() 和 hasMoreElements() 方法来避免异常。如果标记器的字符串中有更多标记可用,则这两种方法都返回 t ......
Hadoop集群运行
1. 实验一:hadoop 集群运行 实验任务一:配置 Hadoop 格式化 步骤一:NameNode 格式化 [root@master ~]# su - hadoop [hadoop@master ~]$ cd /usr/local/src/hadoop/ 结果: [hadoop@master ~ ......
Hadoop全分布配置
1.实验一:hadoop 全分布配置 1.1. 实验目的 完成本实验,您应该能够: 掌握 hadoop 全分布的配置 掌握 hadoop 全分布的安装 掌握 hadoop 配置文件的参数意义 1.2. 实验要求 熟悉 hadoop 全分布的安装 了解 hadoop 配置文件的意义 1.3. 实验环境 ......