hadoop spark

Hadoop入门

第一章 Hadoop概述 1.1 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 主要解决,海量数据的存储和海量数据的分析计算问题 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 1.2 Hadoop优势 高可靠性:Hadoop底层维护多 ......
Hadoop

(Windows Hadoop环境配置)IDEA:ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path

ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path 出错原因:还没有在windows上配置hadoop环境变量。 解决:在windows上配置hadoop环境变量 参考:windows下缺少 ......
binary the winutils Windows 环境

使用Python调用Hadoop Hdfs的API

一、Java调用hdfs的api import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.jun ......
Python Hadoop Hdfs API

Failed to connect to server: hadoop/ip:9000: try once and fail.

hadoop 连接失败,报如下错误! java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChann ......
connect Failed server hadoop 9000

sqoop1.4.7完全支持Hadoop3.x, Hive3.x Hbase2.x

已经修改好 保存至云盘 自己下载 花了时间的,记得关注我。。。 链接:https://pan.xunlei.com/s/VNe6P6Tm1A9Q-RG5GByN08rdA1# 提取码:5nke 复制这段内容后打开手机迅雷App,查看更方便 下载解压直接用,里面的内容已经改好 但是需要注意的是conf ......
Hadoop3 sqoop1 Hadoop Hbase2 sqoop

Spark基础——Scala1.3

For循环控制 1.To 范围数据循环 to <-规定to 前后闭合,如i<- 1 to 10,则输出包括1到10的所有数 for (i<- 1 to 12){ println("她喜欢我"+i+"次")//输出结果为1-12所有数 2.until 前闭合后开 i<-1 until 10 相当于输出 ......
基础 Scala1 Spark Scala

Spark基础——scala1.2

if/if else/StdIn.readShort方法运用 StdIn.readShort适用于整数数据类型 println("请输入年龄") var age=StdIn.readShort//交互式 if (age<18){ println("小屁孩") }else{ println("大人") ......
基础 scala1 Spark scala

Spark基础——scala基础1.0

定义对象和强制转化 1.定义规则 var 变量名 :变量类型 =初始值 var i :Int=10 var j :Double=3.33 //var 变量名 :变量类型 =初始值 val o:Int=2 //val 常量名 :变量类型 =初始值 变量声明时,必须要有初始值 i=20 //var修饰的 ......
基础 Spark scala 1.0

IDEA连接Hadoop

因为一些学习的需要,用到了idea连接hadoop,并对它进行一些相关的读写操作,总结一下大概的流程。 一、使hadoop集群可以被远程访问,配置一些文件,可以参考一些其它博主的教程,记住配置的URL或者IP地址以及远程访问用到的端口号。 二、在idea中建一个连接,测试一下是否可以连接hadoop ......
Hadoop IDEA

Hadoop3.3.6 Shell命令操作

一、mkdir 创建文件夹通过命令hadoop fs -mkdir /cyw在hdfs中创建名为cyw的文件夹 二、moveFromLocal从本地剪切到hdfs中 这里将本地/home/input/movefromlocal文件剪切到hdfs的cyw文件夹下hadoop fs -moveFromL ......
命令 Hadoop3 Hadoop Shell 3.6

Hadoop3.3.6配置历史服务器和日志

一、配置历史服务器 1.增加配置属性 Hadoop部署模式主要有3种:本地、伪分布式、完全分布式。云服务器只有一台所以我使用的是伪分布式模式部署的。要配置历史服务器只需修改mapred-site.xml文件。在里面增加如下配置。 <!-- 历史服务器端地址 --> <property> <name> ......
Hadoop3 服务器 Hadoop 历史 日志

大数据hadoop学习总结

一、环境配置: 1、hadoop 2、zookeeper 3、hbase 4、phoenix 二、连接准备 hbase-site.xml 1 <?xml version="1.0"?> 2 <?xml-stylesheet type="text/xsl" href="configuration.xs ......
数据 hadoop

Hadoop基础学习1(SSHfinalshell、vim、别名、hadoop集群)

1.SSH协议 SSH协议为Secure Shell的缩写,是一种网络安全协议,转为远程的登录会话和其他网络服务提供安全性的协议。 在Linux中,SSH的主要用途有:用户加密实现远程登录,服务器之间的免密登录。 SSH协议默认采用RSA算法实现非对称加密,需要两个密钥:公开密钥和私有密钥。 公钥和 ......
别名 集群 SSHfinalshell 基础 Hadoop

1-centOS7搭建伪分布式Hadoop

前言:虚拟机快照的使用 VMware Workstation 软件可以用快照进行迅速的虚拟机状态的切换 ※. 类似于虚拟机备份, 可以使用备份进行快速恢复。 比如没安装jdk之前拍摄快照来备份 ※. 若jdk没安装好或者jdk环境变量配置的有问题, 可以用安装之前的快照快速恢复虚拟机 1.拍摄快照: ......
分布式 centOS7 centOS Hadoop

Ubuntu22系统部署Hadoop3.3.6环境

看boss有招大数据的讲师,好奇看了下,现在大学都讲大数据了,现在是越来越普及。昨天弄了一个云服务器部署了下Hadoop,虽然也是参考网上教程部署,但过程中还是出了不少问题。想着把部署过程完整记录下,所以我就把部署好的实例释放了又实例化了一台新的云服务器重新部署了下,如果是在我本地安装报错了还得重新 ......
Hadoop3 环境 Ubuntu Hadoop 系统

spark2.4.4安装

1、环境准备: 下载spark-2.4.4-bin-hadoop2.7.tgz 上传安装包到Linux中 解压安装包 tar -zxf spark-2.4.4-bin-hadoop2.7.tgz -C /hadoop/app 2、配置环境 2.1修改hadoop中yarn-site.xml <pro ......
spark2 spark 4.4

habase2.5.5解决ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not runnin

hbase的master和regionserver启动都正常但是出现错误 org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not runnin之后我翻阅logs里面的启动日志 解决方案 在hbase-site.x ......

Hadoop学习

# Hadoop ## java环境安装 ## hadoop上传、解压 环境变量配置 ~~~bash JAVA_HOME=/usr/local/java/jdk1.8.0_161 CLASSPATH=$JAVA_HOME/lib/ PATH=$PATH:$JAVA_HOME/bin export P ......
Hadoop

org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!问题的解决

# 问题描述 hive进行初始化时,出现这样的问题; # 问题解决 只要进入到我们的虚拟机安装配置的mysql里面,将我们hive-site.xml里面提及到的数据库删除,然后再进行初始化即可; 这次出错是因为,我之前已经初始化过,才出现了这个问题; ......

开发笔记-大数据技术栈-spark基础

Spark是一个快速、通用、可扩展的大数据分析引擎,是集批处理、实时流处理、交互式查询、机器学习与图计算为一体的大数据开源项目。 一、对比MapReduce 1.Hadoop中的job处理流程: 》从hdfs读取数据 》 在map阶段,执行mapper function,然后split到磁盘 》在r ......
基础 笔记 数据 spark 技术

Hadoop的写流程(微观层面)

解释: 步骤1:客户端进行发送存储消息,FileSystem通过rpc调用NameNode的put方法,NameNode对文件的路径,大小以及权限进行校验, 步骤2:校验成功后,返回FSDateOutputStream对象给客户端进行使用 步骤3:客户端对文件进行划分,将划分信息返回给NameNod ......
微观 层面 流程 Hadoop

Hadoop环境安装与配置

1.基础操作系统环境安装(略) 2.JDK的安装与配置 当前各大数据软件如Hadoop等,仍然停留在Java 8上,在本实验选用的是Java 8。在自己的Linux系统中,jdk可以使用如下命令进行一键安装(需具备sudo权限)。 sudo yum install java-1.8.0-openjd ......
环境 Hadoop

Hadoop大数据平台搭建

# Hadoop平台搭建 ## 一、基础环境准备 ### 1.master、slave1、slave2三台主机上配置以下信息 ``` [root@localhost ~]# cd /etc/sysconfig/network-scripts [root@localhost network-scrip ......
数据 Hadoop 平台

Ubuntu部署Spark集群

## 前期准备 ### 系统及软件版本说明 本章操作中所使用的相关操作系统及软件版本如下: | 软件 | 版本 | | | | | 操作系统 | Ubuntu 14.04.1 | | JDK | 1.8.0 | | Hadoop | 2.7.3 | | Spark | 2.2.0 | ### JDK ......
集群 Ubuntu Spark

Ubuntu部署Hadoop集群

## 前期准备 ### 系统及软件版本说明 本章操作中所使用的相关操作系统及软件版本如下: | 软件 | 版本 | | | | | 操作系统 | Ubuntu 14.04.1 | | JDK | 1.8.0 | | Hadoop | 2.7.3 | ### JDK 安装 集群中每台机器都需要安装 J ......
集群 Ubuntu Hadoop

CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自 `0.10.0` 版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debez ......
DeltaStreamer Serverless Apache Spark Hudi

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230903170841666-247436382.png) 原创/朱季谦 第一次写这么长的graphx源码解读,还是比较晦涩,有较多不足之处,争取改进。 ### 一 ......

龙芯平台Hadoop集群搭建问题解决

这几天一直在困扰我 pycurl 版本和本机的版本不符合 他连接又连接的自己自带的版本 与系统不相同 低级也会报错 https://blog.csdn.net/u010910682/article/details/89496550/?ops_request_misc=&request_id=&biz ......
集群 Hadoop 问题 平台

图解Spark Graphx实现顶点关联邻接顶点的函数原理

![image](https://img2023.cnblogs.com/blog/1545382/202309/1545382-20230901005349386-1258559942.png) ## 一、场景案例 在一张社区网络里,可能需要查询出各个顶点邻接关联的顶点集合,类似查询某个人关系比较 ......
顶点 函数 原理 Graphx Spark

spark教程-1

# scala基本操作 ``` scala> val input=sc.textFile("C:\\Users\\gwj\\Desktop\\cont.txt") input: org.apache.spark.rdd.RDD[String] = C:\Users\gwj\Desktop\cont. ......
教程 spark