hadoop spark
hadoop平台安装
Hadoop平台安装 1.实验一:Linux 操作系统环境设置 1.1. 实验目的 完成本实验,您应该能够: 掌握 linux 操作系统环境设置 掌握 hadoop 安装的环境要求 1.2. 实验要求 熟悉常用 Linux 操作系统命令 熟悉 hadoop 安装的环境 了解 linux 修改系统变量 ......
Spark安装部署与基础实践
安装 java 运行命令 sudo apt install openjdk-8-jdk-headless 进行安装 运行java -version测试安装是否成功,结果如下,安装成功 安装Spark 运行wget http://mirror.bit.edu.cn/apache/spark/spark ......
单机版hadoop在Linux环境下的安装和配置
创建hadoop用户 首先打开终端窗口,输入如下命令创建hadoop用户,这条命令创建可以登录的hadoop用户,并使用/bin/bash作为shell: $ sudo useradd -m hadoop -s /bin/bash 接着为hadoop设置登录密码,可简单设为123456,按提示输入两 ......
hive on spark报错
Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......
Hadoop启动集群报错:Starting namenodes on [hadoop01] hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
搭建三个hadoop集群的时候,master没有启动namenode和datanode, 报错: Starting namenodes on [hadoop01]hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gs ......
Hadoop概述
Hadoop概述 Hadoop是什么 hadoop是一个由Apache基金会所开发的分布式系统基础框架 其主要解决,海量数据的存储和海量数据的的分析计算问题 广义上,Hadoop通常是指一个更加广泛的概念——Hadoop生态圈 Hadoop的发展历史 Hadoop创始人Doug Cutting,为了 ......
Windows平台下单机Spark环境搭建
为了在有限的资源上学习大数据处理与分析技术,借鉴Linux以及部分网上的教程,在Windows10平台搭建Spark环境。本文将简单记录搭建流程以及其中遇到的坑。 Spark的部署模式主要有四种: Local模式(单机模式) Standalone模式(使用Spark自带的简单集群管理器) YARN模 ......
2-Hadoop集群配置-安装-启动
1、 流程说明 在单机测试wordcount没问题后,开始配置集群模式 说明: hadoop有几个功能 ① hdfs存 NameNode SecondNameNode DataNode ②yarn资源调度 ResourceManager NodeManager ③ma ......
Hadoop-HDFS压测】针对HDFS进行读写性能测试
###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
Hadoop集群搭建总结
对这两天搭建Hadoop集群做个经验总结 master节点:Ubuntu 22.04,也就是我的台式机主机 slave节点:Debian 11,通过VMware虚拟出来 (1)集群节点设置和角色分配 master namenode,datanode,resourcemanager,nodemanag ......
从0-1_Hadoop安装
1、 流程说明 本文参考尚硅谷大数据教程加以整理 1、win10, 安装好xshell/xftp/vmware,搭建虚拟机,克隆3台 2、 配置网络,防火墙,host,hostname , 创建新用户,配置ssh免密 3、上传jdk/hadoop安装包,解压,配置环境变量,wordcount测试 注 ......
头歌平台——Hadoop开发环境搭建
##第1关:配置开发环境 - JavaJDK的配置 (1)创建一个/app文件夹,命令 mkdir /app (2)配置环境变量 解压好JDK之后还需要在环境变量中配置JDK,才可以使用,接下来就来配置JDK。输入命令:vim /etc/profile 编辑配置文件;在文件末尾输入如下代码(不可以有 ......
在CentOS上安装和配置Spark Standalone
1.确认Java已安装 在CentOS上运行以下命令以确认Java是否已安装: java -version 如果Java未安装,请按照以下步骤进行安装: sudo yum install java-1.8.0-openjdk-develx 修改/etc/profile文件,末尾添加 export J ......
使用 OpenCV、Kafka 和 Spark 技术进行视频流分析
核心要点 为了可靠且高效地处理大规模的视频流数据,需要有一个可扩展、能容错、松耦合的分布式系统; 本文中的示例应用使用开源的技术来构建这样的系统,这些技术包括 OpenCV、Kafka 和 Spark。另外,还可以使用 Amazon S3 或 HDFS 进行存储; 该系统包含了三个主要的组件:视频流 ......
Video Stream Analytics Using OpenCV, Kafka and Spark Technologies
Key Takeaways For reliable handling and efficient processing of large scale video stream data, there is a need for a scalable, fault tolerant and loos ......
Hive On Spark调优
第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......
Hadoop操作
基本命令 启动Hadoop start-dfs.sh 确保ssh服务打开了,否则启动不成功 打开ssh服务:sudo /usr/sbin/sshd 创建文件夹 hadoop fs -mkdir 路径 for example! hadoop fs -mkdir /HomeWork 就会在根目录创建一个 ......
下载Apache软件基金的软件和项目(Hadoop相关组件)
一、下载Hadoop相关组件,可以到Apache软件基金的资源目录: Apache 分发目录地址:https://dlcdn.apache.org/ 二、下载软件 方法一:在页面中找到需要下载的软件目录,点击进去,选择对应的版本就可以直接下载。 方法二:在上面的地址栏中直接加上对应的组件名称,进入后 ......
spark
首先安装JAVA,SCALA scala安装 解压包 [root@master ~]# tar -zxvf scala-2.11.8.tgz -C /usr/local/src/ 配置环境变量 #SCALA_HOME export SCALA_HOME=/usr/local/src/scala ex ......
hadoop HA
之前的配置与伪分布式与完全分布式相同 不同的是配置文件,如果前面不懂的可以去看完全分布式的文章 HA前提调剂搭建好zookeeper集群,并且启动 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hd ......
Spark持久化
众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac ......
Spark算子总结
Spark的算子分为两大类:transform(转换算子)和action(行动算子) transform算子:map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r ......
Hadoop集群手动主备切换
查看节点状态 #查看节点状态 [root@hadoop1 bin]# hdfs haadmin -getServiceState nn1 standby [root@hadoop1 bin]# hdfs haadmin -getServiceState nn2 active [root@hadoop ......
Windows10系统下Hadoop和Hive环境搭建
文章部分内容来自:https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题,对文章进行了优化 环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......
Hadoop - HDFS常用命令
“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
hadoop伪分布式集群的安装(不是单机版)
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......
解决Spark读取tmp结尾的文件报错的问题
业务场景 flume采集文件到hdfs中,在采集中的文件会添加.tmp后缀。一个批次完成提交后,会将.tmp后缀重名名,将tmp去掉。 所以,当Spark程序读取到该hive外部表映射的路径时,在出现找不到xxx.tmp文件的问题出现。 解决思路: Hdfs提供了读取文件筛选的接口PathFilte ......
Spark高级
Spark 宽依赖和窄依赖 窄依赖(Narrow Dependency): 指父RDD的每个分区只被 子RDD的一个分区所使用, 例如map、 filter等 宽依赖(Shuffle Dependency): 父RDD的每个分区都可能被 子RDD的多个分区使用, 例如groupByKey、 redu ......
hadoop完全分布式
准备工作 三台虚拟机,关闭防火墙,关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......