hadoop spark

hadoop平台安装

Hadoop平台安装 1.实验一：Linux 操作系统环境设置 1.1. 实验目的完成本实验，您应该能够：掌握 linux 操作系统环境设置掌握 hadoop 安装的环境要求 1.2. 实验要求熟悉常用 Linux 操作系统命令熟悉 hadoop 安装的环境了解 linux 修改系统变量 ......

hadoop 平台更新时间 2023-04-30

Spark安装部署与基础实践

安装 java 运行命令 sudo apt install openjdk-8-jdk-headless 进行安装运行java -version测试安装是否成功，结果如下，安装成功安装Spark 运行wget http://mirror.bit.edu.cn/apache/spark/spark ......

基础 Spark更新时间 2023-04-30

单机版hadoop在Linux环境下的安装和配置

创建hadoop用户首先打开终端窗口，输入如下命令创建hadoop用户，这条命令创建可以登录的hadoop用户，并使用/bin/bash作为shell： $ sudo useradd -m hadoop -s /bin/bash 接着为hadoop设置登录密码，可简单设为123456，按提示输入两 ......

单机版单机环境 hadoop Linux更新时间 2023-04-30

hive on spark报错

Error in query: Detected implicit cartesian product for LEFT OUTER join between logical plansUnion Join condition is missing or trivial.Either: use th ......

spark hive on更新时间 2023-04-28

Hadoop启动集群报错:Starting namenodes on [hadoop01] hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

搭建三个hadoop集群的时候,master没有启动namenode和datanode，报错: Starting namenodes on [hadoop01]hadoop01: root@hadoop01: Permission denied (publickey,gssapi-keyex,gs ......

hadoop gssapi gssapi-with-mic 集群 gssapi-keyex更新时间 2023-04-28

Hadoop概述

Hadoop概述 Hadoop是什么 hadoop是一个由Apache基金会所开发的分布式系统基础框架其主要解决，海量数据的存储和海量数据的的分析计算问题广义上，Hadoop通常是指一个更加广泛的概念——Hadoop生态圈 Hadoop的发展历史 Hadoop创始人Doug Cutting，为了 ......

Hadoop更新时间 2023-04-28

Windows平台下单机Spark环境搭建

为了在有限的资源上学习大数据处理与分析技术，借鉴Linux以及部分网上的教程，在Windows10平台搭建Spark环境。本文将简单记录搭建流程以及其中遇到的坑。 Spark的部署模式主要有四种： Local模式（单机模式） Standalone模式（使用Spark自带的简单集群管理器） YARN模 ......

单机 Windows 环境 Spark 平台更新时间 2023-04-27

2-Hadoop集群配置-安装-启动

1、流程说明在单机测试wordcount没问题后，开始配置集群模式说明: hadoop有几个功能 ① hdfs存 NameNode SecondNameNode DataNode ②yarn资源调度 ResourceManager NodeManager ③ma ......

集群 Hadoop更新时间 2023-04-27

Hadoop-HDFS压测】针对HDFS进行读写性能测试

###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1）测试工具 2）写入数据测试 3）读取数据测试 4）清除数据 ####1)测试工具 Hadoop自身集成的工具包：hadoop-mapreduce-client-jobclient-3.1.1.jar 注意： 1、如果是Apache ......

HDFS Hadoop-HDFS 性能 Hadoop更新时间 2023-04-27

Hadoop集群搭建总结

对这两天搭建Hadoop集群做个经验总结 master节点:Ubuntu 22.04，也就是我的台式机主机 slave节点：Debian 11，通过VMware虚拟出来（1）集群节点设置和角色分配 master namenode,datanode,resourcemanager,nodemanag ......

集群 Hadoop更新时间 2023-04-27

从0-1_Hadoop安装

1、流程说明本文参考尚硅谷大数据教程加以整理 1、win10, 安装好xshell/xftp/vmware，搭建虚拟机，克隆3台 2、配置网络，防火墙，host,hostname ，创建新用户，配置ssh免密 3、上传jdk/hadoop安装包，解压，配置环境变量，wordcount测试注 ......

Hadoop更新时间 2023-04-27

头歌平台——Hadoop开发环境搭建

##第1关：配置开发环境 - JavaJDK的配置（1）创建一个/app文件夹，命令 mkdir /app （2）配置环境变量解压好JDK之后还需要在环境变量中配置JDK，才可以使用，接下来就来配置JDK。输入命令：vim /etc/profile 编辑配置文件；在文件末尾输入如下代码（不可以有 ......

环境 Hadoop 平台更新时间 2023-04-26

在CentOS上安装和配置Spark Standalone

1.确认Java已安装在CentOS上运行以下命令以确认Java是否已安装： java -version 如果Java未安装，请按照以下步骤进行安装： sudo yum install java-1.8.0-openjdk-develx 修改/etc/profile文件，末尾添加 export J ......

Standalone CentOS Spark更新时间 2023-04-25

使用 OpenCV、Kafka 和 Spark 技术进行视频流分析

核心要点为了可靠且高效地处理大规模的视频流数据，需要有一个可扩展、能容错、松耦合的分布式系统；本文中的示例应用使用开源的技术来构建这样的系统，这些技术包括 OpenCV、Kafka 和 Spark。另外，还可以使用 Amazon S3 或 HDFS 进行存储；该系统包含了三个主要的组件：视频流 ......

视频流 OpenCV Kafka Spark 技术更新时间 2023-04-24

Video Stream Analytics Using OpenCV, Kafka and Spark Technologies

Key Takeaways For reliable handling and efficient processing of large scale video stream data, there is a need for a scalable, fault tolerant and loos ......

Technologies Analytics Stream OpenCV Video更新时间 2023-04-24

Hive On Spark调优

第1章集群环境概述 1.1 集群配置概述本课程所用集群由5台节点构成其中2台为master节点：用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点，用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master ......

Spark Hive On更新时间 2023-04-22

Hadoop操作

基本命令启动Hadoop start-dfs.sh 确保ssh服务打开了，否则启动不成功打开ssh服务：sudo /usr/sbin/sshd 创建文件夹 hadoop fs -mkdir 路径 for example! hadoop fs -mkdir /HomeWork 就会在根目录创建一个 ......

Hadoop更新时间 2023-04-21

下载Apache软件基金的软件和项目（Hadoop相关组件）

一、下载Hadoop相关组件，可以到Apache软件基金的资源目录： Apache 分发目录地址：https://dlcdn.apache.org/ 二、下载软件方法一：在页面中找到需要下载的软件目录，点击进去，选择对应的版本就可以直接下载。方法二：在上面的地址栏中直接加上对应的组件名称，进入后 ......

软件组件基金项目 Apache更新时间 2023-04-21

spark

首先安装JAVA，SCALA scala安装解压包 [root@master ~]# tar -zxvf scala-2.11.8.tgz -C /usr/local/src/ 配置环境变量 #SCALA_HOME export SCALA_HOME=/usr/local/src/scala ex ......

spark更新时间 2023-04-20

hadoop HA

之前的配置与伪分布式与完全分布式相同不同的是配置文件，如果前面不懂的可以去看完全分布式的文章 HA前提调剂搭建好zookeeper集群，并且启动 core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hd ......

hadoop HA更新时间 2023-04-20

Spark持久化

众所周知，RDD只会保留血缘关系，不存储计算结果。如果想要让计算结果持久化存储，那就要引入cache和persist方法。提前感受变化禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac ......

Spark更新时间 2023-04-20

Spark算子总结

Spark的算子分为两大类：transform（转换算子）和action（行动算子） transform算子：map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r ......

算子 Spark更新时间 2023-04-20

Hadoop集群手动主备切换

查看节点状态 #查看节点状态 [root@hadoop1 bin]# hdfs haadmin -getServiceState nn1 standby [root@hadoop1 bin]# hdfs haadmin -getServiceState nn2 active [root@hadoop ......

集群手动 Hadoop更新时间 2023-04-19

Windows10系统下Hadoop和Hive环境搭建

文章部分内容来自：https://www.cnblogs.com/sheng-sjk/p/16186508.html 结合实际搭建过程中的问题，对文章进行了优化环境准备 | 软件 | 版本 | 备注 | | : : | : : | : : | | Windows | 10 | 操作系统 | | J ......

Windows 环境 Hadoop 系统 Hive更新时间 2023-04-17

Hadoop - HDFS常用命令

“hadoop fs（hdfs dfs）文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......

命令常用 Hadoop HDFS更新时间 2023-04-14

hadoop伪分布式集群的安装（不是单机版）

准备工作三台虚拟机，关闭防火墙，关闭selinux 查看防火状态 systemctl status firewalld 暂时关闭防火墙 systemctl stop firewalld 永久关闭防火墙 systemctl disable firewalld 查看 selinux状态 getenfo ......

单机版分布式集群单机 hadoop更新时间 2023-04-14

解决Spark读取tmp结尾的文件报错的问题

业务场景 flume采集文件到hdfs中，在采集中的文件会添加.tmp后缀。一个批次完成提交后，会将.tmp后缀重名名，将tmp去掉。所以，当Spark程序读取到该hive外部表映射的路径时，在出现找不到xxx.tmp文件的问题出现。解决思路： Hdfs提供了读取文件筛选的接口PathFilte ......

文件问题 Spark tmp更新时间 2023-04-14

Spark高级

Spark 宽依赖和窄依赖窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、 filter等宽依赖(Shuffle Dependency)：父RDD的每个分区都可能被子RDD的多个分区使用，例如groupByKey、 redu ......

Spark更新时间 2023-04-13

hadoop完全分布式

分布式 hadoop更新时间 2023-04-12

Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法

一、概述 XGBoost是一种基于决策树的集成学习算法，它在处理结构化数据方面表现优异。相比其他算法，XGBoost能够处理大量特征和样本，并且支持通过正则化控制模型的复杂度。XGBoost也可以自动进行特征选择并对缺失值进行处理。二、代码实现步骤 1、导入相关库 import org.apach ......

Spark 集群算法 XGboost 语言更新时间 2023-04-12

共540篇 :16/18页 首页上一页131415161718下一页尾页