hadoop spark

用 Spark's MinHashLSH进行文本语料去重

（1）MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法，而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察：如果我们随机排列所有可能的元素 ......

语料 MinHashLSH 文本 Spark 39更新时间 2023-07-09

Hadoop 伪分布模式配置

etc/hadoop/core-site.xml <configuration>  <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property ......

模式 Hadoop更新时间 2023-07-08

hadoop2.7.2上安装hive

hive版本1.21 mysql版本5.6.24 1.解压hive tar -zxf apache-hive-1.2.1-bin.tar.gz -C ../app/ cd ../app/ ln -s apache-hive-1.2.1-bin hive 2.安装mysql 注：参考Linux安装My ......

hadoop2 hadoop hive 7.2更新时间 2023-07-08

Hadoop启动报错：org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"

Hadoop启动报错：org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"解决思路以及方法。 ......

UnsupportedFileSystemException quot FileSystem Hadoop apache更新时间 2023-07-06

mac spark+hive+hadoop 数据分析环境搭建(单机简版)

apache产品下载地址： http://archive.apache.org/dist/ mysql5.6 brew方式安装配置： Icon mysql做为元数据存储使用。 brew search mysql brew install mysql@5.6 配置mysqlhome： export M ......

数据分析单机环境数据 hadoop更新时间 2023-07-06

Spark的一些重要概念

# Shuffle的深入理解什么是Shuffle，本意为洗牌，在数据处理领域里面，意为将数打散。问题：shuffle一定有网络传输吗？有网络传输的一定是Shuffle吗？ ## Shuffle的概念通过网络将数据传输到多台机器，数据被打散，但是有网络传输，不一定就有shuffle，Shuffl ......

概念 Spark更新时间 2023-07-05

hadoop集群配置 CentOS7 JDK安装卸载

1 JDK下载下载JDK8 下载地址 2 SSH访问需要安装JDK的服务器 3 检查是否有默认安装的JDK java-version 4 卸载自带JDK 4.1 检查系统安装的OpenJDK rpm -qa|grep openjdk -i 4.2 删除以上四项openjdk的安装包并且检查后显示删 ......

集群 CentOS7 hadoop CentOS JDK更新时间 2023-07-05

Hadoop版本下载和介绍

1 下载地址 1.1 官网：官网下载 1.2 旧版本下载(官方的archive地址)：旧版本下载 1.3 清华大学开源软件镜像站下载(速度较快，只有新版本)：清华大学开源软件镜像站 2 common\core\client的区别 2.1 Hadoop-common Hadoop-Common是指支持 ......

版本 Hadoop更新时间 2023-07-05

org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead.

# 问题描述 org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead. 最近在做Spark ......

FetchFailedException maintains executor relative shuffle更新时间 2023-07-05

Spark中RDD的特殊算子和重要概念

# RDD特殊的算子 ## cache、persist 将数据缓存到内存，第一次触发Action，才会将数据放入内存，以后在触发Action，可以复用前面内存中缓存的数据，可以提升技术效率 cache和persist的使用场景：一个application多次触发Action，为了复用前面RDD的数据 ......

算子概念 Spark RDD更新时间 2023-07-04

Windows 环境下Docker 安装伪分布式 Hadoop

# 1、环境 Windows 11 Docker 20.0.2 # 2、拉取镜像我选择 ubuntu20.04： ```powershell docker pull ubuntu:20.04 ``` ![在这里插入图片描述](https://img-blog.csdnimg.cn/6d91edc5 ......

分布式 Windows 环境 Docker Hadoop更新时间 2023-07-04

Spark

[spark官网](https://spark.apache.org/ "spark官网") ``` https://spark.apache.org/ ``` ##### Scala学习 [Scala学习](https://www.cnblogs.com/rbcd/articles/1752466 ......

Spark更新时间 2023-07-04

Spark中RDD的Action算子

# RDD的Action算子 Action算子会触发Job的生成，底层调用的是sparkContext.runJob方法，根据最后一个RDD，从后往前，切分Stage，生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 ......

算子 Action Spark RDD更新时间 2023-07-03

Spark中RDD的Transformation算子

# RDD的Transformation算子 ## map map算子的功能为做映射，即将原来的RDD中对应的每一个元素，应用外部传入的函数进行运算，返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 ......

算子 Transformation Spark RDD更新时间 2023-07-01

hadoop如何为用户赋予操作权限

#首先使用vi命令在hdfs-site.xml最后加上下面配置 <property><name>dfs.permissions.superusergroup</name><value>自定义组名</value></property> #把用户添加到组，先进入root模式 usermod -a -G ......

权限用户 hadoop更新时间 2023-06-30

大数据面试题集锦-Hadoop面试题(三)-MapReduce

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题，关注一下"张飞的猪大数据分享"吧，公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化? 1）序列化和反序列化（1）序列 ......

试题集锦集锦 MapReduce 试题数据更新时间 2023-06-30

Hadoop常见问题解析

# Hadoop常见问题解析 ## Hadoop特性 > 1.高可靠性：采用冗余数据存贮方式，即使一个副本发生故障，其他副本也可以保证对外工作的正常进行。 > > 2.高效性：作为并行分布式计算平台，hadoop采用分布式存贮和分布式处理两大核心技术，能够高效的处理PB级别的数据 > > 3.高可扩 ......

常见问题常见 Hadoop 问题更新时间 2023-06-30

Spark使用Python开发和RDD

# 使用PySpark ## 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk ......

Python Spark RDD更新时间 2023-06-29

spark常见问题

spark任务报错：KryoException: Buffer overflow. Available: xxx, required: xxx 可以适当增加spark.kryoserializer.buffer.max 的值, 默认是128m，可以尝试给到256m或512m ......

常见问题常见问题 spark更新时间 2023-06-29

Spark编程基础

# Scala编写Spark的WorkCount ## 创建一个Maven项目在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark ......

基础 Spark更新时间 2023-06-28

Hadoop常用命令

一、Hadoop常用命令合集 Hadoop常见命令总结_hadoop -get_GoAI的博客-CSDN博客 1.1、常见基础命令 1.1.1启动Hadoop (1)进入HADOOP_HOME目录 (2)执行sh bin/start-all.sh 1.1.2关闭Hadoop (1)进入HADOOP_ ......

命令常用 Hadoop更新时间 2023-06-28

Spark环境搭建及Spark shell

# StandAlone模式环境搭建环境准备：三台Linux，一个安装Master，其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 ......

Spark 环境 shell更新时间 2023-06-27

Hadoop入门之组成概述

Hadoop为分布式系统基础结构多个服务器共同解决一个问题，进行海量数据的储存和海量数据的分析计算 HDFS架构 NameNode:储存文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等 DataNode:在本地文件系统储 ......

Hadoop更新时间 2023-06-27

CentOS7+java8+hadoop3.3.5环境搭建

需要的配置文件 centos7的镜像 centos-7.9.2009-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com) java8 Java Downloads | Oracle hadoop3.3.5 Index of /dist/hadoop/common/hado ......

CentOS7 hadoop3 环境 CentOS hadoop更新时间 2023-06-27

Spark架构体系

# Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果 ......

架构体系 Spark更新时间 2023-06-26

Spark简介

# Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月 ......

简介 Spark更新时间 2023-06-25

Hadoop中HDFS集群启停命令

一键启停脚本 # 一键启动hdfs集群 start-dfs.sh # 一键关闭hdfs集群 stop-dfs.sh 单进程启停 $HADOOP_HOME/sbin/hadoop-daemon.sh，此脚本可以单独控制所在机器的进程的启停用法: hadoop-daemon.sh (start|sta ......

集群命令 Hadoop HDFS更新时间 2023-06-24

Spark基础

Spark是一种基于内存的快捷、通用、可扩展的大数据分析引擎 1. Spark模块 Spark Core: Spark核心模块，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等 Spark SQL：用于处理结构化数据的一个模块，提供了2个编程抽象：DataFrame DataSet，并且作 ......

基础 Spark更新时间 2023-06-24

Apache Hadoop

Apache Hadoop是一个开源的分布式计算框架，用于处理和存储大规模数据集。它提供了分布式存储和计算能力，可以在集群中运行，并具有高容错性和高扩展性。Hadoop的核心组件包括： Hadoop Distributed File System（HDFS）：这是Hadoop的分布式文件系统，用于存 ......

Apache Hadoop更新时间 2023-06-22

如何在Databricks中使用Spark进行数据处理与分析

[toc] 1. 《如何在Databricks中使用Spark进行数据处理与分析》随着大数据时代的到来，数据处理与分析变得越来越重要。在数据处理与分析过程中，数据的存储、处理、分析和展示是不可或缺的关键步骤。在数据处理与分析中，Spark是一个强大的开源计算框架，它可以处理大规模分布式数据集，并提 ......

数据处理 Databricks 数据 Spark更新时间 2023-06-22

共540篇 :12/18页 首页上一页9101112131415下一页尾页