hadoop spark

Spark Streaming快速入门

Spark Streaming快速入门一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架（但实际上是微批次处理框架），是 Spark 非常重要的组成部分。严格意义上来讲，Spark Streaming 是一个准实时，微批次的流处理框架。特点：Easy ......

Streaming Spark更新时间 2023-11-20

hadoop的文件存储格式parquet

hadoop 里支持许多压缩算法。压缩的好处主要有两点：1. 减少了文件占用的存储空间，原来上 T 的文件可能压缩完以后只需要两三百 G 的空间即可；2. 文件的体积小了以后，数据传输的速度自然就快了。在现在的大数据环境下，这两点显得更加重要。所以现在 hdfs 文件系统上存的文件，如果数据量大到一 ......

parquet 格式文件 hadoop更新时间 2023-11-19

Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

原文链接：https://tecdat.cn/?p=34286 原文出处：拓端数据部落公众号分析师：Shichao Zhong 项目挑战如何处理庞大的数据集，并对数据进行可视化展示；在后续分析中特征选择是重点之一，要根据事实情况和数据易处理的角度来筛选变量解决方案任务/目标根据已有的车祸数 ......

发生率车祸 MapReduce 因素 Python更新时间 2023-11-18

Hadoop学习(一) 搭建伪分布式集群

文章结构 1.准备工作 1.1 配置IP 1.2 关闭防火墙 1.3 修改主机名并与IP绑定 1.4 创建新用户 1.5 配置免密匙 2.安装并配置Hadoop伪分布式集群 2.1 安装Java 2.2 安装配置Hadoop伪分布式集群 1.准备工作 1.1 配置IP 首先进入该路径下 cd /et ......

分布式集群 Hadoop更新时间 2023-11-17

hadoop fs -test的相关命令

Hadoop FileSystem（HDFS）提供了多种命令来检查文件系统的状态和操作。以下是一些常用的hadoop fs -test命令： hadoop fs -test -e <path>: 检查指定路径是否存在。如果存在，返回0；否则返回非0值。 hadoop fs -test -d <pat ......

命令 hadoop test fs更新时间 2023-11-13

Spark优化

意识篇类型转换优化前： val extractFields: Seq[Row] => Seq[(String, Int)] = { (rows: Seq[Row]) => { var fields = Seq[(String, Int)]() rows.map(row => { fields = ......

Spark更新时间 2023-11-11

基于Spark对消费者行为数据进行数据分析开发案例

原创/朱季谦本文适合入门Spark RDD的计算处理。在日常工作当中，经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例，这些文件一般以csv或者txt文件格式存在。例如，存在这样一份消费者行为数据，字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支 ......

数据数据分析消费者案例行为更新时间 2023-11-10

11.9 hadoop学习

今天重新配置了hadoop，hbase，zookeeper，hive。 zk.sh start 启动zookeeperzk.sh stop 关闭zookeeperzk.sh status 查看zookeeper状态hbs.sh start 启动hbasehbs.sh stop 关闭hbaseall. ......

hadoop 11.9 11更新时间 2023-11-09

20231107学习总结-大型数据库-实验1.熟悉常用的Linux操作和Hadoop操作

实验1 熟悉常用的Linux操作和Hadoop操作 1.实验目的 Hadoop运行在Linux系统上，因此，需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作，为顺利开展后续其他实验奠定基础。 2.实验平台（1）操作系统：Linux（建议Ubuntu16.0 ......

20231107 常用数据库数据 Hadoop更新时间 2023-11-07

Hadoop：Yarn资源调度

1、Yarn是什么？ Apache Hadoop YARN （Yet Another Resource Negotiator 另一种资源协调者）是一种新的Hadoop资源管理器，提供一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。可以把Hadoop YARN理解为相当于一个分布 ......

Hadoop 资源 Yarn更新时间 2023-11-06

Hadoop-3.3.3分布式集群的文件配置，启动hadoop历史服务和启动日志聚集

一、分布式集群的文件配置涉及$HADOOP_HOME/etc/hadoop路径下的5个文件 workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 首先修改workers 进入$HADOOP_HOME/etc/hadoop ......

分布式集群文件 Hadoop hadoop更新时间 2023-11-04

云计算-hadoop的安装（书接上回+分布式搭建）

书接上回，这次来进行分布式集群的搭建。执行命令：echo $JAVA_HOME 查看路径，我的路径如图所示：然后在/usr/local/hadoop目录下，执行命令gedit ./etc/hadoop/hadoop-env.sh 打开文本，然后再第一行添加刚刚的路径，如图所示：因为之前一节咱们 ......

分布式 hadoop更新时间 2023-11-04

hadoop 将nn节点的环境配置同步到dn节点

使用scp命令克隆配置输入 sudo scp -r jdk1.8.0_391/ hxf@slaver2:/opt/module 报错ssh: Could not resolve hostname hxf: Temporary failure in name resolution lost conn ......

节点环境 hadoop更新时间 2023-11-04

Finalshell给虚拟机安装JDK1.8，hadoop-3.3.3，hive3.1.2并配置环境

点击红框按钮，把下载好的jdk，hadoop，hive安装包上传到指定路径我的路径是/home/用户名/Downloads 查看上传文件 sudo tar -zxvf /home/hxf/Downloads/jdk-8u391-linux-x64.tar.gz -C /opt/module/ su ......

Finalshell 环境 hadoop hive3 JDK1更新时间 2023-11-04

Hadoop3.x和Hive3.x环境搭建

Hadoop3.3.6 创建hadoop用户 useradd hadoop su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ......

Hadoop3 环境 Hadoop Hive3 Hive更新时间 2023-11-03

javaapi、spark、flink 创建Iceberg表，hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中，元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......

javaapi Iceberg impala flink spark更新时间 2023-11-02

spark代码示例---explode()炸裂函数使用

示例函数 explode 代码 spark更新时间 2023-11-02

spark由于shuffle中read过大造成netty申请DirectMemor异常（转）

1.报错日志： WARN TaskSetManager: Lost task 29.0 in stage 22.0 (TID 1851, wn108-cdlcns.bjduloineequ3adfbkrpgi4p2c.shax.internal.chinacloudapp.cn, executo ......

DirectMemor shuffle spark netty read更新时间 2023-11-02

hadoop 基础学习

......

基础 hadoop更新时间 2023-11-01

hadoop 基础组件详解

......

组件基础 hadoop更新时间 2023-11-01

hadoop初体验1——官方案例pi值计算

1.执行命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 2 hadoop jarHadoop jar命令 hadoop-mapreduce-examples-3.3.6.jar程序 ......

案例官方 hadoop更新时间 2023-10-30

hadoop初体验2——官方案例wordcount

1.命令 [hadoop@namenode mapreduce]$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar wordcount /wordcount/input /wordcount/output 执行命令hadoop jar hadoop-ma ......

wordcount 案例官方 hadoop更新时间 2023-10-30

Hadoop三大组件（HDFS,MapReduce,Yarn）

1、HDFS HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。 2、MapReduce MapReduce是一个软件 ......

组件 MapReduce 三大 Hadoop HDFS更新时间 2023-10-30

window10安装单机hadoop

一、配置jdk 默认已配置二、下载hadoop3.2.2 http://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/ 三、下载hadoop-winutils https://github.com/cdarlint/winutils 下载后将 ......

单机 window hadoop 10更新时间 2023-10-30

任意选择以下一种方式通过Spark API 编写一个独立应用程序。

任意选择以下一种方式通过Spark API 编写一个独立应用程序。（一）使用sbt对Scala独立应用程序进行编译打包（二）使用Maven对Java独立应用程序进行编译打包（三）使用Maven对Scala独立应用程序进行编译打包 ......

应用程序方式程序 Spark API更新时间 2023-10-29

Spark3.3.2安装部署

选择你想要的版本镜像链接https://mirrors.aliyun.com/apache/spark/?spm=a2c6h.25603864.0.0.5d1b590eLwbWr2 sudo tar -zxvf spark-3.3.2-bin-without-hadoop.tgz -C /usr/ ......

Spark3 Spark 3.2更新时间 2023-10-28

每日随笔——使用 Spark Shell 编写代码

安装完spark之后，学习使用Spark Shell 编写代码默认spark已经安装成功，且环境变量已经配置完成启动Spark Shell cd /export/server/spark bin/spark-shell 加载文本文件 val textFile = sc.textFile("fil ......

随笔代码 Spark Shell更新时间 2023-10-28

每日随笔——Spark

今天学习如何使用Spark技术。一、下载spark 下载spark-3.4.0-bin-without-hadoop.tgz文件，百度网盘链接：https://pan.baidu.com/s/181shkgg-i0WEytQMqeeqxA（提取码：9ekc ）二、安装hadoop和Javajdk ......

随笔 Spark更新时间 2023-10-28

spark on k8s环境下不重新打镜像实现celeborn client或其他底层jar包升级

博客园首发，转载请注明地址：https://www.cnblogs.com/tzxxh/p/17792469.html 前言 Apache Kyuubi 是一个分布式和多租户网关，用于在数据仓库和湖仓上提供无服务器 SQL。Apache Celeborn 是一个Remote Shuffle Serv ......

底层 celeborn 镜像环境 client更新时间 2023-10-27

spark使用记录

单词统计的示例 1：客户端登录 2：使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce ......

spark更新时间 2023-10-27

共540篇 :5/18页 首页上一页2345678下一页尾页