hadoop spark

史上最全Hadoop面试题:尼恩大数据面试宝典专题1

文章且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www.cnb ......
宝典 专题 数据 Hadoop

02-Hadoop集群搭建

# 1. 集群配置 ## 1.1 集群部署规划 - 资源上有抢夺冲突的,尽量不要部署在一起; - 工作上需要互相配合的,尽量部署在一起。 | \ | Hadoop102 | Hadoop103 | Hadoop104 | | :--: | : : | : : | : : | | HDFS | Nam ......
集群 Hadoop 02

01-Hadoop概述

# 1. 大数据 ## 1.1 概述 > 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决,海量数据的**采集**、**存储**和**分析计算**问题。 按顺序给出数 ......
Hadoop 01

Hadoop项目结构

HDFS:分布式存储 YARN:计算资源调度 MapReduce:离线计算(基于磁盘) Tez:构建有向无环图 Spark:基于内存计算 Hive:数据仓库(历史记录) Pig:流数据处理(轻量级的脚本语言) Oozie:作业流调度系统 Zookeeper:分布式协调服务 HBase:列族数据库 F ......
结构 项目 Hadoop

Hadoop

Hadoop可以支持多种语言。 两大核心:HDFS+MapReduce Hadoop具有很好的可扩展性,成本低 版本: ......
Hadoop

WIN10安装配置Hadoop

原文链接:WIN10安装配置Hadoop【作者:余生】 本文记录在WIN10上hadoop单节点的安装,后续再记录多节点分布式的安装。 1、安装JAVA环境 下载JDK8,官网链接:Java SE Development Kit 8 选择64版本:jdk-8u241-windows-x64.exe ......
Hadoop WIN 10

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但 ......
教程 菜鸟教程 Apache Spark

基于Spark的大规模日志分析

摘要:本篇文章将从一个实际项目出发,分享如何使用 Spark 进行大规模日志分析,并通过代码演示加深读者的理解。 本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》,作者:上进小菜猪。 随着互联网的普及和应用范围的扩大,越来越多的应用场景需要对海量数据进行 ......
大规模 Spark 日志

hadoop优化部分参数

yarn-site.xml: #表示该节点服务器上yarn可以使用的虚拟CPU个数,默认是8,推荐将值配置与物理核心个数相同 yarn.nodemanager.resource.cpu-vcores: 24 #设置该节点上yarn可使用的内存,默认为8G,如果节点内存资源不足8G,要减少这个值,ya ......
参数 部分 hadoop

Flink 的 checkpoint 机制对比 spark 有什么不同和优势?

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。 而 flink 的checkpoint 机制要复杂很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。 ......
checkpoint 机制 优势 Flink spark

hadoop状态和任务监控

``` # -*- coding: UTF-8 -*- import mysql.connector import sys import datetime import importlib import requests importlib.reload(sys) #修改hadoop地址参数为实际地 ......
状态 任务 hadoop

【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

[TOC] ## 一、概述 `Apache Ambari` **是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。** Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS、MapReduce、H ......
数据 管理工具 工具 Hadoop Apache

数据库:Hadoop实验

# Hadoop实验 1. 先单机下载、安装hadoop,启动: ```shell bin/hdfs namenode -format sbin/start-all.sh ``` 2. 腾讯云新建三个机器,分别在两地(香港二区、香港三区),分别命名为master、slave1、slave2。 3. ......
数据库 数据 Hadoop

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221​#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......
笔记 数据 hadoop hive java

hadoop学习

Hadoop 概述 1、Hadoop是什么 Hadoop是一个由Apache基金会开发的分布式系统基础架构; 主要解决海量数据的存储和分析计算问题; 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈; 【Hadoop 三大发行版本】 Apache:版本最原始(最基础)的版本,对 ......
hadoop

Spark基础

# Spark基础 [toc] ## 1 Spark简介 ### 1.1 Spark介绍 - 什么是Spark 1. Apache Spark is an open source cluster computing system that aims to make data analytics fa ......
基础 Spark

Hadoop的完全分布式搭建

# Hadoop分布式安装 ## 集群规划 | 主机名 | Hadoop10 | Hadoop11 | Hadoop12 | | | | | | | 网络 | 192.168.10.10 | 192.168.10.11 | 192.168.10.12 | | 用户 | hadooproot | ha ......
分布式 Hadoop

docker安装spark

curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x ......
docker spark

hadoop集群搭建(docker)

1.准备安装包(hadoop-3.3.2.tar.gz和jdk-8u371-linux-x64.tar.gz) 2.创建Dockerfile文件: # 镜像源 FROM centos:7 # 添加元数据 LABEL author="作者" date="2023/05/30" # 安装openssh- ......
集群 hadoop docker

如何在window上使用spark

关于怎么使用spark在windos系统?下载anaconda下载spark怎么用呢?步骤1:打开anaconda prompt,激活步骤2:安装需要导入的东西步骤3:打开Jupyter Notebook,使用下面命令在一个py文件中步骤4:使用import导入成功使用 ......
window spark

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......
数据 数据库 spark HTTP

Hadoop - hadoop自带MR案例:词频 WordCount

词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量,需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2(这个是我的安装目录) 3 ......
词频 WordCount 案例 Hadoop hadoop

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?

这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
mapreduce zookeeper 之间 文件 hbase

Hadoop - 执行start-dfs.sh、stop-dfs.sh 报错处理

执行 sbin/start-dfs.sh 和 sbin/stop-dfs.sh 报错,且进程仍然在 ......
start-dfs dfs stop-dfs Hadoop start

Hadoop - 两个Namenode都是standby状态怎么处理

在任意一个standby的NN节点执行 [root@node02 hadoop-2.5.2]# bin/hdfs haadmin -transitionToActive --forcemanual nn1 You have specified the forcemanual flag. This f ......
Namenode 状态 两个 standby Hadoop

Hadoop - 分布式部署

Zookeeper的分布式部署 >> Hadoop的分布式部署 集群规划 安装部署 集群规划 序号 主机名 JDK Zookeeper NameNode JournalNode DataNode ResourceManager NodeManager 1 node01 JDK ZK NN JN DN ......
分布式 Hadoop

Spark消费Kafka

0. 前言 之前先写了处理数据的spark,用文件读写测了一批数据,能跑出结果;今天调通了Kafka,拼在一起,没有半点输出,查了半天,发现是之前的处理部分出了问题,把一个不等号打成了等号,把数据全filter没了。很恐怖,我保证这段时间我没动过这段代码,但上次真的跑出东西了啊(尖叫 1. 配置流程 ......
Spark Kafka

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA,创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......
Spark

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下,仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......
Spark Hive

Spark3.x扩展内容

### 3.0.0主要的新特性: 1. 在TPC-DS基准测试中,通过启用自适应查询执行、动态分区裁剪等其他优化措施,相比于Spark 2.4,性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进,包括python类型hints及其他的pandas UDFs 4. 简化 ......
内容 Spark3 Spark