hadoop spark

史上最全Hadoop面试题：尼恩大数据面试宝典专题1

文章且持续更新，建议收藏起来，慢慢读！[**疯狂创客圈总目录博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源：免费赠送 :[**《尼恩Java面试宝典》**](https://www.cnb ......

宝典专题数据 Hadoop更新时间 2023-06-20

02-Hadoop集群搭建

# 1. 集群配置 ## 1.1 集群部署规划 - 资源上有抢夺冲突的，尽量不要部署在一起； - 工作上需要互相配合的，尽量部署在一起。 | \ | Hadoop102 | Hadoop103 | Hadoop104 | | :--: | : : | : : | : : | | HDFS | Nam ......

集群 Hadoop 02更新时间 2023-06-19

01-Hadoop概述

# 1. 大数据 ## 1.1 概述 > 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决，海量数据的**采集**、**存储**和**分析计算**问题。按顺序给出数 ......

Hadoop 01更新时间 2023-06-19

Hadoop项目结构

HDFS：分布式存储 YARN：计算资源调度 MapReduce：离线计算（基于磁盘） Tez：构建有向无环图 Spark：基于内存计算 Hive：数据仓库（历史记录） Pig：流数据处理（轻量级的脚本语言） Oozie：作业流调度系统 Zookeeper：分布式协调服务 HBase：列族数据库 F ......

结构项目 Hadoop更新时间 2023-06-18

Hadoop

Hadoop可以支持多种语言。两大核心：HDFS+MapReduce Hadoop具有很好的可扩展性，成本低版本： ......

Hadoop更新时间 2023-06-18

WIN10安装配置Hadoop

原文链接：WIN10安装配置Hadoop【作者：余生】本文记录在WIN10上hadoop单节点的安装，后续再记录多节点分布式的安装。 1、安装JAVA环境下载JDK8，官网链接：Java SE Development Kit 8 选择64版本：jdk-8u241-windows-x64.exe ......

Hadoop WIN 10更新时间 2023-06-17

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

## 教程简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但 ......

教程菜鸟教程 Apache Spark更新时间 2023-06-16

基于Spark的大规模日志分析

摘要：本篇文章将从一个实际项目出发，分享如何使用 Spark 进行大规模日志分析，并通过代码演示加深读者的理解。本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行 ......

大规模 Spark 日志更新时间 2023-06-15

hadoop优化部分参数

yarn-site.xml: #表示该节点服务器上yarn可以使用的虚拟CPU个数，默认是8，推荐将值配置与物理核心个数相同 yarn.nodemanager.resource.cpu-vcores: 24 #设置该节点上yarn可使用的内存，默认为8G，如果节点内存资源不足8G，要减少这个值，ya ......

参数部分 hadoop更新时间 2023-06-14

Flink 的 checkpoint 机制对比 spark 有什么不同和优势？

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。而 flink 的checkpoint 机制要复杂很多，它采用的是轻量级的分布式快照，实现了每个算子的快照，及流动中的数据的快照。 ......

checkpoint 机制优势 Flink spark更新时间 2023-06-14

hadoop状态和任务监控

``` # -*- coding: UTF-8 -*- import mysql.connector import sys import datetime import importlib import requests importlib.reload(sys) #修改hadoop地址参数为实际地 ......

状态任务 hadoop更新时间 2023-06-14

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

[TOC] ## 一、概述 `Apache Ambari` **是 Hortonworks 贡献给Apache开源社区的顶级项目，它是一个基于web的工具，用于安装、配置、管理和监视 Hadoop 集群。** Ambari 目前已支持大多数 Hadoop 组件，包括 HDFS、MapReduce、H ......

数据管理工具工具 Hadoop Apache更新时间 2023-06-13

数据库：Hadoop实验

# Hadoop实验 1. 先单机下载、安装hadoop，启动： ```shell bin/hdfs namenode -format sbin/start-all.sh ``` 2. 腾讯云新建三个机器，分别在两地（香港二区、香港三区），分别命名为master、slave1、slave2。 3. ......

数据库数据 Hadoop更新时间 2023-06-10

大数据学习笔记hadoop、hive、java

HDFS伪分布式集群搭建 tar -zxvf hadoop-2.7.7.tar.gzecho $JAVA_HOME/root/software/jdk1.8.0_221#查看loaclhostvim /root/software/hadoop-2.7.7/etc/hadoop/hadoop-env ......

笔记数据 hadoop hive java更新时间 2023-06-09

hadoop学习

Hadoop 概述 1、Hadoop是什么 Hadoop是一个由Apache基金会开发的分布式系统基础架构；主要解决海量数据的存储和分析计算问题；广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈；【Hadoop 三大发行版本】 Apache：版本最原始（最基础）的版本，对 ......

hadoop更新时间 2023-06-08

Spark基础

# Spark基础 [toc] ## 1 Spark简介 ### 1.1 Spark介绍 - 什么是Spark 1. Apache Spark is an open source cluster computing system that aims to make data analytics fa ......

基础 Spark更新时间 2023-06-07

Hadoop的完全分布式搭建

# Hadoop分布式安装 ## 集群规划 | 主机名 | Hadoop10 | Hadoop11 | Hadoop12 | | | | | | | 网络 | 192.168.10.10 | 192.168.10.11 | 192.168.10.12 | | 用户 | hadooproot | ha ......

分布式 Hadoop更新时间 2023-06-07

docker安装spark

curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose chmod +x ......

docker spark更新时间 2023-06-07

hadoop集群搭建(docker)

1.准备安装包（hadoop-3.3.2.tar.gz和jdk-8u371-linux-x64.tar.gz） 2.创建Dockerfile文件： # 镜像源 FROM centos:7 # 添加元数据 LABEL author="作者" date="2023/05/30" # 安装openssh- ......

集群 hadoop docker更新时间 2023-06-07

如何在window上使用spark

关于怎么使用spark在windos系统？下载anaconda下载spark怎么用呢？步骤1：打开anaconda prompt，激活步骤2：安装需要导入的东西步骤3：打开Jupyter Notebook，使用下面命令在一个py文件中步骤4：使用import导入成功使用 ......

window spark更新时间 2023-06-07

spark调用HTTP请求并返回数据落地到数仓(or数据库)

POM xml复制代码 com.alibaba fastjson spark-sql依赖 --> org.apache.spark spark-sql_${scala.tools.version} org.apache.spark spark-hive_${scala.tools.version} ......

数据数据库 spark HTTP更新时间 2023-06-07

Hadoop - hadoop自带MR案例：词频 WordCount

词频 Word Count 1、在浏览器上访问 https://node01:9870 2、创建目录 /user 目录 bin/hdfs dfs -mkdir /user 如果未配置环境变量，需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2（这个是我的安装目录） 3 ......

词频 WordCount 案例 Hadoop hadoop更新时间 2023-06-07

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的？

这些技术是大数据领域的常用组件，它们之间的配置文件依赖关系如下： RDS是一种关系型数据库，可以独立安装和使用，不需要依赖其他组件。 HDFS是Hadoop分布式文件系统，通常与MapReduce一起使用。在Hadoop集群中，HDFS需要配置core-site.xml和hdfs-site.xml两 ......

mapreduce zookeeper 之间文件 hbase更新时间 2023-06-06

Hadoop - 执行start-dfs.sh、stop-dfs.sh 报错处理

执行 sbin/start-dfs.sh 和 sbin/stop-dfs.sh 报错，且进程仍然在 ......

start-dfs dfs stop-dfs Hadoop start更新时间 2023-06-06

Hadoop - 两个Namenode都是standby状态怎么处理

在任意一个standby的NN节点执行 [root@node02 hadoop-2.5.2]# bin/hdfs haadmin -transitionToActive --forcemanual nn1 You have specified the forcemanual flag. This f ......

Namenode 状态两个 standby Hadoop更新时间 2023-06-06

Hadoop - 分布式部署

Zookeeper的分布式部署 >> Hadoop的分布式部署集群规划安装部署集群规划序号主机名 JDK Zookeeper NameNode JournalNode DataNode ResourceManager NodeManager 1 node01 JDK ZK NN JN DN ......

分布式 Hadoop更新时间 2023-06-06

Spark消费Kafka

0. 前言之前先写了处理数据的spark，用文件读写测了一批数据，能跑出结果；今天调通了Kafka，拼在一起，没有半点输出，查了半天，发现是之前的处理部分出了问题，把一个不等号打成了等号，把数据全filter没了。很恐怖，我保证这段时间我没动过这段代码，但上次真的跑出东西了啊（尖叫 1. 配置流程 ......

Spark Kafka更新时间 2023-06-05

Spark搭建

# Spark搭建 ## Local模式 > 主要用于本地开发测试 > > 本文档主要介绍如何在IDEA中配置Spark开发环境 * 打开IDEA，创建Maven项目 * 在IDEA设置中安装Scala插件 ![img](https://img2023.cnblogs.com/blog/286504 ......

Spark更新时间 2023-06-04

Spark集成Hive

### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR ......

Spark Hive更新时间 2023-06-02

Spark3.x扩展内容

### 3.0.0主要的新特性： 1. 在TPC-DS基准测试中，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark 2.4，性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进，包括python类型hints及其他的pandas UDFs 4. 简化 ......

内容 Spark3 Spark更新时间 2023-06-02

共540篇 :13/18页 首页上一页10111213141516下一页尾页