hadoop spark

spark-HIVE

什么是数仓 hive特性 结构化查询语言 ......
spark-HIVE spark HIVE

spark2

Rdd 几个基本的转换算子 窍诀 :textfile得到的是按行读取的集合 filter就是一行为对象 split对象也是行,按照空格将行分割“ “1“ '2" ”” ”flat 展平,,将外层的引号去掉 map就是生成一个键值对的形式,gruopbykey就是生成键+迭代器的形式 ruduceby ......
spark2 spark

hadoop安装

# hadoop安装 ## 零、hadoop启动命令 ```shell start-all.sh start-dfs start-yarn hadoop-deamons.sh yarn-deamons.sh hadoop-deamon.sh yarn-deamon.sh mr-jobhistorys ......
hadoop

invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved

``` ... 1 more Caused by: java.io.FileNotFoundException: File does not exist: hdfs://ns1/user/hive/warehouse/dw.db/dw_uniswapv3_position_detail/pk_day ......

Hadoop的hdfs云服务器配置踩坑记录

本章更多的是通过hdfs的API接口问题角度记录坑点 # 坑点记录 ## 一、能够远程访问和通过web端访问hdfs 1. 在java代码中添加或更改如下: ```java Configuration conf = new Configuration(); conf.set("dfs.client. ......
服务器 Hadoop hdfs

源码安装Spark

# 前提条件 Spark 使用的语言是 Scala,而 Scala 需要运行在 JVM 之上。因此,搭建 Spark 的运行环境应该是 JDK 和 Scala。由于学习 Spark 源码的参考书籍是《Spark内核设计的艺术架构设计与实现》,所以就按照作者安装的版本进行安装: * Java8 * S ......
源码 Spark

大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统

课程实用性很强,老师讲的很透彻,都是面试容易问到的;紧扣当前企业所用技术,对于从事大数据或者转行大数据行业,都有很大的帮助。 比屋教育,秉承“活学活用”的教育理念,集合资深专家讲师团队,依托完善的线上教学管控平台,专注于大数据、云计算、互联网架构师等领域的职业技能培训,着力培养满足互联网企业实际需求 ......
数据 仓库 实时 生态 Hadoop

Hadoop大数据2

HDFS 文件系统 overview9870 8088 shell操作 echo如果,没有它会自己创建 上传不必加本地和外部前缀他会根据默认自动识别 echo 输入的内容和cin要各有空格,否则它不会生效 文件夹只有用门槛低而 或者递归创建 文件夹是没有大小的,只存储具体的一个个文件 文件夹后面不用 ......
数据 Hadoop

Hadoop初步学习之VM虚拟机的配置

经过半个小时的努力我的vm虚拟机终于不蓝屏了,也是成功安装了centos linux 实际上如果出现蓝屏下载一个vm16就可以了 ......
Hadoop

启动Hadoop时需要进行的操作

首先切换到hadoop用户 su - hadoop 启动hdfs集群 start-dfs.sh 启动yarn集群 start-yarn.sh 启动hive 首先切换到hive文件夹 cd /export/server/hive 然后再运行下述命令 #先启动metastore服务 然后启动hivese ......
Hadoop

hadoop学习笔记第一次

这周学习了大数据之hadoop,这一周的学习主要围绕在hadoop集群配置及其华宁的搭建,hadoop是采用多态服务器的分布式系统,主要的核心就是hdfs,mapreduce,yarn等等,hadoop配置时候在主机上遇到了蛮多的问题现在就来记录一下。 1.首先是一些基础命令: 回退/进入目录命令: ......
第一次 笔记 hadoop

Hadoop大数据

Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 恢复内容开始 Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 配置集群虚拟机 首先配置vmnet8网卡 修改 ......
数据 Hadoop

Python使用hdfs上传文件至hadoop报错

报错代码: from hdfs.client import Client hdfs_client = Client('http://IP:端口') hdfs_client.makedirs(hdfs_dir) 在与hadoop创建链接后建文件夹时报错 报错信息: requests.exception ......
文件 Python hadoop hdfs

万字长文 | Hadoop 上云: 存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。 在过去几年中,我们按照每 1 到 2 年的规划扩容硬件,但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。 **为了解决包括扩容周期长、计算存储资源 ......
长文 架构 Hadoop

Scala连接Hbase集群出现异常tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator

总结/朱季谦 在新项目上创建以下Scala代码去连接Hbase集群,用来判断Hbase是否存在某张表。 ``` //离线Hbase val conf: Configuration = HBaseConfiguration.create() conf.set("hbase.zookeeper.quor ......

Hadoop MapReduce编写实现序列化统计各学生的总分

Map类 package org.example.score; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; i ......
总分 序列 MapReduce Hadoop 学生

安装Hadoop单节点伪分布式集群

[toc] # 安装Hadoop单节点伪分布式集群 操作系统:Ubuntu server 20.04 参考文档:`http://apache.github.io/hadoop/hadoop-project-dist/hadoop-common/SingleCluster.html` ## 系统准备 ......
分布式 节点 集群 Hadoop

hadoop基础-hadoop启动脚本分析及常见命令

进程 [hdfs]start-dfs.sh NameNode NN DataNode DN SecondaryNamenode 2NN [yarn]start-yarn.sh ResourceMananger RM NodeManager NM 脚本分析 sbin/start-all.sh libe ......
hadoop 脚本 命令 常见 基础

spark 的踩坑记录(二)spark 字符串截取问题

前言 接之前的spark踩坑记录,回想起当时折磨很久的一个问题,结果导致开发中花了很长时间才完全解决。主要原因为spark 和 java 的字符串截取函数不一致导致的。 主要技术框架背景介绍 spark : 2.4.3scala : 2.11.12 背景 实际工作中会处理很多文本数据流,例如文章信息 ......
spark 字符串 字符 问题

未安装HBase时Hive on Spark任务卡顿处理如何解决

操作场景 此功能适用于Hive组件。 按如下操作步骤设置参数后,在未安装HBase的环境执行Hive on Spark任务时,可避免任务卡顿。 说明:Hive on Spark任务执行Hive on Spark任务。如果没有安装HBase,默认在执行Spark任务时,会尝试去连接Zookeeper访 ......
任务 HBase Spark Hive on

Hadoop中hive的使用

启动元数据管理服务(必须启动,否则无法工作) 前台启动:bin/hive --service metastore 后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 & 启动客户端 Hive Shell方式(可以直接写 ......
Hadoop hive

Hadoop on k8s 快速部署进阶精简篇

[TOC] ## 一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:[Hadoop on k8s 编排部署进阶篇](https://www.cnblogs.com/liugp/p/ ......
Hadoop k8s 8s on k8

大数据面试题集锦-Hadoop面试题(四)-YARN

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"**张飞的猪大数据分享**"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运 ......
试题集锦 集锦 试题 数据 Hadoop

Hadoop中YARN集群启停命令

一键启停脚本 # 一键启动yarn集群 start-yarn.sh # 一键关闭yarn集群 stop-yarn.sh 单进程启停 start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程 yarn --daemon start| ......
集群 命令 Hadoop YARN

hadoop3.3.5完全分布式搭建live nodes只有一个的情况

在我配置完所有结点启动后发现存活的结点只有一个,一开始我以为是主机或者配置的问题,但是都没有用 后来终于找到了问题所在,问题的关键就是xsync脚本分发后再使得三台主机的datanode id一样 修改这个使得三个主机的uuid不同即可 ......
分布式 只有 hadoop3 情况 hadoop

Hadoop3.3.5完全分布式搭建

首先在之前的伪分布基础上克隆两台机器 这样一共三台虚拟机 为这三台虚拟机设置三个不同的静态ip地址和主机名 我的是 billsaifu 192.168.15.130 hadoop1 192.168.15.131 hadoop2 192.168.15.132 静态IP设置 #先进入root vim / ......
分布式 Hadoop3 Hadoop 3.5

绝密100个Spark面试题,熟背100遍,猛拿高薪

文章很长,且持续更新,建议收藏起来,慢慢读![**疯狂创客圈总目录 博客园版**](https://www.cnblogs.com/crazymakercircle/p/9904544.html) 为您奉上珍贵的学习资源 : 免费赠送 :[**《尼恩Java面试宝典》**](https://www. ......
100 高薪 Spark

hadoop2.7. 序列化对象

1.在hadoop中必须序列化对象后,才能进行网络传输,不使用java序列化的原因是:java序列化对象会添加很多信息,造成对象的字节数变大,hadoop序列化为一种高效的序列化 如果在实际生产中,BooleanWrite、IntWrite,Text,FloatWrite等数据类型无法满足要求,就需 ......
序列 对象 hadoop2 hadoop

Hadoop on k8s 编排部署进阶篇

[TOC] ## 一、概述 `Hadoop` 是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它使用了 `Hadoop` 分布式文件系统`(Hadoop Distributed File System,HDFS)`来存储数据,并通过 `MapReduce` 编程模型进行数据处理。 ![ ......
Hadoop k8s 8s on k8

hadoop2.7.2 wordcount案例

1.配置pom.xml <!--依赖--> <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <depen ......
wordcount 案例 hadoop2 hadoop 7.2