hadoop

hadoop hive hbase

公司报表是基于数仓开发的,分层是ods>dwd>dwm>dm,sqoop再同步到传统数据库,帆软展示,或tableau展示,这块涉及的是离线计算。 记录下大数据开发设计的概念: 1、hadoop:分布式计算(MapReduce)+分布式文件系统(HDFS),后者可以独立运行,前者可以选择性使用,也可 ......
hadoop hbase hive

大数据面试题集锦-Hadoop面试题(五)-优化

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 ## 1、MapReduce优化方法 1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产 ......
试题集锦 集锦 试题 数据 Hadoop

hadoop学习笔记

hadoop之MapReduce的学习虽然目前的框架里已经很少用到但是底层的思想还是可以借鉴。 MapReduce分为map阶段和reduce阶段,map阶段即是将数据进行搜集,reduce即是将数据进行分发,例如wordcount命令,首先将单词进行按照一定规则处理,例如分割,然后按照首字母排序, ......
笔记 hadoop

hadoop安装

# hadoop安装 ## 零、hadoop启动命令 ```shell start-all.sh start-dfs start-yarn hadoop-deamons.sh yarn-deamons.sh hadoop-deamon.sh yarn-deamon.sh mr-jobhistorys ......
hadoop

Hadoop的hdfs云服务器配置踩坑记录

本章更多的是通过hdfs的API接口问题角度记录坑点 # 坑点记录 ## 一、能够远程访问和通过web端访问hdfs 1. 在java代码中添加或更改如下: ```java Configuration conf = new Configuration(); conf.set("dfs.client. ......
服务器 Hadoop hdfs

大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统

课程实用性很强,老师讲的很透彻,都是面试容易问到的;紧扣当前企业所用技术,对于从事大数据或者转行大数据行业,都有很大的帮助。 比屋教育,秉承“活学活用”的教育理念,集合资深专家讲师团队,依托完善的线上教学管控平台,专注于大数据、云计算、互联网架构师等领域的职业技能培训,着力培养满足互联网企业实际需求 ......
数据 仓库 实时 生态 Hadoop

Hadoop大数据2

HDFS 文件系统 overview9870 8088 shell操作 echo如果,没有它会自己创建 上传不必加本地和外部前缀他会根据默认自动识别 echo 输入的内容和cin要各有空格,否则它不会生效 文件夹只有用门槛低而 或者递归创建 文件夹是没有大小的,只存储具体的一个个文件 文件夹后面不用 ......
数据 Hadoop

Hadoop初步学习之VM虚拟机的配置

经过半个小时的努力我的vm虚拟机终于不蓝屏了,也是成功安装了centos linux 实际上如果出现蓝屏下载一个vm16就可以了 ......
Hadoop

启动Hadoop时需要进行的操作

首先切换到hadoop用户 su - hadoop 启动hdfs集群 start-dfs.sh 启动yarn集群 start-yarn.sh 启动hive 首先切换到hive文件夹 cd /export/server/hive 然后再运行下述命令 #先启动metastore服务 然后启动hivese ......
Hadoop

hadoop学习笔记第一次

这周学习了大数据之hadoop,这一周的学习主要围绕在hadoop集群配置及其华宁的搭建,hadoop是采用多态服务器的分布式系统,主要的核心就是hdfs,mapreduce,yarn等等,hadoop配置时候在主机上遇到了蛮多的问题现在就来记录一下。 1.首先是一些基础命令: 回退/进入目录命令: ......
第一次 笔记 hadoop

Hadoop大数据

Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 恢复内容开始 Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 配置集群虚拟机 首先配置vmnet8网卡 修改 ......
数据 Hadoop

Python使用hdfs上传文件至hadoop报错

报错代码: from hdfs.client import Client hdfs_client = Client('http://IP:端口') hdfs_client.makedirs(hdfs_dir) 在与hadoop创建链接后建文件夹时报错 报错信息: requests.exception ......
文件 Python hadoop hdfs

万字长文 | Hadoop 上云: 存算分离架构设计与迁移实践

一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。 在过去几年中,我们按照每 1 到 2 年的规划扩容硬件,但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。 **为了解决包括扩容周期长、计算存储资源 ......
长文 架构 Hadoop

Scala连接Hbase集群出现异常tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator

总结/朱季谦 在新项目上创建以下Scala代码去连接Hbase集群,用来判断Hbase是否存在某张表。 ``` //离线Hbase val conf: Configuration = HBaseConfiguration.create() conf.set("hbase.zookeeper.quor ......

Hadoop MapReduce编写实现序列化统计各学生的总分

Map类 package org.example.score; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; i ......
总分 序列 MapReduce Hadoop 学生

安装Hadoop单节点伪分布式集群

[toc] # 安装Hadoop单节点伪分布式集群 操作系统:Ubuntu server 20.04 参考文档:`http://apache.github.io/hadoop/hadoop-project-dist/hadoop-common/SingleCluster.html` ## 系统准备 ......
分布式 节点 集群 Hadoop

hadoop基础-hadoop启动脚本分析及常见命令

进程 [hdfs]start-dfs.sh NameNode NN DataNode DN SecondaryNamenode 2NN [yarn]start-yarn.sh ResourceMananger RM NodeManager NM 脚本分析 sbin/start-all.sh libe ......
hadoop 脚本 命令 常见 基础

Hadoop中hive的使用

启动元数据管理服务(必须启动,否则无法工作) 前台启动:bin/hive --service metastore 后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 & 启动客户端 Hive Shell方式(可以直接写 ......
Hadoop hive

Hadoop on k8s 快速部署进阶精简篇

[TOC] ## 一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:[Hadoop on k8s 编排部署进阶篇](https://www.cnblogs.com/liugp/p/ ......
Hadoop k8s 8s on k8

大数据面试题集锦-Hadoop面试题(四)-YARN

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"**张飞的猪大数据分享**"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运 ......
试题集锦 集锦 试题 数据 Hadoop

Hadoop中YARN集群启停命令

一键启停脚本 # 一键启动yarn集群 start-yarn.sh # 一键关闭yarn集群 stop-yarn.sh 单进程启停 start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程 yarn --daemon start| ......
集群 命令 Hadoop YARN

hadoop3.3.5完全分布式搭建live nodes只有一个的情况

在我配置完所有结点启动后发现存活的结点只有一个,一开始我以为是主机或者配置的问题,但是都没有用 后来终于找到了问题所在,问题的关键就是xsync脚本分发后再使得三台主机的datanode id一样 修改这个使得三个主机的uuid不同即可 ......
分布式 只有 hadoop3 情况 hadoop

Hadoop3.3.5完全分布式搭建

首先在之前的伪分布基础上克隆两台机器 这样一共三台虚拟机 为这三台虚拟机设置三个不同的静态ip地址和主机名 我的是 billsaifu 192.168.15.130 hadoop1 192.168.15.131 hadoop2 192.168.15.132 静态IP设置 #先进入root vim / ......
分布式 Hadoop3 Hadoop 3.5

hadoop2.7. 序列化对象

1.在hadoop中必须序列化对象后,才能进行网络传输,不使用java序列化的原因是:java序列化对象会添加很多信息,造成对象的字节数变大,hadoop序列化为一种高效的序列化 如果在实际生产中,BooleanWrite、IntWrite,Text,FloatWrite等数据类型无法满足要求,就需 ......
序列 对象 hadoop2 hadoop

Hadoop on k8s 编排部署进阶篇

[TOC] ## 一、概述 `Hadoop` 是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它使用了 `Hadoop` 分布式文件系统`(Hadoop Distributed File System,HDFS)`来存储数据,并通过 `MapReduce` 编程模型进行数据处理。 ![ ......
Hadoop k8s 8s on k8

hadoop2.7.2 wordcount案例

1.配置pom.xml <!--依赖--> <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <depen ......
wordcount 案例 hadoop2 hadoop 7.2

Hadoop 伪分布模式配置

etc/hadoop/core-site.xml <configuration> <!-- 指定HDFS中namenode地址--> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property ......
模式 Hadoop

hadoop2.7.2上安装hive

hive版本1.21 mysql版本5.6.24 1.解压hive tar -zxf apache-hive-1.2.1-bin.tar.gz -C ../app/ cd ../app/ ln -s apache-hive-1.2.1-bin hive 2.安装mysql 注:参考Linux安装My ......
hadoop2 hadoop hive 7.2

Hadoop启动报错:org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"

Hadoop启动报错:org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"解决思路以及方法。 ......

mac spark+hive+hadoop 数据分析环境搭建(单机简版)

apache产品下载地址: http://archive.apache.org/dist/ mysql5.6 brew方式安装配置: Icon mysql做为元数据存储使用。 brew search mysql brew install mysql@5.6 配置mysqlhome: export M ......
数据分析 单机 环境 数据 hadoop