hadoop3 sqoop1 hadoop hbase2
hadoop hive hbase
公司报表是基于数仓开发的,分层是ods>dwd>dwm>dm,sqoop再同步到传统数据库,帆软展示,或tableau展示,这块涉及的是离线计算。 记录下大数据开发设计的概念: 1、hadoop:分布式计算(MapReduce)+分布式文件系统(HDFS),后者可以独立运行,前者可以选择性使用,也可 ......
大数据面试题集锦-Hadoop面试题(五)-优化
> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 ## 1、MapReduce优化方法 1)数据输入 (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产 ......
hadoop学习笔记
hadoop之MapReduce的学习虽然目前的框架里已经很少用到但是底层的思想还是可以借鉴。 MapReduce分为map阶段和reduce阶段,map阶段即是将数据进行搜集,reduce即是将数据进行分发,例如wordcount命令,首先将单词进行按照一定规则处理,例如分割,然后按照首字母排序, ......
hadoop安装
# hadoop安装 ## 零、hadoop启动命令 ```shell start-all.sh start-dfs start-yarn hadoop-deamons.sh yarn-deamons.sh hadoop-deamon.sh yarn-deamon.sh mr-jobhistorys ......
Hadoop的hdfs云服务器配置踩坑记录
本章更多的是通过hdfs的API接口问题角度记录坑点 # 坑点记录 ## 一、能够远程访问和通过web端访问hdfs 1. 在java代码中添加或更改如下: ```java Configuration conf = new Configuration(); conf.set("dfs.client. ......
大数据生态圈/Hadoop/Spark/Flink/数据仓库/实时分析/推荐系统
课程实用性很强,老师讲的很透彻,都是面试容易问到的;紧扣当前企业所用技术,对于从事大数据或者转行大数据行业,都有很大的帮助。 比屋教育,秉承“活学活用”的教育理念,集合资深专家讲师团队,依托完善的线上教学管控平台,专注于大数据、云计算、互联网架构师等领域的职业技能培训,着力培养满足互联网企业实际需求 ......
Hadoop大数据2
HDFS 文件系统 overview9870 8088 shell操作 echo如果,没有它会自己创建 上传不必加本地和外部前缀他会根据默认自动识别 echo 输入的内容和cin要各有空格,否则它不会生效 文件夹只有用门槛低而 或者递归创建 文件夹是没有大小的,只存储具体的一个个文件 文件夹后面不用 ......
启动Hadoop时需要进行的操作
首先切换到hadoop用户 su - hadoop 启动hdfs集群 start-dfs.sh 启动yarn集群 start-yarn.sh 启动hive 首先切换到hive文件夹 cd /export/server/hive 然后再运行下述命令 #先启动metastore服务 然后启动hivese ......
hadoop学习笔记第一次
这周学习了大数据之hadoop,这一周的学习主要围绕在hadoop集群配置及其华宁的搭建,hadoop是采用多态服务器的分布式系统,主要的核心就是hdfs,mapreduce,yarn等等,hadoop配置时候在主机上遇到了蛮多的问题现在就来记录一下。 1.首先是一些基础命令: 回退/进入目录命令: ......
Hadoop大数据
Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 恢复内容开始 Apache基金会项目 从角色每个节点都要有 主角色只有一个 打开虚拟机一定要以管理员权限打开,不然有些文件它无法访问 配置集群虚拟机 首先配置vmnet8网卡 修改 ......
Python使用hdfs上传文件至hadoop报错
报错代码: from hdfs.client import Client hdfs_client = Client('http://IP:端口') hdfs_client.makedirs(hdfs_dir) 在与hadoop创建链接后建文件夹时报错 报错信息: requests.exception ......
万字长文 | Hadoop 上云: 存算分离架构设计与迁移实践
一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。 在过去几年中,我们按照每 1 到 2 年的规划扩容硬件,但往往在半年之后就不得不再次扩容。而每次扩容都需要花费大量精力。 **为了解决包括扩容周期长、计算存储资源 ......
Scala连接Hbase集群出现异常tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator
总结/朱季谦 在新项目上创建以下Scala代码去连接Hbase集群,用来判断Hbase是否存在某张表。 ``` //离线Hbase val conf: Configuration = HBaseConfiguration.create() conf.set("hbase.zookeeper.quor ......
Hadoop MapReduce编写实现序列化统计各学生的总分
Map类 package org.example.score; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; i ......
安装Hadoop单节点伪分布式集群
[toc] # 安装Hadoop单节点伪分布式集群 操作系统:Ubuntu server 20.04 参考文档:`http://apache.github.io/hadoop/hadoop-project-dist/hadoop-common/SingleCluster.html` ## 系统准备 ......
hadoop基础-hadoop启动脚本分析及常见命令
进程 [hdfs]start-dfs.sh NameNode NN DataNode DN SecondaryNamenode 2NN [yarn]start-yarn.sh ResourceMananger RM NodeManager NM 脚本分析 sbin/start-all.sh libe ......
Hadoop中hive的使用
启动元数据管理服务(必须启动,否则无法工作) 前台启动:bin/hive --service metastore 后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 & 启动客户端 Hive Shell方式(可以直接写 ......
Hadoop on k8s 快速部署进阶精简篇
[TOC] ## 一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:[Hadoop on k8s 编排部署进阶篇](https://www.cnblogs.com/liugp/p/ ......
大数据面试题集锦-Hadoop面试题(四)-YARN
> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"**张飞的猪大数据分享**"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、为什么会产生 yarn,它解决了什么问题,有什么优势? 1)Yarn最主要的功能就是解决运 ......
Hadoop中YARN集群启停命令
一键启停脚本 # 一键启动yarn集群 start-yarn.sh # 一键关闭yarn集群 stop-yarn.sh 单进程启停 start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程 yarn --daemon start| ......
hadoop3.3.5完全分布式搭建live nodes只有一个的情况
在我配置完所有结点启动后发现存活的结点只有一个,一开始我以为是主机或者配置的问题,但是都没有用 后来终于找到了问题所在,问题的关键就是xsync脚本分发后再使得三台主机的datanode id一样 修改这个使得三个主机的uuid不同即可 ......
Hadoop3.3.5完全分布式搭建
首先在之前的伪分布基础上克隆两台机器 这样一共三台虚拟机 为这三台虚拟机设置三个不同的静态ip地址和主机名 我的是 billsaifu 192.168.15.130 hadoop1 192.168.15.131 hadoop2 192.168.15.132 静态IP设置 #先进入root vim / ......
hadoop2.7. 序列化对象
1.在hadoop中必须序列化对象后,才能进行网络传输,不使用java序列化的原因是:java序列化对象会添加很多信息,造成对象的字节数变大,hadoop序列化为一种高效的序列化 如果在实际生产中,BooleanWrite、IntWrite,Text,FloatWrite等数据类型无法满足要求,就需 ......
Hadoop on k8s 编排部署进阶篇
[TOC] ## 一、概述 `Hadoop` 是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它使用了 `Hadoop` 分布式文件系统`(Hadoop Distributed File System,HDFS)`来存储数据,并通过 `MapReduce` 编程模型进行数据处理。 ![ ......
hadoop2.7.2 wordcount案例
1.配置pom.xml <!--依赖--> <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <depen ......
Hadoop 伪分布模式配置
etc/hadoop/core-site.xml <configuration> <!-- 指定HDFS中namenode地址--> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property ......
hadoop2.7.2上安装hive
hive版本1.21 mysql版本5.6.24 1.解压hive tar -zxf apache-hive-1.2.1-bin.tar.gz -C ../app/ cd ../app/ ln -s apache-hive-1.2.1-bin hive 2.安装mysql 注:参考Linux安装My ......
Hadoop启动报错:org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"
Hadoop启动报错:org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "hdfs"解决思路以及方法。 ......