Hive“横空出世”的原因

发布时间 2023-12-25 16:50:45作者: 田攀攀的博客

         在沸沸扬扬的大数据江湖里,有这么一个框架,它刚开始很低调,然而,就在那么一个不起眼的一天,突然展示出其绝妙的武功,让大数据各大框架的掌门人暗挑大拇指,好了,不卖关子了,这个“横空出世”的框架就是——Hive。

      

一:Hive产生的背景

       万事有因果,Hive的出现也不是无缘无故的,总体来说,Hive出现的原因主要有两个:

         1.   MapReduce编程太麻烦

               有过MapReduce编程经验的小伙伴们应该都能体会到编写MapReduce代码有多麻烦,Hive正是体谅到了小伙伴们的烦 恼, 于是才扬长避短,更快、更方便地解决了大家的烦恼。

          2.  SQL不能直接在HDFS上进行查询

               虽然HDFS是一种强大的分布式存储系统,可是存储在HDFS上的内容就是普通的数据而已,这可难倒了一众数据库管理人员,于是,Hive说:“没关系,只要你们会SQL,就很容易掌握我,我能帮助你们方便地操作HDFS上的数据”。哇,Hive的出现又解决了数据库管理员的苦恼,太伟大了!

二:Hive到底是什么

       正式介绍一下Hive: 

         Facebook 为了解决海量结构化日志数据的分析而开发了 Hive,后来开源给了 Apache 软件基金会。

    Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL 查询功能, Hive 底层是将类SQL 语句转换为 MapReduce任务运行。

      注意:

  • 从Hive2.x开始,底层的默认执行引擎已经改成了Spark
  • Hive底层执行引擎支持:MR/Tez/Spark

三:Hive的数据管理

  • Hive数据是存放在HDFS

  • 元数据信息(记录数据的数据)是存放在MySQL中

四:Hive的部署

    1.先安装好MySQL

    2. 下载Hive安装包,并解压到指定目录

    3. 添加HIVE_HOME到系统环境变量

    4. 修改配置

        hive-env.sh

        hive-site.xml (MySQL的连接配置)

    5. 拷贝MySQL驱动包到$HIVE_HOME/lib