Hadoop的“前世今生”

发布时间 2023-12-18 14:45:53作者: 智慧的骆驼

       

    Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。

     一:Hadoop名称由来

     与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命名的,这也太个性了吧!

      二:Hadoop是干啥的?

           长话短说,Hadoop是一个提供了分布式存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算的 分布式系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。

      三:Hadoop的核心组件

  • Hadoop Common:支持其他Hadoop模块的通用工具
  • Hadoop Distributed File System (HDFS):HDFS实现将文件分布式存储在很多的服务器上
  • Hadoop YARN:YARN实现集群资源管理以及作业的调度分布式计算框架
  • Hadoop MapReduce:MapReduce是基于YARN的、可以实现在多机器上分布式并行计算的系统       

        四:Hadoop生态圈

    

 

  • 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。
  • 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统。