大数据时代该如何进行海量数据的处理?

发布时间 2023-11-11 10:10:34作者: cyznb

什么是大数据?

网上流传很多种说法,亦或是对他的大小范围的定义(PB级别以上(1PB==2^20GB)),亦或是对他的处理难度(很大)

按我来说的话,我感觉就是一句话:

  • 用咱们现在普遍常用的软件工具来捕获管理和处理这些数据如果很耗时间,那这些数据就是大数据。(也说这个超过可容忍时间)

数据处理是什么?

数据处理就是对数据进行一系列的操作,比如说是数据收集、数据预处理、数据存储等等方面,这里先讲一下数据预处理

数据预处理

数据预处理,顾名思义就是对数据进行初步的处理,就是经历三个操作(数据抽取、转换、加载)简称ETL(分别是exact,translate,load)。

1.ETL其实是一个数据通道,它从数据源拿到数据(抽取操作)之后,会对数据进行处理(转换)之后会发送到(加载)数据仓库,对于数据源以上的模型用一张图来解释一下:


简单地说就是:(其实这也是个架构)

  • 首先从咱们主机上面日志,业务,各种运行的程序等等可获得data的地方抽取到data然后转换成某一种形式(下次讲),之后再加载给数据仓库(存储data的地方)

  • 其次就是这个预处理它也可以指在数据仓库上面的一些操作,因为在数据仓库上面的数据不只是存储,这些data在上面还会被管理分类,这些在数据仓库上面的操作也属于预处理的部分,(因为在应用之前,训练模型之前的data处理都可以简称data的预处理阶段)。

  • 接着就是预处理真正结束之后,数据仓库中的都是可以拿来用的(可以对他进行分析,提取有用的信息(其实就是数据挖掘),做一些可视化等等),从而训练出模型不断完善

  • 最后就是有了这些模型然后把这些模型应用到现实生活中,真正的实践(城市的建设之类,平安城市的建设)

2.其实从上面的架构可知,ETL它连着三个系统:交易系统(从数据源获取数据并操作),数据仓库(加载data到的地方),应用系统(最后的实践)

还有个ELT,跟ETL刚好转换和加载的操作反过来(看名字也能知道),他其实就是先加载数据仓库之后在进行转换,有什么好处呢?

  • 只需访问一次数据源,数据源抽取之后进行加载,(之后就开始进行转换,没有再继续抽取)然后直接在数据仓库上面进行转换,就省去了还要单独利用其他的转换的引擎部件,效率提高了不少(因为它是在数据仓库中进行的转换,非常恰好的利用的数据仓库里面的一些组件,函数等等)。