大数据时代

发布时间 2023-09-04 23:25:56作者: 王庆园

什么叫大数据:很大的数据?no 专业名词5v: 

volume:数据体量大(采集量,存储量,计算量,tb,PB级别起步)

variety:种类来源多样化

value:低价值密度(信息海量但价值密度低,深度复杂的挖掘分析需要机器学习的参与)

velocity:速度快(增长速度快,获取速度快,处理速度快)

veracity:数据质量(准确性,可信赖度)

大数据领域应用:

电商领域:精准广告位,个性化推荐,大数据杀熟

传媒领域:精准营销,猜你喜欢,交互推荐

金融领域:个人信用评估,风险承担能力评估

交通领域:交通拥堵预测,路线规划

电信领域:基站选址优化,用户画像

安防领域:预防犯罪

医疗领域:智慧医疗,疾病预防

问题:海量数据如何存储?海量数据如何计算?

分布式与集群:

分布式:多台机器每台机器不同组件

例如天猫商城,有不同的服务器负责不同的服务,相互配合对外服务

 

集群:u多台机器,每台部署相同组件

例如百度提供的中文搜索,针对于全球用户一台服务器远远不够,所以多台相同的提供相同服务的机器。

 

海量数据存储的方式:多台机器分布式存储

海量数据计算:多台机器分布式计算