什么是大数据

本文概述

  • 大数据来源
  • 3V大数据
  • 用例
  • 问题
大小非常大的数据称为大数据。通常我们处理的数据大小为MB(WordDoc, Excel)或最大GB(电影, 代码), 但Peta字节即10 ^ 15字节大小的数据称为大数据。据说今天的数据中几乎有90%是在过去3年中生成的。
大数据来源【什么是大数据】这些数据来自许多来源, 例如
  • 社交网站:Facebook, Google, LinkedIn, 由于这些网站在全球拥有数十亿用户, 因此它们每天都会产生大量数据。
  • 电子商务站点:诸如Amazon, Flipkart, 阿里巴巴之类的站点会生成大量日志, 从中可以跟踪用户的购买趋势。
  • 气象站:所有气象站和卫星都提供非常庞大的数据, 这些数据会存储并处理以预测天气。
  • 电信公司:Airtel, Vodafone等电信巨头研究了用户趋势, 并据此发布了计划, 并为此存储了其百万用户的数据。
  • 股票市场:全球的证券交易所通过日常交易产生大量数据。
3V大数据
  1. 速度:数据以非常快的速度增长。据估计, 数据量将每两年增加一倍。
  2. 种类:现在, 天数据不再存储在行和列中。数据是结构化的还是非结构化的。日志文件, CCTV素材是非结构化数据。可以保存在表中的数据是结构化数据, 例如银行的交易数据。
  3. 数量:我们处理的数据量很大, 超过了Peta字节。
用例一家电子商务网站XYZ(拥有1亿用户)希望为其前一年消费最多的前10位客户提供100美元的礼品券, 此外, 他们还想了解这些客户的购买趋势, 以便公司可以建议与他们相关的更多商品。
问题需要存储, 处理和分析的大量非结构化数据。
解存储:Hadoop拥有大量数据, 因此使用HDFS(Hadoop分布式文件系统), 该HDFS使用商品硬件形成集群并以分布式方式存储数据。它适用于一次写入, 多次读取的原理。
处理:将Map Reduce范式应用于通过网络分发的数据, 以查找所需的输出。
分析:猪, 蜂巢可用于分析数据。
成本:Hadoop是开源的, 因此成本不再是问题。

    推荐阅读