很多互联网都在谈大数据,到底什么是大数据?


大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合 。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征 。
在谈论什么是大数据之前 。不妨先看看大数据四个特征 。一是数据体量巨大(Volume) 。这个很容易理解 。最初个人电脑软盘或硬盘容量以KB或MB为单位 。现在则以GB和TB为单位 。数据容量提高了一千倍至十亿倍 。二是数据类型繁多(Variety) 。最初数据以文字或结构化数据库的形式存储 。现在音频、视频、图片等被广泛应用 。非结构化数据越来越多 。三是价值密度低(Value) 。价值密度的高低与数据总量的大小成反比 。以视频为例 。一部1小时的视频 。在连续不间断的监控中 。有用数据可能仅有一二秒 。四是处理速度快(Velocity) 。这是大数据区分于传统数据挖掘的最显著特征 。大容量、低密度数据必然要求高速处理以提取有用的信息 。
由于互联网公司往往储存有大量的用户网购、用户出行、用户搜索、用户浏览等信息 。通过对这些信息快速处理和聚合分析 。能够判断用户未来几天甚至未来几个月的可能行为 。为互联网公司提供智能化推荐、供应链管理、价格优化、欺诈行为判断等更优的服务 。在利用大数据时候 。除了前面所述的四个特征外 。数据还必须具有关联性:数据来自同一类型人物、数据来自同一时间段、数据来自同一个产品等等 。
其他观点:
大数据(big data) 。IT行业术语 。是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性) 。
想要系统的认知大数据 。必须要全面而细致的分解它 。着手从三个层面来展开:
第一层面是理论 。理论是认知的必经途径 。也是被广泛认同和传播的基线 。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈 。
第二层面是技术 。技术是大数据价值体现的手段和前进的基石 。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程 。
第三层面是实践 。实践是大数据的最终价值体现 。在这里分别从互联网的大数据 。政府的大数据 。企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图 。
大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值 。
不过 。“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考 。科学发展的逻辑不能被湮没在海量数据中 。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言 。有很多人忙碌于资料之无益累积 。以致对问题之说明与解决 。丧失了其对特殊的经济意义的了解 。”这确实是需要警惕的 。
在这个快速发展的智能硬件时代 。困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点 。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等 。例如 。通过结合大数据和高性能的分析 。下面这些对企业有益的情况都可能会发生:
(1)及时解析故障、问题和缺陷的根源 。每年可能为企业节省数十亿美元 。
(2)为成千上万的快递车辆规划实时交通路线 。躲避拥堵 。
(3)分析所有SKU 。以利润最大化为目标来定价和清理库存 。
(4)根据客户的购买习惯 。为其推送他可能感兴趣的优惠信息 。
(5)从大量客户中快速识别出金牌客户 。
(6)使用点击流分析和数据挖掘来规避欺诈行为 。

很多互联网都在谈大数据,到底什么是大数据?

文章插图
其他观点:
很遗憾 。作为一个非技术人员 。只能谈一下大数据的应用方面 。具体的概念可度娘 。互联网企业更多需要的是大数据应用服务 。企业最喜欢的部门当然是营销部门啦 。大数据说白了就是营销部门的数据军事 。最近几年 。数据被记录成为中国大数据发展的一项优势资源 。记录的数据库可以用来辅助企业决策 。

推荐阅读