结构化,半结构化和非结构化数据之间的差异

大数据包括海量数据, 高速数据和可扩展的各种数据。这是3种类型:结构化数据, 半结构化数据和非结构化数据。

  1. 结构化数据– 
    结构化数据是指其元素可寻址以进行有效分析的数据。它已经组织成一个格式化的存储库, 通常是一个数据库。它涉及可以在具有行和列的表中存储在数据库SQL中的所有数据。它们具有关系键, 可以轻松地映射到预先设计的字段中。如今, 这些数据在开发和管理信息的最简单方式中得到了最充分的处理。例子:关系数据。
     
  2. 半结构化数据– 
    半结构化数据是不驻留在关系数据库中但具有某些组织属性的信息, 这些属性使分析变得更容易。通过一些过程, 你可以将它们存储在关系数据库中(对于某种半结构化数据可能很难), 但是存在半结构化以减轻空间。例子:XML数据。
     
  3. 非结构化数据– 
    非结构化数据是未按预定义方式组织或没有预定义数据模型的数据, 因此它不适用于主流关系数据库。因此, 对于非结构化数据, 存在可供选择的用于存储和管理的平台, 它在IT系统中越来越流行, 并被组织用于各种商业智能和分析应用程序中。例子:Word, PDF, 文本, 媒体日志。
     
【结构化,半结构化和非结构化数据之间的差异】结构化, 半结构化和非结构化数据之间的差异:
属性 结构化数据 半结构化数据 非结构化数据
技术 它基于关系数据库表 它基于XML / RDF(资源描述框架)。 它基于字符和二进制数据
交易管理 成熟的交易和各种并发技术 事务改编自未成熟的DBMS 没有交易管理, 没有并发
版本管理 元组, 行, 表的版本控制 可以对元组或图形进行版本控制 整体版本化
灵活性 它依赖于架构, 灵活性较差 它比结构化数据更灵活, 但比非结构化数据更不灵活 它更灵活, 没有模式
可扩展性 扩展数据库架构非常困难 它的扩展比结构化数据更简单 它更具可扩展性。
坚固性 非常坚固 新技术, 不是很普及
查询效果 结构化查询允许复杂的联接 可以查询匿名节点 只能进行文字查询

    推荐阅读