数据挖掘-万维网 _数据挖掘

本文概述

什么是网络挖掘？
网络挖掘的挑战
挖掘Web的链接结构以识别权威Web页面
Web挖掘的应用

文章图片
在过去的几年中, 万维网已经成为重要的信息来源, 同时也成为了流行的商业平台。 Web挖掘可以定义为一种利用数据挖掘技术和算法直接从Web提取有用信息的方法, 例如Web文档和服务, 超链接, Web内容和服务器日志。万维网包含大量数据, 这些数据为数据挖掘提供了丰富的资源。 Web挖掘的目的是通过收集和检查数据以获取见解, 从而在Web数据中查找模式。
什么是网络挖掘？ Web挖掘可以广泛地看作是将适应性数据挖掘技术应用于Web的应用, 而数据挖掘则被定义为用于在嵌入知识发现过程的大部分结构化数据上发现模式的算法的应用。 Web挖掘具有独特的属性, 可提供一组各种数据类型。 Web具有多个方面, 这些方面为挖掘过程提供了不同的方法, 例如, 网页由文本组成, 网页通过超链接链接, 并且可以通过Web服务器日志监视用户活动。这三个特征导致了三个方面的区别：Web内容挖掘, Web结构挖掘, Web使用率挖掘。
数据挖掘分为三种类型：

文章图片
1. Web内容挖掘：
Web内容挖掘可用于从网页内容中提取有用的数据, 信息, 知识。在Web内容挖掘中, 每个网页都被视为一个单独的文档。个人可以利用网页的半结构化性质, 因为HTML提供的信息不仅涉及布局, 还涉及逻辑结构。内容挖掘的主要任务是数据提取, 即从非结构化网站中提取结构化数据。目的是通过使用提取的结构化数据来促进各种网站上的数据聚合。可以利用Web内容挖掘来区分Web上的主题。例如, 如果任何用户在搜索引擎上搜索特定任务, 则该用户将获得建议列表。
2. Web结构化挖掘：
Web结构挖掘可用于查找超链接的链接结构。它用于标识链接网页或直接链接网络的数据。在Web Structure Mining中, 个人将Web视为有向图, 而Web页面是与超链接关联的顶点。在这方面最重要的应用是Google搜索引擎, 该引擎主要使用PageRank算法估算其结果的排名。当页面经常与其他高度相关的页面联系在一起时, 它就将页面特别相关。结构和内容挖掘方法通常是结合在一起的。例如, 网络结构化挖掘可能有益于组织调节两个商业站点之间的网络。
3. Web使用情况挖掘：
Web使用挖掘用于从Weblog记录中提取有用的数据, 信息, 知识, 并有助于识别用户对Web页面的访问模式。在Web资源的使用中, 人们正在思考网站访问者的请求记录, 这些记录通常作为Web服务器日志收集。尽管网页集合的内容和结构遵循页面作者的意图, 但各个请求都说明了消费者如何看待这些页面。 Web使用情况挖掘可能会披露页面创建者未提议的关系。
下面给出了一些识别和分析Web使用模式的方法：
一, 会议及访客分析：
预处理数据的分析可以在会话分析中完成, 其中包括访客记录, 日期, 时间, 会话等。此数据可用于分析访问者的行为。
该文档是在分析之后创建的, 其中包含重复访问的网页, 公共入口和出口的详细信息。
二。 OLAP（在线分析处理）：
OLAP完成了高级数据的多维分析。
OLAP可以在特定时期内在与日志相关的数据的各个部分上完成。
OLAP工具可用于推断重要的商业智能指标
网络挖掘的挑战该网络根据以下观察结果假装资源和知识发现面临巨大挑战：

网页的复杂性：

网站页面没有统一的结构。与传统的文本文档相比, 它们极其复杂。网络的数字图书馆中有大量文档。这些库不是按照特定顺序组织的。

网络是动态数据源：

互联网上的数据会快速更新。例如, 新闻, 气候, 购物, 财经新闻, 体育等等。

客户网络的多样性：

【数据挖掘-万维网】Web上的客户端网络正在迅速扩展。这些客户具有不同的兴趣, 背景和使用目的。与互联网相关联的工作站超过一亿, 并且还在以惊人的速度增长。

数据的相关性：

可以认为特定的人通常只关心网络的一小部分, 而网络的其余部分包含用户不熟悉的数据, 并可能导致不良结果。

网络范围太广：

网络的规模巨大并且正在迅速增加。似乎网络对于数据仓库和数据挖掘来说太大了。
挖掘Web的链接结构以识别权威Web页面该网络包括页面以及指示从一个页面到另一页面的超链接。网页的创建者创建显示另一个网页的超链接时, 可以将其视为其他页面的创建者授权。网络上各个创建者对给定页面的统一授权可以指示该页面的重要性, 并可以自然地提示发现权威性网页。 Web链接数据提供了有关Web内容的相关性, 质量和结构的丰富数据, 因此是Web挖掘的丰富资源。
Web挖掘的应用 Web挖掘由于Web的各种用途而具有广泛的应用。 Web挖掘的一些应用程序列表如下。