搜索引擎利用网站地图的建立蜘蛛在互联网上爬行


搜索引擎利用网站地图的建立蜘蛛在互联网上爬行

文章插图
搜索引擎利用网站地图的建立蜘蛛在互联网上爬行

文章插图

建立标准的需要
搜索引擎利用蜘蛛在互联网上爬行 , 定位网页并将它们收录到数据库中 。这一过程需要大量资源 , 有时 , 你希望索引的网页被忽略 , 而无用的网页却被收录 。在网络上搜寻变化与新网页 , 收录它们并进行相应归类的Google Googlebot蜘蛛就是一个典型的例子 。
网站地图为网站明确应索引哪些网页 , 以及网站中增加了哪些新内容提供了一种方法 。基本上 , 它在搜索引擎与网站间提供一个通信通道 。理论上 , 它通过减少搜索引擎蜘蛛的处理对象来缓解资源负担 , 但当前网站地图不能代替爬行过程 。
网站地图简介
网站地图是一个XML文件 , 它包含一个网址URL表和相关的属性 , 详细说明应索引某个特定网站的哪些内容 。网站地图必须为UTF-8编码 。下面是网站地图文件需要的XML元素:
-- 网站地图文件以这个标签起始和结束 , 起始标签必须包括命名空间(xmlns)属性 。 -- 文件中的每一个网页包含在这个元素之中 。 -- 文件中指定的网页的实际地址 。它是元素的一个子元素 。文件中还有下列可选元素:
-- 元素的一个子元素 。它指定最近一次更新网页的时间 。 -- 元素的一个子元素 。它指定网页更新的频率(经常、每小时、每天、每周、每月、每年及从未更新) 。-- 元素的一个子元素 。它指定网站内网页相对于其它网页的重要性 , 有效值为0.0-1.0 , 默认值为0.5 。下面的网站地图样本说明如何在一个样本网页中应用这些元素 。它为一个假定的网站指定主页 , 以及它的更新频率 , 上次更新的时间和网站中的优先权 。



http://www.test.com/
2006-11-20
daily
【搜索引擎利用网站地图的建立蜘蛛在互联网上爬行】0.3


网站地图文件的位置由你自己决定 , 但它的位置决定了可能包含中文件中的URL集 。例如 , 如果上面的样本网站地图文件位于http://www.test.com/sitemap.xml , 那么网站地图文件中可能包含任何以http://www.test.com/开头的URL 。因此 , 我们建议将网站地图文件存放在网站的根目录下 。网站地图文件的大小不得超过10MB 。如果一个文件超出这个限制 , 就需要使用gzip进行压缩 。
建立一个网站地图
既然网站地图以XML为基础 , 就可以方便的使用任何文本编辑器建立并编辑它们 , 不过也可以应用专门的工具 。下面的列表提供了一些当前的工具:
Node Map:一个生成并确认网站地图XML文件的工具 。Gsitemap:一个应用.NET Framework建立的网站地图生成工具 。GSiteCrawler:一个生成网站地图文件的Windows工具 。phpSitemapNG:一个用PHP编写的免费网站地图生成器 。Google Sitemap Generator:一个可以用于生成网站地图文件的Python脚本 。通告搜索引擎
建立一个网站地图文件后 , 应该将它提交给一个搜索引擎 。每个搜索都拥有自己的网站地图提交界面 。Google的Webmaster工具集中包含了一个网站地图提交页面 。在使用之前你必须注册一个账户 。雅虎也有一个免费的网站地图提交页面 , 但在使用之前同样必须注册一个账户 。其它搜索引擎也会仿效Google、雅虎和MSN , 提供相似的功能 。
其它工具
搜索引擎收录网页的爬行过程缓慢而且需要大量资源 。网站地图为网站指定应收录哪些内容而进行搜索提供了一种方法 。它们建立像XML一样的简单文本格式文件 , 但有许多工具可以帮助你建立网站地图文件 。现在 , 它们只是对当前的处理过程进行补充 。

推荐阅读