搜索引擎利用网站地图的建立蜘蛛在互联网上爬行 _睿知

文章插图

文章插图

建立标准的需要
搜索引擎利用蜘蛛在互联网上爬行，定位网页并将它们收录到数据库中。这一过程需要大量资源，有时，你希望索引的网页被忽略，而无用的网页却被收录。在网络上搜寻变化与新网页，收录它们并进行相应归类的Google Googlebot蜘蛛就是一个典型的例子。
网站地图为网站明确应索引哪些网页，以及网站中增加了哪些新内容提供了一种方法。基本上，它在搜索引擎与网站间提供一个通信通道。理论上，它通过减少搜索引擎蜘蛛的处理对象来缓解资源负担，但当前网站地图不能代替爬行过程。
网站地图简介
网站地图是一个XML文件，它包含一个网址URL表和相关的属性，详细说明应索引某个特定网站的哪些内容。网站地图必须为UTF-8编码。下面是网站地图文件需要的XML元素：
-- 网站地图文件以这个标签起始和结束，起始标签必须包括命名空间（xmlns）属性。 -- 文件中的每一个网页包含在这个元素之中。 -- 文件中指定的网页的实际地址。它是元素的一个子元素。文件中还有下列可选元素：
-- 元素的一个子元素。它指定最近一次更新网页的时间。 -- 元素的一个子元素。它指定网页更新的频率（经常、每小时、每天、每周、每月、每年及从未更新）。-- 元素的一个子元素。它指定网站内网页相对于其它网页的重要性，有效值为0.0-1.0 ，默认值为0.5 。下面的网站地图样本说明如何在一个样本网页中应用这些元素。它为一个假定的网站指定主页，以及它的更新频率，上次更新的时间和网站中的优先权。

http://www.test.com/
2006-11-20
daily
【搜索引擎利用网站地图的建立蜘蛛在互联网上爬行】0.3

网站地图文件的位置由你自己决定，但它的位置决定了可能包含中文件中的URL集。例如，如果上面的样本网站地图文件位于http://www.test.com/sitemap.xml ，那么网站地图文件中可能包含任何以http://www.test.com/开头的URL 。因此，我们建议将网站地图文件存放在网站的根目录下。网站地图文件的大小不得超过10MB 。如果一个文件超出这个限制，就需要使用gzip进行压缩。
建立一个网站地图
既然网站地图以XML为基础，就可以方便的使用任何文本编辑器建立并编辑它们，不过也可以应用专门的工具。下面的列表提供了一些当前的工具：
Node Map：一个生成并确认网站地图XML文件的工具。Gsitemap：一个应用.NET Framework建立的网站地图生成工具。GSiteCrawler：一个生成网站地图文件的Windows工具。phpSitemapNG：一个用PHP编写的免费网站地图生成器。Google Sitemap Generator：一个可以用于生成网站地图文件的Python脚本。通告搜索引擎
建立一个网站地图文件后，应该将它提交给一个搜索引擎。每个搜索都拥有自己的网站地图提交界面。Google的Webmaster工具集中包含了一个网站地图提交页面。在使用之前你必须注册一个账户。雅虎也有一个免费的网站地图提交页面，但在使用之前同样必须注册一个账户。其它搜索引擎也会仿效Google、雅虎和MSN ，提供相似的功能。
其它工具
搜索引擎收录网页的爬行过程缓慢而且需要大量资源。网站地图为网站指定应收录哪些内容而进行搜索提供了一种方法。它们建立像XML一样的简单文本格式文件，但有许多工具可以帮助你建立网站地图文件。现在，它们只是对当前的处理过程进行补充。

搜索引擎利用网站地图的建立蜘蛛在互联网上爬行

推荐阅读

你有什么给正在减肥的人的忠告？

为什么年轻人不要玩核桃

万象物语挑战模式t13打法攻略万象物语挑战模式怎么打

西瓜鹌鹑汤

算法分析动态规划,动态规划背包问题算法分析

女生古铜色皮肤穿什么

hpv|世卫组织官员和中国医学专家呼吁尽早接种HPV疫苗，有必要吗？

虾池养殖鲈鱼技术虾池钓鲈鱼方法

板栗怎样做辅食

值得一看的短句

access成绩分析er图,根据access创建er图

科比拿过连续9场40吗

体内氨基酸脱氨基的主要方式是体内氨基酸脱氨基的主要方式是什么

安卓默认时钟字体,如何在智能手机上修改笔记字体?

spss怎么交叉分析法,交叉分析法怎么做

go语言关键字 golang go关键字

lightdm 分析,ubuntu安装lightdm

如何让孩子变得自信和勇敢如何让胆小孩子变勇敢

旅游app竞争者分析,旅游APP需求分析

城市建设开发与古建筑的保护，如何平衡城市发展和文化遗产保护