搜索引擎爬虫在不知道域名的情况下如何搜索到网站?


这个做不到吧?我们以在国内最主要的百度爬虫为例 。你有一个新网站 。你希望他来抓取你 。需要先到百度站长平台提交你的网站 。这就要满足一些要求 。比如有域名 。域名要完成备案 。百度爬虫通过多种维度对你的网站进行评级 。来决定抓取的频次 。评级越高越会经常来抓取你的网站 。所以没有域名没有完成备案应该是不满足最基本的要求的 。还有 。那你现在只能用ip访问网站呗 。等以后有了域名 。又改用域名访问导致链接变化 。这样很不好会掉权重的 。
其他观点:
这个问题初看答案是不可能的 。不知道域名怎么爬呀 。那我们先来分析下 。搜索引擎是怎么爬取数据的 。
首先 。我们讲下正常的爬取 。
一般 。你的网站想要被搜索引擎录入 。你就会在网站跟目录 。放一个robot.txt文件 。有这个文件 。就相当于在饭店的一个清单 。上面列出了你想要给搜索引擎录入的一些目录 。你也可以说 。哪些目录不能检索 。搜索引擎就不会去检索这些目录了 。文件格式可以看下示例
############
User-agent: Googlebot
Disallow: /
Crawl-delay: 5
Disallow: /bin/
Disallow: /tmp/
Sitemap: http://domain.com/sitemap.xml
############
上面这个表示 。Google你就另来录入我了 。其它引擎可以 。并且不要去看我的bin和tmp目录 。且检索间隔是5s
但我怎么让搜索引擎知道我的网址地址呢?早期 。搜索引擎有提供一些入口 。做为网址的录入 。站长如果想在搜索引擎上显示自己的网站 。会自己先行去录入 。这样可以为自己的网站导入流量 。现在基本上 。搜索引擎会有专门的渠道获取已经开通域名 。然后统一拨测一下 。就可以获取取Robot.txt 。就可以录入网址了 。
你说这世界域名千千万 。它不可能都爬一次吧 。其实 。这个校验速度还是很快的 。另外 。别忘了 。搜索引擎每天基本都要对链接进行维护 。因为 。链接可能存在变更和失效的情况 。
当然 。还有一些是通过搜索引擎的其它技术来实现的 。比如在解析一个网页时 。这个网页如果有外链地址的话 。爬虫会把这些URL放到URL池中 。再进行深度遍历 。继续爬取 。
如果你的网站没有域名 。只有IP 。那还能被录入吗?理论上 。IPV4的最大组合是2^8^4个 。再刨去10,172,198等非公用IP 。总共不超过40亿个 。看起来很多 。但对计算机来说 。并不多 。不过 。这样检索非常的消耗资源 。一般是不考虑的 。
所以说 。即使搜索引擎爬虫不知道域名 。也是可以通过穷举法来搜索的 。但其实不需要这么麻烦 。通过注册局的数据 。完全可以知道每天新增多少域名 。减少多少域名 。再进行遍历一次 。查找robot.txt 。就比较简单了 。
当然 。也还是有引擎搜索不到的 。移动互联网的App时代 。就创造了这种信息孤岛 。他们已经不靠搜索引擎引流 。所以就不在乎搜索引擎是否能搜索到他们 。

搜索引擎爬虫在不知道域名的情况下如何搜索到网站?

文章插图
搜索引擎爬虫在不知道域名的情况下如何搜索到网站?

文章插图
其他观点:
【搜索引擎爬虫在不知道域名的情况下如何搜索到网站?】域名服务商提供的 。你都知道是爬虫了 。初期就26个字母拼接域名去爬呗 。通了就记录 。没通就继续爬 。全世界最多也就几千万个域名 。对服务器爬虫来说小意思 。周期性的爬爬就好 。以后对已经爬到的域名检验一下就可以了!

    推荐阅读