搜索引擎的工作分为三个阶段, 即搜寻, 索引和检索。
1)爬行
文章图片
【搜索引擎是如何工作(答案原来这么简单——)】这是搜索引擎使用网络爬虫在万维网上查找网页的第一步。网络搜寻器是Google用来建立索引的程序。它是为爬网而设计的, 爬网是浏览器浏览网页并以索引的形式存储有关其访问的网页的信息的过程。
因此, 搜索引擎具有Web搜寻器或Spider来执行搜寻, 并且搜寻器的任务是访问网页, 阅读该网页并跟踪指向该站点其他网页的链接。每次搜寻器访问网页时, 它都会复制该页面并将其URL添加到索引中。添加URL后, 它会像每个月或两个月一样定期访问网站, 以查找更新或更改。
2)索引
文章图片
在此阶段, 由爬网程序在爬网过程中制作的网页副本将返回到搜索引擎, 并存储在数据中心中。搜寻器使用这些副本创建搜索引擎的索引。你在搜索引擎列表中看到的每个网页都会被网络爬网程序爬网并添加到索引中。你的网站仅应在索引中, 然后它才会出现在搜索引擎页面中。
我们可以说索引就像一本巨大的书, 其中包含搜寻器发现的每个网页的副本。如果任何网页发生更改, 则搜寻器将使用新内容更新图书。
因此, 索引包含搜寻器访问的不同网页的URL, 并包含搜寻器收集的信息。搜索引擎使用此信息为用户提供相关的答案以进行查询。如果没有将页面添加到索引, 则用户将无法使用该页面。索引编制是一个连续的过程;爬虫会不断访问网站以查找新数据。
3)检索
文章图片
这是最后阶段, 其中搜索引擎响应于用户提交的搜索查询, 以特定顺序提供最有用和最相关的答案。搜索引擎使用算法来改善搜索结果, 以便只有真正的信息才能到达用户, 例如, PageRank是搜索引擎常用的算法。它在索引中记录的页面之间切换, 并在它认为最佳的结果的第一页上显示这些网页。
推荐阅读
- SEO分析(如何选择最佳关键字())
- d3 tspan append
- uni-app实现APP的版本更新
- springboot+druid报错log4j:WARN No appenders could be found for logger (druid.sql.Connection). log4j:WA
- fiddler抓包+雷电模拟器完成手机app抓包的配置
- uniapp/vue在页面中强制更改组件样式
- Android蓝牙读取短信调研
- 区块链钱包系统开发方案,多币种钱包搭建app
- git clone android source code抛出error: invalid path 'luni/src/test/resources/org/apache/harmony/t