为什么今日头条发布的许多文章在知名浏览器上搜不到?


弄清楚这个问题 。需要先了解下其背后的原理 。首先更正下这个问题 。搜索结果与浏览器无关 。而是浏览器上使用的搜索引擎相关的 。什么是浏览器?
浏览器是一个展示网页内容的应用 。比如像QQ浏览器 。谷歌浏览器 。360浏览器 。火狐浏览器等供我们浏览网页的软件应用;
什么是搜索引擎?
搜索引擎是供用户搜索内容的软件服务 。比如像百度 。谷歌 。360 。bing,搜索等等 。
搜索引擎的原理?
可以举个例子来理解 。比如字典工具 。我们只需要知道一个词的拼音 。或者笔画就可以快速的找到这个词的详细内容所在的页面 。
搜索引擎也是类似的 。首先收集网络上大量的内容 。然后对这些内容进行处理 。建立相应的类似于字典的索引 。用户在输入内容搜索时 。就可以快速的返回相关内容的地址 。
【为什么今日头条发布的许多文章在知名浏览器上搜不到?】为什么搜不到那?
上面已经说明了搜索引擎的原理 。把网络上所有的内容都建立索引 。按理是应该可以搜索到的才对呀 。但是却搜不到 。为什么那?
搜索引擎在爬取内容时 。需要遵循一个叫做robots的协议 。
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件 。它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛) 。此网站中的哪些内容是不应被搜索引擎的漫游器获取的 。哪些是可以获取的 。
头条文章的robots协议地址:https://www.toutiao.com/robots.txt 。内容如下
User-agent: *
Disallow: /
Allow: /complain/
Allow: /media_partners/
Allow: /about/
Allow: /user_agreement/
Allow: /$
User-agent: ByteSpider
Allow: /
User-agent: ToutiaoSpider
Allow: /
表示的时只让头条的网络蜘蛛爬取 。而禁止其他搜索引擎爬取 。因此这些文章在头条可以搜索到 。而其他搜索引擎不可以搜索到 。
头条问答的robots协议地址:https://wukong.toutiao.com/robots.txt 。内容如下 。
User-agent: *
Disallow: /static/game*
表示除了一些静态内容 。都可以爬取 。因此所有搜索引擎都是可以爬取的 。然后可以被搜索的 。

为什么今日头条发布的许多文章在知名浏览器上搜不到?

文章插图
其他观点:
要理解这个问题 。首先得知道原理是什么 。
在浏览器上搜到的文章 。其实是搜素引擎在众多的网站上“爬”来的 。搜索引擎有一种扫描网页的技术 。俗称“爬虫” 。它会去网站去抓取页面的内容 。然后储存到服务器里收录 。当有人搜索相关内容的时候 。服务器就把这些内容呈现出来 。
既然原理是这样 。为什么在浏览器搜不到呢?其实 。网络是开放的 。也是不开放的 。开放在于可以找到各种信息 。不开放在于不同公司的内容收录是有限制的 。比如 。百度不收录头条的内容 。头条也不收录百度的内容 。所以 。你在浏览器用百度搜索搜内容 。当然不会有头条的文章 。就算有同样的 。来源也不是头条 。而是作者发布在其他平台的 。
其他观点:
这个其实很好理解 。也算是行业垄断现象吧 。众所周知物联网行业都是分帮立派的 。就那几个 。懂得都懂 。不是一个派系的 。自然会有所区别对待 。浏览器只是工具 。要看提供工具(也就是搜索引擎)的背后大佬是什么派系 。很显然头条是跟国内某知名搜索引擎不是一个派系的 。彼此之间搜索内容竞争 。是在所难免的 。其实互联网起初就是开放的 。只是为了竞争 。各派系进行了屏蔽隔离罢了 。感谢邀请 。谢谢!

    推荐阅读