00|00 : 搜索引擎及其技术架构

前言

  • 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是以技术见长的互联网产品比例相对小些。
  • 好记得域名不再重要,因为人们会通过搜索进入网站。
【00|00 : 搜索引擎及其技术架构】所以,搜索排名很重要!
搜索引擎及其技术架构 史前时代:分类目录的一代
早期的Yahoo 和 hao123 通过人工收集整理,把属于各个分类的高质量网站或网页分门别类罗列,用户通过分级目录查找高质量的网站。导致绝大多数网站不能被收录。
第一代:文本检索的一代
  • 采用经典的信息检索模型,比如布尔模型,向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。
  • 网页之间有丰富的链接关系,这一代搜索引擎并未使用这些信息。
第二代:链接分析的一代
  • 这一代的搜索引擎充分利用了网页之间的链接关系,并充分挖掘和利用了网页链接所代表的含义。
网页链接代表一种推荐关系,所以通过链接分析可以在海量内容中找到最重要的网页。被推荐次数多的网页代表了其具有流行性。搜索引擎结合网页流行性和内容相似性来改善搜索质量。
但这种搜索引擎并未考虑用户的个性化需求,只要输入的查询请求相同,都会获得相同的搜索结果。
第三代:用户中心的一代
目前的搜索引擎大都可以归为第三代,以理解用户需求为核心。
不同用户,不同时间,即使是同一个用户,输入相同的查询词,也会因为所在的时间和场合的不同,需求有所变化。
搜索引擎的三个目标:更全,更快,更准。
3个核心问题:
1.用户真正的需求是什么
2.哪些信息是和用户需求真正相关的(搜索引擎本质是一个匹配的过程,即从海量数据里面找到能够匹配用户需求的内容。)
3.哪些信息是用户可以信赖的

    推荐阅读