杂谈|Google的佩奇等级

佩奇等级(PageRank)是Google在20实际90年代后期超越其他搜索引擎的一个重要的概念和法宝。“佩奇等级”是Google算法的重要内容。2001年9月Google呗授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,pagerank里面的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
“佩奇等级”是一个拥有5亿个变量和2000万定义的数学平衡式,是Google搜索的核心技术之一。佩奇等级着重考察网站的权威性,即越有权威的网站越容易被其他网站主动连接。被连接的越多,就意味着被其他网站投票越多,。这个就是所谓的“连接流行度”一一衡量多少人愿意将他们的网站和您的网站挂钩。
佩奇初衷是非常理想化的,他认为,一个网站的好坏不是由网站自己吹嘘出来的,也不是网站自己作假出来的,而是大家评选出来的,你连接一个网站,那个网站就获得一票。这样的评比结果很难被操纵,网站的排名也就很难作弊获得。但是这个逻辑现在一样遭遇了挑战。搜索引擎优化者为了提升网站的佩奇等级价值,总是在试图获取最多的导入链接,因为一个导入链接就相当于一个票数。更多的网主靠虚假的链接来积累这些所谓的投票来作弊。因此Google现在对于搜索的排名不像以前那样重视佩奇等级了。
佩奇等级评价一个网页用1-10的数字来显示在Google工具栏中可能看到佩奇等级值,简称PR。PR值越大就表示网站越重要。在Google的工具栏上用鼠标指向PageRank的绿色条,就可以看到比如7/10这样的表示。这就是说,摸一网页的PageRank是7
但是在这个工具栏中显示的其实是toolbar PR,它对应的是一个真实的对数范围。在一些情况下,从工具栏上看到的PR不是很准确,有些工具栏式猜出来的。
佩奇等级的心脏是一个数学公式。它看起来挺害怕的,然而实际上执行的是简单的概率分析,在其中并没有复杂的理论。这里我简单的解释一下。
公式
PR(A)=(1-d)+d(PR(Ti)+……+PR(Tn)/C(Tn))
其中:
·PR(A):网页A的佩奇等级(PR)。
·PR(Ti):连接网页A的网页Ti的佩奇等级(PR)。“i”可以从0到n,“n”是连接的总数,这个链接可以来自任何网站的导入链接。
·C(Ti)往其他网站链接的数量
【杂谈|Google的佩奇等级】·d:阻尼系数,介于0到1之间,Google设为0.85。

    推荐阅读