前言
在Google诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配用户查询词进行排名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。本节就简要探讨链接在搜索引擎排名中的应用原理。
在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。比如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和视频的内容从而排名。
不同文字的页面排名也成为可能。比如在百度或google.cn 搜索“SEO”,都可以看到英文和其他文字的SEO网站。甚至搜索“搜索引擎优化”,也可以看到非中文页面,原因就在于有的链接可能使用“搜索引擎优化”为锚文字指向英文页面。
链接因素现在已经超过页面内容的重要性。不过理解链接关系比较抽象,页面上的因素对排名的影响能看得到,容易直观理解。举个简单的例子,搜索一个特定关键词,SEO人员只要观察前几页结果,就能看到:关键词在标题标签中出现有什么影响,出现在最前面又有什么影响,有技术资源的还可以大规模地统计,计算出关键词出现在标题标签中不同位置与排名之间的关系。虽然这种关系不一定是因果关系,但至少是统计上的联系,使SEO人员大致了解如何优化。
链接对排名的影响就无法直观了解,也很难进行统计,因为没有人能获得搜索引擎的链接数据库。我们能做的最多只是定性观察和分析。
下面介绍的一些关于链接的专利,多少透露了链接在搜索引擎排名中的使用方法和地位。
一、李彦宏超链分析专利
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。
这其实就是现实生活中链接关系的应用:要判断哪个页面(人)最具权威性,不能光看页面(人)自己怎么说,还要看其他页面(人)怎么评价。
李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这是非常具有前瞻性的研究工作,比 Google创始人发明PR要早得多。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十七八年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂得多。
这份专利所有人是李彦宏当时所在的公司,发明人是李彦宏本人。感兴趣的读者可以在下面这个地址查看美国专利局发布的“超链文件检索系统和方法”专利详情:
http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=5,920,859
二、HITS算法
HITS是英文Hyperlink-Induced Topic Search的缩写,意译为“超链诱导主题搜索”。HITS 算法由Jon Kleinberg 于1997年提出,并申请了专利:
http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6,112,202
按照 HITS 算法,用户输入查询词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的
是所有导入链接所在页面的枢纽值之和。
上面的定义比较拗口,我们可以简单地说,HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
典型的枢纽页面就是如雅虎目录、开放目录或好123这样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS 算法在搜索引擎中并不常用。不过 HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。当你的网站不能成为权威页面时,就让它成为枢纽页面。所以导出链接也是当前搜索引擎排名因素之一。绝不链接到其他网站的做法,并不是好的SEO方法。
三、TrustRank算法
TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank可以翻译为“信任指数”。
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研空,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。感兴趣的读者可以在下面这个网址下载PDF 文件:
http://www.vldb.org/conf/2004/RS15P3.PDF
TrustRank算法并不是由Google提出的,不过由于Google所占市场份额最大,而且TrustRank 在Google排名中也是一个非常重要的因素,所以有些人误以为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。反之则不成立,也就是说,坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,试图提高自己的信任指数。
基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近,
所传递的信任指数越高,离第一级网站点击距离越远,信任指数将依次下降。这样,通过TrustRank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。
计算TrustRank值首先要选择一批种子网站,然后人工查看网站,设定一个初始TrustRank值。挑选种子网站有两种方式,一种是选择导出链接最多的网站,因为TrustRank算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向PR值”比较高。
另一种挑选种子网站的方法是选PR值高的网站,因为PR值越高,在搜索结果页面出现的概率就越大。这些网站才正是TrustRank算法最关注的、需要调整排名的网站。那些PR值很低的页面,在没有TrustRank算法时排名也很靠后,计算TrustRank意义就不大了。
根据测算,挑选出两百个左右网站作为种子,就可以比较精确地计算出所有网站的TrustRank值。
计算TrustRank随链接关系减少的公式有两种方式。一种是随链接次数衰减,也就是说如果第一层页面TrustRank指数是100,第二层页面衰减为90,第三层衰减为80。第二种计算方法是按导出链接数目分配TrustRank 值,也就是说,如果一个页面的TrustRank值是100,页面上有5个导出链接,每个链接将传递20%的TrustRank值。衰
减和分配这两种计算方法通常综合使用,整体效果都是随着链接层次的增加,TrustRank值逐步降低。
得出网站和页面的TrustRank值后,可以通过两种方式影响排名。一种是把传统排名算法挑选出的相关页面,根据TrustRank值比较,重新做排名调整。另一种是设定一个最低的TrustRank值门槛,只有超过这个门槛的页面,才被认为有足够的质量进入排名,低于门槛的页面将被认为是垃圾页面。从搜索结果中过滤出去。
虽然TustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。TrustRank 算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank 值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
四、Google PR
PR是PageRank的缩写。Google PR理论是所有基于链接的搜索引擎理论中最有名的。SEO人员可能不清楚本节介绍的其他链接理论,但不可能不知道PR。
PR是Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此PR值也就越高。
Google PR有点类似于科技文献中互相引用的概念,被其他文献引用较多的文献,很可能是比较重要的文献。
1. PR的概念和计算
我们可以把互联网理解为由结点及链接组成的有向图,页面就是一一个个结点, 页面
之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于链接所在页面的PR
值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。传递的PR值也取决
于页面上的导出链接数目。对于给定PR值的页面来说,假设能传递到下级页面100份
PR,页面上有10个导出链接,每个链接能传递10份PR,页面上有20个导出链接的话,
每个链接只能传递5份PR。所以-一个页面的PR值取决于导入链接总数,链接源页面的
PR值,以及链接源页面上的导出链接数目。
PR值计算公式是:
PR(A)= (1-d) + d(PR(t1)/C(t1)+… + PR(tn)/C(tn))
A代表页面A。
PR(A)则代表页面A的PR值。
d为阻尼指数。通常认为d=0.85。
t1…tn代表链接向页面A的页面t1到tn。
C代表页面上的导出链接数目。C(t1)即为页面t1上的导出链接数目。
从概念及计算公式都可以看到,PR值必须经过多次迭代计算才能得到。页面ARD
PR值取决于链接向A的页面t1至tn页面的PR值,而t1至tn页面的PR值又取决于其他
页面的PR值,其中很可能还包含页面A。计算时先给所有页面设定一个初始值,经过
一定次数的迭代计算后,各个页面的PR值将趋于稳定,收敛到一个特定值。研究证明,
无论初始值怎么选取,经过迭代计算的最终PR值不会受到影响。
对阻尼系数做个简要说明。考虑如图所示这样一个循环(实际网络上是一定存
在这种循环的)。
外部页面Y向循环注入PR值,循环中的页面不停迭代传递PR,如果没有阻尼系数,
循环中的页面PR将达到无穷大。引入阻尼系数,使PR在传递时自然衰减,才能将PR
计算稳定在一个值上。
2.PR的两个比喻模型
关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样, A页面链
接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。同时,A
页面本身的PR值决定了A所能投出去的投票力, PR值越高的页面,投出的票也更重要。
在这个意义上,传统基于关键词匹配的算法是看页面自己说页面内容是什么,基于链接
的PR则是看别人怎么评价一个页面。
第二个是随机冲浪比喻。假设一个访问者 从一个页面开始,不停地随机点击链接,
访问下一个页面。有时候这个用户感到无聊了,不再点击链接,就随机跳到了另外-一个
网址,再次开始不停地向下点击。所谓PR值,就是一个页面在这种随机冲浪访问中被
访问到的概率。一个页面导入链接越多,被访问到的概率就越高,因此PR值也越高。
阻尼系数也与随机冲浪模型有关。(1-d)=0.15 实际上就是用户感到无聊,停止点击,
随机跳到新URL的概率。
3.工具条PR
真正的用于排名计算的Google PR值我们是无法知道的,我们所能看到的只是
Google工具条PR值。需要清楚的是,工具条PR值并不是真实PR值的精确反映。真实
PR值是一个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经规范化为
0~10这11个数字,是一个整数,也就是说PR值最小的近似为0,最大的近似为10。
实际,上每一个工具条PR值代表的是很大一个范围,工具条PR5代表的页面真实PR值
可能相差很多倍。
真正的PR值是不间断计算更新中的,工具条PR值只是某一个时间点上真实PR值
的简化快照输出。在过去10多年中,Google快则每个月更新一次工具条 PR,慢则近
一年更新一次。2014年 10月,Google 员工John Mueller在一次视频问答中表示,
Google 以后可能不会更新工具条PR了。最后一次工具条PR更新是2013年12月6日,而且那
次也是Google 工程师在做别的事情时顺便(估计是不小心或不得已)输出的,不是计
划中的,所以基本上可以肯定,以后Google不会再更新工具条PR值了。最近几年工具
条PR值更新的日期如表所示。
2013年12月6号
2013年2月4号
2012年11月7号
2012年8月2号
2012年5月3号
2012年2月6号
2011年11月8号
工具条PR与反向链接数目呈对数关系,而不是线性关系。也就是说如果从PR1到PR2需要的外部链接是100个,从PR2到PR3则需要大致1000个,PR5到PR6需要的外部链接则更多。所以PR值越高的网站想提升一级所要付出的时间和努力比PR值比较低的网站提升一级要多得多。
4.关于PR的几个误解
PR的英文全称是 PageRank。这个名称来源于发明人佩奇(Page)的名字,巧合的是Page在英文中也是页面的意思。所以准确地说PageRank这个名字应该翻译为佩奇级别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把PR称为页面级别。
PR值只与链接有关。经常有站长询问,他的网站做了挺长时间,内容也全是原创的,怎么R还是零呢?其实PR与站长是否认真、做站多长时间、内容是否原创都没有直接关系。有反向链接就有PR,没有反向链接就没有PR。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,所以会间接提高PR值,但这并不是必然的。
,工具条PR值更新与页面排名变化在时间上没有对应关系。在工具条PR值更新过程中,经常有站长说PR值提高了,难怪网站排名也提高了。可以肯定地说这只是时间上的巧合而已。前面说过,真实的用于排名计算的PR是连续计算更新的,随时计入排名算法。我们看到的工具条PR几个月才更新一次,最后一次更新已经是2013年12月。
即使在工具条PR还更新时,当我们看到有PR变化,真实的PR早在几个月之前就更新和计入排名里了。所以,通过工具条PR变化,研究PR值与排名恋化之间的关系是没有意义的。
5.PR的意义
Google工程师说过很多次,Google PR现在已经是一个被过度宣传的概念,其实PR只是Google排名算法的200多个因素之一,而且重要性已经下降很多,SEO人员完全不必太执着于PR值的提高。这可能就是Google不再更新工具条PR值的原因。
当然,PR还是Google排名算法中的重要因素之一。除了直接影响排名,PR的重要性还体现在下面几点。
(1)网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。Google希望尽量优先收录重要性高的页面,所以PR值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页PR值是带动网站收录的重要因素之一。
(2)访问及更新频率。PR值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现新页面或旧页面上内容更新时,都能更快速地被收录。由于网站新页面通常都会在现有页面上出现链接,因此访问频率高也就意味着新页面被发现的速度快。
(3)重复内容判定。当Google在不同网站上发现完全相同的内容时,会选出一个作为原创,其他作为转载或抄袭。用户搜索相关查询词时,被判断为原创的那个版本会排在前面。而判断哪个版本为原创时,PR值也是重要因素之一。这也就是为什么那些权重高、PR值高的大网站,转载小网站内容却经常被当作原创的原因。
(4)排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件进行相关性计算,因为返回的文件可能有几百万、几千万,搜索引擎需要从中挑选出一个初始子集,再做相关性计算。初始子集的选择显然与关键词相关度无关,而只能从页面的重要程度着手,PR值就是与关键词无关的重要度指标。
现在的PR算法与当初拉里佩奇专利中的描述相比肯定有了改进和变化。一个可以观察到的现象是,PR算法应该已经排除了一部分Google认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。所以有时候我们会看到一个页面有PR6甚至PR7的导入链接,经过几次工具条PR更新后,却还维持在PR3甚至PR2。按说一个PR6或7的链接,应该能把被链接的页面带到PR5或PR4。所以很可能 Google已经把一部分它认为可疑的链接排除在PR计算之外。
再比如,同一个页面上不同位置的链接是否应该传递出去相同数量的PR值?正文、侧栏导航、页脚的链接应该同等对待吗?按照最初的PR设计,是的,因为没有考虑链接位置。但显然,不同位置的链接重要性是不一样的,被真实用户点击的概率也是不一样的,那么传递出去的PR值是否也应该不-样呢﹖现在的Google PR值算法中是否已
经引入了矫正呢?
PR专利发明人是拉里佩奇,专利所有人是斯坦福大学,Google公司拥有永久性他使用权。
虽然PR是Googlc拥有专利使用权的算法,但其他所有主流搜索引擎也都有类似
算法,只不过不称为PR而已。所以这里提到的PR的作用和意义,同样适用于其他搜
索引擎。
五、Hilltop算法
Hilltop 算法是由Krishna Baharat在2000年左右所研究的,于2001年申请了专利,并且把专利授权给Google使用,后来Krishna Baharat本人也加入了Google。
Hilltop 算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。比如一个PR值极高的关于环保内容的大学页面,上面有一个链接连向一个儿童用品网站,这个链接出现的原因可能仅仅是因为这个大学页面维护人是个教授,他太太在那个卖儿童用品的公司工作。这种
与主题无关、却有着极高PR值的链接,有可能使一些网站获得很好的排名,但其实权威性、相关性并不高。
Hiltop算法就尝试矫正这种可能出现的疏漏。Hilltop 算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然,针对不同主题或搜索词有不同的专家文件。
根据Hilltop算法,用户搜索查询词后,Google先按正常排名算法找到一系列相关页面并排名,然后计算这些页面有多少来自专家文件的、与主题相关的链接,来自专家文件的链接越多,页面的排名分值越高。按Hilltop算法的最初构想,一个页面至少要有两个来自专家文件的链接,才能返回一定的Hilltop值,不然返回的Hilltop值将为零。
根据专家文件链接计算的分值被称为LocalRank。排名程序根据LocalRank值,对原本传统排名算法计算的排名做重新调整,给出最后排名。这就是前面讨论的搜索引擎排名阶段最后的过滤和调整步骤。
Hilltop算法最初写论文和申请专利时对专家文件的选择有不同描述。在最初的研究中,Krishna Baharat把专家文件定义为包含特定主题内容,并且有比较多导出链接到第三方网站的页面,这有点类似于HITS 算法中的枢纽页面。专家文件链接指向的页面与专家文件本身应该没有关联,这种关联指的是来自同一个主域名下的子域名,来自相同或相似P地址的页面等。最常见的专家文件经常来自于学校、政府及行业组织网站。
在最初的Hilltop算法中,专家文件是预先挑选的。搜索引擎可以根据最常见的搜索词,预先计算出一套专家文件,用户搜索时,排名算法从事先计算的专家文件集合中选出与搜索词相关的专家文件子集,再从这个子集中的链接计算LocalRank值。
不过在2001年所申请的专利中,Krishna Bztiarat描述了另外一个挑选专家文件的方法,专家文件并不预先选择,用户搜索特定查询词后,搜索引擎按传统算法挑出一系列初始相关页面,这些页面就是专家文件,Hilltsp算法在这个页面阿台中再次计算哪些网页有来自于集合中其他页面的链接,赋予比较高的LocalRank值。由于传统算法得到的页面集合已经具备了相关性,这些页面再提供链接给某一个特定页面,这些链接的权重自然应该很高。这种挑选专家文件的方法是实时进行的。
通常认为Hilltop算法对2003年年底的佛罗里达更新有重大影响,不过 Hilltop算法是否真的已经被融入进Google排名算法中,没有人能够确定。Google从来没有承认,也没有否认自己的排名算法中是否使用了某项专利,不过从排名结果观察及招揽Krishna Baharat至麾下等迹象看,Hilltop算法的思想得到了Google的极大重视。
Hilltop 算法提示SEO,建设外部链接时更应该关注主题相关,并且本身排名就不错的网站和页面。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。这里说的排在前面,包括排在前几百位的,而不仅仅是普通用户会看的前二三十名,排在前几百名都已经算是专家文件了。
未完待续…