缘奇科普-奇怪的知识又增加了

什么是搜索预处理-缘起博客

原创版权 未知 字体大小选择: [ ]

 
搜索引擎预处理,预处理
 
在一些SEO材料中,“搜索引擎预处理”也被简称为“索引”,因为索引是预处理最主要的内容。

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关

性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。


1.提取文字


现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法

用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。

比如下面这段HTML代码:

<div id="post-1100" class="post-1100 post hentry category-seo">

<div class="posttitle">

<h2><a

href="http://www.yaunqibk.com/seo/fools-day/"

rel="bookmark" title="Permanent Link to 今天愚人节哈">今天愚人节哈</ a></h2>

除去HTML代码后,剩下的用于排名的文字只是这一行:

今天愚人节哈

除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

2.中文分词


分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面内容及用户查询都是以词为基础的。英文等语言单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把

句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。

比如“减肥方法”将被分词为“减肥”和“方法”两个词。


中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。


基于词典匹配的方法是指,将待分析的一段汉


个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。

按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向

最大匹配、逆向最大匹配等不同方法。


词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。


基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应

更快速,也有利于消除歧义。


基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“搜索引擎优化”,如图2-27所示,从快照中可以看到,百度把“搜索引擎优化”这六个字当成一个词。

 百度快照显示的对“搜索引擎优化”的分词结果

而在Google搜索同样的词,如图2-28所示,快照显示Google将其分切为“搜索”、“引擎”和“优化”三个词。显然百度切分得更为合理,搜索引擎优化是一个完整的概念。Google分

词时倾向于更为细碎。

快照显示的对“搜索引擎优化”的分词结果

再举一个更明显的例子。在Google搜索“点石互动”四个字,如图2-29所示,快照显示Google将其切分为“点”,“石”及“互动”三个词。“点石互动”这个中文SEO领域最知名的品牌,

显然并没有进入Google的词典中。

图2-29 Google快照显示的对“点石互动”的分词结果


在百度搜索“点石互动”时会发现,百度将“点石互动”当作一个词。甚至在百度搜索“点石大会报名”,可以发现百度把“点石大会”都当成一个词,如图2-30所示。

百度快照显示的对“点石大会报名”的分词结果

这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢查询词完整匹配出现的页面,也就是说搜索“点石互动”时,这四个字连续完

整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。一些页面出现“点石”和“互动”两个词,但不必完整匹配地出现,“点石”出现在前面,“互动”出现在页

面的其他地方,这样的页面在Google搜索“点石互动”时,也可以获得不错的排名。


需要说明的是,快照只能在某些情况下帮助我们大致猜测搜索引擎的分词处理,但这不是一个通用可靠的方法,很多时候我们并不能从快照中看出搜索引擎是怎么分词的。比如

在百度搜索一些很长的词甚至句子,对于不同网站,百度快照有时候将整个句子标为同一个颜色,有时候又分为不同颜色的词的组合。即使在快照中将整个句子标为同一个颜

色,显然百度也不是将整个句子分为一个词。


搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做得很少。唯一能做的是在页面上用某种形式提

示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和

服”这两个字特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。


3.去停止词


无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之

类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the, a, an, to, of等。

搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。


4.消除噪声


绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档

等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完

全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。


搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复

出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。


5.去重


搜索引擎还需要对页面进行去重处理。


同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,

用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。


“去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指

纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不

大了。

 

发表评论 (已有 条评论)

  

评论列表

    快来评论,快来抢沙发吧~