缘奇科普-奇怪的知识又增加了

利用分词算法布局关键词告别堆砌快速排名!

原创版权 燃灯 字体大小选择: [ ]

分词算法


如果你想成为一个专业的seo,那么搜索引擎的分词思维必须掌握,因为只有掌握分词思维,你才能定位搜索引擎喜欢,用户喜欢关键词,从而挖掘更深层次的seo技术。

也许有些新朋友认为中文分词理论比较复杂,但是你完全掌握了这些理论中必要的词,没有太多的意义,你只知道计算方法和如何做好每个网络分词都可以,现在陈老师就为大家详细的介绍一下百度的中文分词技术。

 

 


一、什么是中文分词?

百度分词技术是对用户提交的关键词串进行查询处理后,百度根据用户关键字串使用各种匹配技术。

中文分词是指将一个汉字序列分割成单个单词的过程。分词是指根据一定的规范将连续的单词序列重新组合成单词序列的过程。所谓的分词是指将一个由单词连接在一起的汉语句子分成几个独立的、完整的、正确的单词的过程。单词是最小的、独立的和有意义的语言成分。

我们知道,在英语中,单词之间的空间作为一条自然的分界线,而汉语只能通过一条明确的分界线来划分单词、句子和段落,但只有单词没有正式的分界线,虽然英语也存在词组的划分,但在词汇层面上,汉语比英语更加复杂和困难。

中文分词是文本挖掘的基础。对于中文的一个输入段,一个成功的中文分词可以达到计算机自动识别句子意义的效果。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词?哪些不是词?但如何让计算机也能理解?其处理过程就是分词算法。

计算机的所有语言知识都来自机器词典(给出各种各样的单词信息)、句法规则(描述词类各种组合中单词的集合)以及相关单词和句子的语义、上下文和语用知识库。只要中文信息处理系统涉及句法、语义(如检索、翻译、摘要、校对等应用),就需要以词为基本单位。只有当汉字从句子转换成单词时,文本处理如句法分析、句子理解、自动摘要、自动分类和机器翻译才是可行的。可以说分词是机器语言学的基础。


二、中文分词的思路及原理

首先,我们需要知道的是,搜索引擎的工作原理是将每个网页的内容通过单词输入到数据库中,例如,你的文章标题是:“陈老师SEO提供免费的SEO实践培训教程”,然后搜索引擎将这个标题分为已经存储在搜索引擎字典中的单词和用户经常注意的单词,例如:SEO培训,提供,免费,SEO教程,SEO实践培训,免费SEO教程,免费SEO培训和SEO培训等。

主要人们可以理解这种思维可以,所以文章对每个词或单个词进行分词是搜索引擎做的第一页,也是最重要的一步,因为只有分词,才能准确地反馈给用户价值。

对于一个专业的网站优化器来说,中文分词的方法也是非常重要的,因为在主人将每个要优化的单词切分后,他可以更好地优化每个网页,并且可以更清楚地告诉搜索引擎这个网站代表什么,以提高搜索引擎的排名。同时,他也能清楚地告诉用户你的网页应该表达什么。这是陈先生从事搜索引擎优化服务以来最深刻的体验。通常一个网页的分词是错误的,没有多少努力是徒劳的,因为搜索引擎优化推广公司非常有效率,低效率意味着太低的投资和回报率,这是一个错误的战略,企业没有合理利用资源。

 

 


三、中文分词的应用

在自然语言处理技术中,中文处理技术远远落后于西方语言处理技术。许多西方语言处理方法不能直接用于汉语,因为汉语必须有一个切分过程。中文分词是其他中文信息处理的基础。搜索引擎只是中文分词的一个应用。其他方法,如机器翻译、语音合成、自动分类、自动摘要、自动校对等,都需要分割。

因为中文需要分词,这可能会影响一些研究,但同时也给一些企业带来机遇,因为如果国外的计算机处理技术想要进入中国市场,就必须首先解决中文分词的问题。

分词的准确性对搜索引擎来说非常重要,但是如果分词的速度太慢,即使准确率很高,搜索引擎也无法获得它,因为搜索引擎需要处理数亿个网页。如果分词时间过长,将严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。


四、中文分词技术的特殊性

据陈老师了解,在计算机网络上,之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:

1.以英语为代表的拉丁语言相比,英语使用空格作为自然分隔符,而汉语没有词与词之间的分隔,因为它继承了古代汉语的传统。

在古代汉语中,除了连续词、人名和地名之外,单词通常是单个汉字,所以当时没有必要写分词。在现代汉语中,大多有两个或更多的词,一个词不再等同于一个词。

2.在汉语中,“词”和“短语”的界限是模糊的。虽然现代汉语的基本表达单位是“词”,大多是双词或多词,但由于理解水平不同,很难区分词和短语的界限。

例如:随地吐痰的处罚,随地吐痰的处罚本身就是一个词或一个短语,不同的人会有不同的标准,相同的海上酒馆等等,甚至同一个人也会作出不同的判断,如果中国人真的要写字,就不可避免地会困惑、困难。

中文分词方法不仅仅局限于中文的应用,而且还应用于英文处理,如手写识别、词汇之间的空间非常清晰,中文分词方法可以帮助识别英文词汇的边界。


五、分词算法的分类

现有的分词算法可分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法也被称为机械分词方法。它根据某种策略将待分析的中文字符串与“足够大”的机器字典中的条目进行匹配。如果在字典中找到某个字符串,则匹配成功(识别出一个单词)。

根据扫描方向的不同,字符串匹配分割方法可分为正向匹配和反向匹配。根据不同长度的优先匹配,可分为最大(最长)匹配和最小(最短)匹配。几种常用的机械分词方法如下:

1.1、正向最大匹配法(由左到右的方向)

首先,根据句子把文本切成一个句子,然后把每个句子切成一个单词,字典根据树的结构存储,如字符spring会远吗?首先查找字符spring在单词开头,然后根据字典树结构下一个节点,找到字符spring在单词是天之后,然后下一个节点,找到返回的是意符,找不到,搜索结束。

1.2、逆向最大匹配法(由右到左的方向)

它是在相反的方向寻找匹配的字符,例如在网上购物中心的字符串,然后它将扩展到左边。结果将是区域性的字符,例如上海或北京,更精确定义的字符将出现在购物中心前面,例如具有强烈特异性的字符,比如爱家,女人等专属性强的文字符。

1.3、最少切分法

为了最大限度地减少每个句子中的单词数要利用各种其他语言信息进一步提高分词的准确性。

1.4、双向最大匹配法(从左向右和从右向左扫描)

前向最大匹配法和反向最大匹配法相结合形成双向匹配法,即从左右深度挖掘匹配结果值。

上述方法也可以相互结合。例如,前向最大匹配方法和反向最大匹配方法可以组合以形成双向匹配方法。由于汉语词汇的特点,很少使用正向最小匹配和反向最小匹配。

一般来说,反向匹配的分割精度略高于正向匹配,遇到的歧义现象较少。统计结果表明,单独使用正向最大匹配的错误率为1/169,单独使用反向最大匹配的错误率为1/245。然而,这种准确性远远不能满足实际需要。实际的分割系统使用机械分割作为初始分割方法,并通过使用各种其他语言信息来进一步提高准确率。

一种方法是改进扫描方法,称为特征扫描或标记分割。从待分析的字符串中优先识别并分割出一些具有明显特征的单词。使用这些单词作为断点,可以将原始字符串分成更小的字符串,然后进行机械分割,从而降低匹配错误率。

另一种方法是将分词和词类标注相结合,利用丰富的词类信息来帮助分词决策,并在标注过程中反过来检查和调整分词结果,从而大大提高分词的准确性。

对于机械分词方法,可以建立通用模型。在这个领域有专业的学术论文,这里就不详细讨论了。

2、基于理解的分词方法

这种分词方法通过计算机模拟人们对句子的理解来达到识别单词的效果。其基本思想是在分词的同时分析句法和语义,利用句法和语义信息处理歧义。它通常包括三个部分:分词子系统、句法语义子系统和通用控制部分。

在通用控制部分的协调下,分词子系统可以获得关于单词、句子等的句法和语义信息。判断分词的歧义性,即模拟人们理解句子的过程。这种分词方法需要大量的语言知识和信息。由于汉语知识的普遍性和复杂性,很难将各种语言信息组织成机器可以直接阅读的形式。因此,基于理解的分词系统仍处于实验阶段。

3、基于统计的分词方法

就形式而言,词是词的稳定组合,因此在上下文中,相邻词同时出现的次数越多,就越有可能形成一个词。因此,词与词的共现频率或概率能更好地反映构词的可信度。可以计算语料库中相邻共现词的组合频率,计算它们的共现信息,定义两个词的共现信息,并计算两个汉字X和Y的相邻共现的共现概率。共现信息反映了汉字之间的衔接程度。当内聚度高于某个阈值时

这种方法只需要统计语料库中词组的出现频率,不需要划分词典,因此也称为无词典分词或统计选词法。然而,这种方法也有一定的局限性。它通常会抽取一些共现频率较高的常用词组,但不会抽取,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。

实际的统计分词系统使用基本分词词典(常用词典)进行串匹配分词,并使用统计方法识别一些新词,即串频率统计与串匹配相结合,既发挥了匹配分词速度快、效率高的特点,又利用无词典分词与上下文相结合的优势识别新词并自动消歧。

另一种是基于统计机器学习。首先,给出了大量的分割文本。统计机器学习模型用于学习分词规则(称为训练),从而实现对未知文本的切分。我们知道汉语中的每个单词单独作为一个单词使用的能力不同。此外,有些词经常作为前缀出现,而另一些词经常作为后缀出现(“着”和“兴”),结合两个词是否临时用作词的信息。通过这种方式,我们获得了很多关于分词的知识。这种方法是充分利用汉语词的分组规则对词进行切分。这种方法的最大缺点是需要大量的预切分词库来支持,训练过程中的时间和空间开销巨大。

目前,对于哪种分割算法具有更高的精度还没有明确的结论。对于任何成熟的分割系统来说,不可能依靠单一的算法来实现,需要集成不同的算法。例如,大众科技的分割算法采用“复合分割法”。所谓复合法,是指综合运用机械方法和知识方法,如中西医结合。对于一个成熟的中文分词系统,需要多种算法来综合处理问题。


六、中文分词的技术难点

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。汉语是一种非常复杂的语言。对计算机来说,理解中文甚至更难。在中文分词的过程中,有两个主要问题还没有完全突破。

1、歧义识别

歧义是指同一个句子。可能有两种或多种分割方法。主要有两种歧义:交集歧义和组合歧义。例如,表面歧义,因为“表面”和“表面”是词,短语可以分为“表面”和“表面”。这被称为交集歧义(交叉歧义)。

像这样的交集歧义是很常见的。前面提到的“和服”的例子实际上是由交集歧义引起的错误。“化妆与服装”可分为“化妆与服装”或“化妆与服装”。由于没有人有知识去理解,计算机很难知道哪个方案是正确的。

交集歧义比组合歧义更容易处理。组合歧义必须根据整个句子来判断。例如,“把手”是句子“这个门把手坏了”中的一个词,但是“把手”不是句子“请拿开你的手”中的一个词。在“将军任命一个中将”这句话中,中将是一个词,但在“三年后产量将翻倍”这句话中,中将不再是一个词。计算机如何识别这些单词?

如果交集型歧义和组合型歧义都能用计算机解决,那么歧义仍然是一个难题,即真正的歧义。真正的歧义是指给出一个句子,它应该是一个单词,而不是一个单词。例如,“乒乓球拍卖完成”可分为“乒乓球拍卖完成”和“乒乓球拍卖完成”。如果上下文中没有其他句子,恐怕没有人知道“拍卖”在这里是否是一个词。

2、新词识别

命名实体(人名和地名)、新词和专业术语被称为未注册词,也就是那些在分词词典中没有收录,但又确实能称为词的那些词。

最典型的是人的名字,人们可以很容易地理解,王俊虎去广州,王俊虎是一个单词,因为它是一个人的名字,但是如果计算机识别它是困难的,如果把王俊虎作为一个单词进字典,世界各地都有这么多的名字,而且每一刻都有新的人的名字,这些人的名字都是一个既符合成本效益又庞大的工程,即使工作可以完成,或者会出现问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

除人名外,还有机构名称、地名、产品名称、商标、缩略语、省略号等难以处理,这些只是人们常用的词汇,因此对于搜索引擎来说,新的词识别系统非常重要,新的词识别准确度已成为评价分词系统的重要标志之一。


总结:

对于搜索引擎来说,最重要的事情不是找到所有的结果,因为在数百亿个网页中找到所有的结果没有多大意义,也没有人能读懂它们。最重要的是把最相关的结果放在前面,这也叫相关性排名。中文分词的准确性往往直接影响搜索结果的相关性排序。从定性分析来看,不同的搜索引擎分词算法和不同的词库会影响页面的返回结果。


发表评论 (已有 条评论)

  

评论列表

    快来评论,快来抢沙发吧~