欢迎访问世纪网络官网,宝鸡网站建设SEO优化已累计服务超过900家企业!     咨询热线:13619273150

15年网站建设优化经验,900家客户的选择,值得信赖!


浅谈百度搜索引擎的中文分词技术

作者:佚名      发布时间:2012-08-13      浏览:2304

62.9K


  本篇文章浅析一下百度的中文分词技术,有不足之处还望各位有心人能指出,当然,也希望可以帮助站长们更深层的理解百度搜索引擎分词技术,做好自己的网站,获得更好的排名。

  一、百度搜索引擎中文分词技术

  百度搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的百度词组。

  二、百度搜索引擎分词技术简述

  1.基于字符串匹配的分词方法

  按照一定的策略将待分析的汉字串与一个极其百度词库中的词条进行匹配。

  常用分词的方法:

  正向最大匹配法(由左到右的方向)

  分词测试例子:我/有意/见/分歧

  反向最大匹配法(由右到左的方向)

  分词测试例子:我/有/意见/分歧

  据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

  向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

  2.基于统计的分词方法

  相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

  3.基于理解的分词方法

  在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

  三、百度搜索引擎分词技术分析

  1.最大分词词长

  分词技术归纳:少于等于3个中文字不切割

  分词技术归纳:对于大于等于4个汉字的词将被分词

  2.分词匹配算法

  分词测试查询:查询:“工地方向导”

  正向最大匹配:工地/方向/导

  反响最大匹配:工/地方/向导

  百度采用 正向最大匹配算法

  分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。



0