网站首页 > 生活 > 理财 > 简单的中文分词算法

简单的中文分词算法

2017-11-10 11:20:00 来源: 未知 用户关注:

作者:邓旭东HIT想了解点中文文本处理的底层一些的知识,在网上查了下跟python有关的文本分析书记,意外发现一本新书。书籍简介本书是一本研究汉语自然语言处理方


大数据

作者:邓旭东HIT

想了解点中文文本处理的底层一些的知识,在网上查了下跟python有关的文本分析书记,意外发现一本新书。

书籍简介

本书是一本研究汉语自然语言处理方面的基础性、综合性书籍,涉及NLP的语言理论、算法和工程实践的方方面面,内容繁杂。

本书包括NLP的语言理论部分、算法部分、案例部分,涉及汉语的发展历史、传统的句法理论、认知语言学理论。需要指出的是,本书是系统介绍认知语言学和算法设计相结合的中文NLP书籍,并从认知语言学的视角重新认识和分析了NLP的句法和语义相结合的数据结构。这也是本书的创新之处。

本书适用于所有想学习NLP的技术人员,包括各大人工智能实验室、软件学院等专业机构。

分词

中文NLP比外文要难,难在第一步就是要将文本进行切词。我们知道中文常用字也就3500左右,但单个的字往往意义不多,对理解句子意思帮助不大。

而且中文词之间没有空格等标识符,这更增加了中文NLP的难度。

NLP第一步,就是从分词开始,目前市面上有ICTCLASS,jieba,HanNLP等,了解其分词算法,对更好的学习编程,使用编程语言处理文本数据大有裨益。汉语(其实也包括其他语言)有两大分词算法,最大匹配算法(MM)和隐马尔可夫算法(HMM)。

最大匹配分词算法

最大匹配分词算法比较简单,学起来一点也不烧脑筋。使用前提是有自己的领域词典。最早是由苏联汉俄翻译学者提出(文科生诶),简称MM(The Maximum Method),基本思想:

有一待处理字符串str1,假设已有词典中的最长词条字符长度为a,取被处理字符串(str1),从中截取出a长度的字符串记做str2,将str2与词典中词条一一匹配,如果词典中有str2,那么str2从str1中切分出来,作为一个词。

如果词典中没有str2,那么从str1中截取a-1长度的字符串记做str3,还是进行上面的匹配步骤,如果str3在词典中,str3作为一个词,反之,继续缩短字符串长度。

直到切分成功为止。即完成一轮匹配,并切出一词。

小案例

上面说的有点绕口,还是举个简单的例子看看

例如,现有短语“计算机科学和工程”,假设词典中最长词为7,于是先取“计算机科学和工”为匹配字段,来匹配词典,由于词典中没有改词,故匹配失败;

去掉最后一个汉字成为“计算机科学和”作为新的匹配字段,重新匹配词典,同样匹配失败;

取“计算机科学”作为新字段,由于词典中有“计算机科学”一词,从而匹配成功,切出的第一个词为“计算机科学”。

以此类推,直至切分出第二、第三。。。个词

分析总结

使用MM方法切分精度不高,实际应用意义不大。随着语料的增多,误差也逐渐变大。

基于MM的搜索方法还存在局限性,比如正向最大匹配,因为只能正向的找出最长词,而不能找出所有的候选词条。因此,后来发展出了双向扫描法,从两方向对字符串进行匹配,以尽可能多的生成候选词条,增强分词效果。

但因为没有考虑词汇上下文相关性,分词精度还是不高。

基于正向最大匹配算法的分词器准确率为78%;

基于双向匹配算法最高精度也只在80%左右徘徊。显然这不能满足高精度文本处理需求

隐马尔可夫算法

基于MM算法分词器没有得到广泛的应用,但是却揭示了一个语言规律:一个词汇的出现往往与其上下文环境中出现的词汇序列存在者紧密联系。

所谓上下文相关性是指,文中第n个词的出现与其前后n-m到n+m个词有高度的相关性,而这个敢为之外的其他词相关性较低,我们把[-m,m]范围叫做窗口范围。

为了将分析简单化,我们只考虑单侧情况。文本中第n个词出现与其前面的i-n个词相关(0<n<i),而不考虑窗口范围之外的其他词的相关性。

大数据

将语言模型应用到中文分词中,效率和准确性大大提高。ICTCLASS就采用类似的算法,准确率已达到98%,从此,中文文本处理才变为可能。


免责声明: 本站内收录的所有内容均来自于互联网,其版权均归原作者及其网站所有,如有侵犯您的版权,请联系(1275505176@qq.com),我们将及时删除。并同时向您表示歉意!

你与千元大奖,只差一个萌宝!

家有萌宝的亲爹亲妈粉们, 这可能是你们距离千元大奖最近的一次了! 毕竟, 这次获奖需要的技能绝对都是你们的强项! 辣就是:晒娃! 320 看山看水看春色 晒花晒草晒萌宝 这次活动,刚好是你的…

2017-03-13 16:25:00

万万没想到内蒙古这些美景,竟然撑起中国影视半边天!

幻想着躺在绿油油的斜坡的草地上,对着蔚蓝的天空与大朵的白云,照着和煦的阳光打几个滚然后再美美的睡上一觉,与远处成群的牛、羊、马群为伴,远离浮华。 《狼图腾》 拍摄地:乌拉盖草原 《狼图腾》曾…

2017-03-21 17:21:00

全球变暖后将消失的8个国家,个个风景秀丽

今年冬天的北京,感觉比前几年要暖和一些。这不由让人联想到了全球气候变暖,随着气温的升高,海平面也在逐年上升,长此以往,首先将被淹没的是下面这8个国家,让人遗憾的是,这8个国家各个风光迷人,景色秀丽。 …

2017-01-19 14:17:52

南京互联网企业老板举家失联 留7亿元债务

现代快报记者看到,汉恩数字文化创意产业园大楼尚未封顶  原标题:南京一互联网新星企业老板举家失联  一家看似蒸蒸日上的互联网企业,有一定的知名度,有上百名员工,却在一夜间发生巨变!10月24日,众多南…

2016-12-08 15:36:42

文莱这个土豪国家,没有一家酒馆,建筑用“金子”堆起来

杰米清真寺,又有名“蓝色清真寺”,伊斯兰教徒在朝拜前是要全身沐浴干净,洗干净手脚脸面才能进朝拜室的。女生必须穿着清真寺提供的袍子,男生裤子过膝盖,并寄存好随身物品方可入内。努洛伊曼皇宫,是世界最大…

2017-05-08 10:47:13

全球幸福指数最高的国度

北欧的幸福指数全球第一,可让人意想不到的是,芬兰却是忧郁症多发为国家,到底为什么会这样.地广人稀只是其中一个原因之一,主要是这里的夏天白天只有数小时的日照,白天无边的黑暗容易让人们心情低落.离开圣诞老人的…

2017-05-08 10:56:28

各国旅行地购物退税攻略(全文)

购物退税,顾名思义就是退还商品缴纳的税款,退税额一般是商品价格的15%-16%,有些已打折的商品可能会更低,相当于“折上再返现”,金额十分可观。 要注意的是,留学生和15岁以及15岁以下的未成年人是不能享受退…

2017-05-06 10:30:44

柳岩胸大到都压坏了她的腰,大胸妹子怎么穿才能改善胸型?

当沧桑将在人生道路上画上一个句号时,再回首,却发现失去了太多,留下的是遗憾,何等的无奈,岁月已向你招手,一切无法挽留。睡梦中感到幸福温暖。醒来却是无形的压力和责任,压得自己喘不过气来,现实如此,只…

2017-08-15 00:06:14

推女郎张圆圆巨乳无圣光图片 超级美胸写真秀

张圆圆推女郎巨乳无圣光原图。张圆圆瓜子脸蛋细緻五官,同时又拥有36G傲人上围与完美腿部曲线,很多人都觉得模特张圆圆就是天生为模特这个行业而生的。因为张圆圆天生巨乳,有着完美身材。 ​ ​ ​ ​ ​ …

2017-07-04 00:08:34

性感酥胸美女 酥胸美女张圆圆私房撩人惊艳写真

张圆圆瓜子脸蛋细緻五官,同时又拥有36G傲人上围与完美腿部曲线,很多人都觉得模特张圆圆就是天生为模特这个行业而生的。因为张圆圆天生巨乳,有着完美身材。

2017-07-04 00:05:43

网络红人YOYO苏小苏无马赛克露点写真图

下载原图 下载原图 下载原图 下载原图 下载原图 下载原图 下载原图 下载原图 下载原图 下载原图

2017-07-04 00:02:06
相关文章
    暂无相关的资讯...
网友评论

文章推荐

热文阅读

推荐阅读

微信二维码
手机二维码
关于我们