基于词性标注与分词消歧的中文分词方法被引量：3

Segmentation of Chinese word based on part of speech tagging and sense disambiguation

下载PDF

导出

摘要中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果. Chinese words segmentation is the premise and basis of Chinese information processing.This paper puts forward a method of segmentation based on part of speech tagging and sense disambiguation for ambiguity sets,which combines the advantage of method based on the dictionary and method based on statistics for Chinese words segmentation.This method segments word based on FMM,RMM and HMM at first.Then it compares the segmentation results with each other,and output the optimal segmentation by word information and the definition of optimal estimation function of part of speech tagging.Experimental results show that this method is able to reduce the error of sense disambiguation.

作者熊健翟紫姹 XIONG Jian;ZHAI Zi-cha(School of Economics and Statistics,Guangzhou University,Guangzhou 510006,China)

机构地区广州大学经济与统计学院

出处《广州大学学报（自然科学版）》 CAS 2019年第5期27-33,共7页 Journal of Guangzhou University:Natural Science Edition

关键词分词分词消歧最大匹配法隐马尔可夫模型词性标注 word segmentation sense disambiguation maximum matching method HMM part of speech tagging

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献15

1莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
2熊志斌,朱剑锋.基于改进Trie树结构的正向最大匹配算法[J].计算机应用与软件,2014,31(5):276-278. 被引量：11
3李一.无线搜索引擎的现状与发展[J].图书馆学研究,2007(11):32-34. 被引量：5
4谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
5麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
6汪文妃,徐豪杰,杨文珍,吴新丽.中文分词算法研究综述[J].成组技术与生产现代化,2018,35(3):1-8. 被引量：13
7杨贵军,徐雪,凤丽洲,徐玉慧.基于最大匹配算法的似然导向中文分词方法[J].统计与信息论坛,2019,34(3):18-23. 被引量：17
8奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：106
9张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：46
10李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11

二级参考文献121

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
10龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26

共引文献558

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
2秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
3冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：12
4杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
5李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
6王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
7游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：2
8蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
9杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
10宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5

同被引文献15

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
3张小荫.谓词性成分充当远宾语的双宾语构造[J].天津师大学报（社会科学版）,1998,18(6):72-76. 被引量：4
4杨贵军,徐雪,凤丽洲,徐玉慧.基于最大匹配算法的似然导向中文分词方法[J].统计与信息论坛,2019,34(3):18-23. 被引量：17
5刘桂梅.应用中文分词技术的网络推广管理系统的设计与实现[J].电子商务,2019,20(9):56-58. 被引量：2
6朱咸军,洪宇,黄雅琳,张馨予,肖芳雄.基于HMM的算法优化在中文分词中的应用[J].金陵科技学院学报,2019,35(3):1-7. 被引量：6
7张帆,郭雅鑫,杨靖,顾洪建.基于GBDT+特征工程方法对电量的预测的研究[J].电子质量,2020,0(1):1-4. 被引量：6
8匡荟芬,胡春华,吴根林,陈苗.结合主成分分析法(PCA)和正定矩阵因子分解法(PMF)的鄱阳湖丰水期表层沉积物重金属源解析[J].湖泊科学,2020,32(4):964-976. 被引量：72
9朱超逸,张顾凡.会计人员应对人工智能冲击的对策探索——基于会计人员现状的问卷调查[J].中国商论,2020(14):192-194. 被引量：7
10李代华,崔东文.基于PCA-MPA-ANFIS模型的年径流预测研究[J].水电能源科学,2020,38(7):24-29. 被引量：25

引证文献3

1杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
2周寅,龙广富.云计算平台上两种中文分词算法的实现对比研究[J].电脑知识与技术,2021,17(9):191-192. 被引量：6
3杨靖,张帆,贺畅,张磊.基于NLP文本分析和因子分析模型的调研问卷优化[J].现代商业,2021(8):99-104. 被引量：5

二级引证文献12

1杨靖,张帆,贺畅,张磊.基于NLP文本分析和因子分析模型的调研问卷优化[J].现代商业,2021(8):99-104. 被引量：5
2鲍曙光.基于数据词典的中文分词算法优化实现[J].现代信息科技,2022,6(7):80-84. 被引量：5
3杜新宇,吴俊杰.基于改进的长短期记忆网络模型的电商评论关键词提取[J].信息记录材料,2022,23(8):156-158.
4马倩茜,郭涛,唐志航.基于机器学习的商品评论特征提取有用性研究[J].湖南工程学院学报（自然科学版）,2022,32(4):47-54.
5邬亮,丁光正,王一囡.中文分词检索技术的现状与前景[J].通讯世界,2022,29(9):193-195.
6付瀚臣,徐海博.基于标签体系的客户价值评价系统应用[J].东北电力技术,2023,44(4):13-15.
7古晓东.基于NLP的数据采集系统设计与实现研究[J].数字通信世界,2024(3):17-18. 被引量：2
8周艳平,袁绍正.退役军人领域问答库自动构建方法[J].计算机与数字工程,2024,52(4):1033-1038.
9葛维浚,牛飞亮.中西部地区经济发展与旅游业的关系研究[J].北方经贸,2024(7):136-143.
10郭永利,周泽雄,孙启启,刘璐,宋瑶.基于创新产品定义体系的用户洞察和共创挖掘[J].中国汽车(中英文对照),2025,35(2):101-106.

1钟静晨,祁云嵩.电商领域中有关物流评价中文分词的研究[J].计算机与数字工程,2019,47(11):2866-2870. 被引量：2
2董祎.基于语料库的"沉默"词类标注及用法调查研究[J].兰州教育学院学报,2020,36(4):39-42.
3刘善涛,王晓.民国时期汉语语文辞书词性标注研究——以《王云五大辞典》为例[J].北方论丛,2020(1):99-106.
4杨建国,李宁,杨佳睿,马玉慧,崔春晖.基于CIM的输变电设备低温条件下全天候运行状态监测[J].机电信息,2020,0(11):11-12. 被引量：1
5刘华.全球华语语料库建设及功能研究[J].江汉学术,2020,39(1):46-52. 被引量：1
6刘颖,鹿玉红,刘敏,孙晓叶.基于LoRa无线技术的地震应急救援坍塌信息获取[J].计算机仿真,2020,37(3):224-228. 被引量：3
7徐刚,庞丽萍.特种车辆舱室送风系统布局仿真优化[J].化工学报,2020,71(S01):335-340. 被引量：8

广州大学学报（自然科学版）

2019年第5期

浏览历史

内容加载中请稍等...

基于词性标注与分词消歧的中文分词方法被引量：3

参考文献15

二级参考文献121

共引文献558

同被引文献15

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于词性标注与分词消歧的中文分词方法 被引量：3

参考文献15

二级参考文献121

共引文献558

同被引文献15

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于词性标注与分词消歧的中文分词方法被引量：3