基于多算法融合的标准文本关键词提取与歧义处理方法研究

Research on the extraction and ambiguity handling method of standard text keywords based on multi-algorithm fusion

下载PDF

导出

摘要首先,基于多算法融合的标准文本关键词提取与歧义处理方法基于TF-IDF和TextRank相结合,同时在考虑词语位置、词性、词长与词频的基础上完成标准文本的关键词提取;然后,利用Hanlp对相同文本进行处理,并完成对比歧义处理。通过试验结果分析,该方法对于标准文本的关键词提取与歧义处理的效率提升、处理质量有显著效果,也为大模型结合知识库与智能体开展标准知识挖掘提供一种创新方法。 Firstly,the extraction and ambiguity handling method of standard text keywords based on multi-algorithm fusion combines TF-IDF and TextRank,while considering word position,part of speech,word length,and word frequency to complete the keywords extraction of standard text.Then,it uses Hanlp to process the same text and complete the contrastive ambiguity processing.Through the analysis of experimental results,this method has a significant effect on improving the efficiency and processing quality of keywords extraction and ambiguity handling in standard texts.It also provides an innovative approach for large models to conduct standard knowledge mining by combining knowledge bases with intelligent agents.

作者付振秋田辉 FU Zhenqiu;TIAN Hui(Information and Communication Integration Innovation Research Center,China Academy of Information and Communications Technology,Beijing 100191,China;Taier Rongchuang(Beijing)Technology Co.,Ltd.,Beijing 100191,China)

机构地区中国信息通信研究院信息通信融合创新中心泰尔融创(北京)科技有限公司

出处《信息通信技术与政策》 2025年第2期87-96,共10页 Information and Communications Technology and Policy

关键词标准文本关键词提取歧义 standard text keywords extraction ambiguity(

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1欧阳文涛,朱家明,戴定华.基于LDA-SVM算法模型对唐宋诗词分词及特征的计量分析[J].黑龙江大学自然科学学报,2023,40(4):394-400. 被引量：6
2邱宁佳,贺金彪,薛丽娇,王鹏,赵建平.融合语义特征的加权朴素贝叶斯分类算法[J].计算机工程与设计,2020,41(9):2523-2529. 被引量：8
3阎红灿,李铂初,谷建涛.一种基于共现关键词的TextRank文摘自动生成算法[J].计算机工程与科学,2023,45(11):2060-2069. 被引量：10
4Weidong Zhou,Shengwei Lei,Chunhe Xia,Tianbo Wang.LDA-ID:An LDA-Based Framework for Real-Time Network Intrusion Detection[J].China Communications,2023,20(12):166-181. 被引量：4
5杨文忠,丁甜甜,康鹏,卜文秀.基于舆情新闻的中文关键词抽取综述[J].计算机工程,2023,49(3):1-17. 被引量：10
6蔡宇翔,骆妲,甘洋镭,侯睿,刘雪怡,刘峤,石晓军.基于跨度边界感知的嵌套命名实体识别[J].软件学报,2024,35(11):5149-5162. 被引量：7
7兰晓芳,刘卓,许志豪,肖毅.基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例[J].软件工程,2023,26(8):6-10. 被引量：13
8徐恺,王振宇,王旭,秦华,龙宇轩.基于强化学习的任务型对话策略研究综述[J].计算机学报,2024,47(6):1201-1231. 被引量：6
9蒋竞,刘子豪,张莉,汪亮.基于改动树检索的拉取请求描述生成方法[J].软件学报,2024,35(11):5065-5082. 被引量：1
10余辉,魏梓萌,夏文蕾,黄炜,陈晓芳.跨领域跨时间的技术需求热点分布及其趋势预测[J].情报理论与实践,2024,47(5):139-147. 被引量：3

二级参考文献136

1甄沐华,陈鹏,王坤,范子杨,王者.基于关键词挖掘的热线文本数据犯罪线索筛查方法研究[J].知识管理论坛,2022(5):539-548. 被引量：2
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：9
3俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：23
4谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：8
5程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：29
6黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：23
7黄民烈,朱小燕.对话管理中基于槽特征有限状态自动机的方法研究[J].计算机学报,2004,27(8):1092-1101. 被引量：7
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
9白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：3
10魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404. 被引量：139

共引文献187

1闫慧,贾诗威,吴兆桐,李阳,程宇.2022—2023年情报学前沿进展综述[J].情报学进展,2024(1):420-477.
2龚静,胡平霞,李春媚.一种用于文本分类的特征项权值计算方法的研究[J].惠州学院学报,2013,33(6):78-81.
3郭莉莉,左先亮,高尚.用EDA和禁忌搜索算法进行文本聚类[J].信息技术,2014,38(4):55-59.
4吴斌,施燕,朱娅加.精准推送在“虚拟公司”团队组织形式教学法项目库中的应用与研究[J].科技广场,2014(4):41-46.
5王艳东,付小康,李萌萌.一种基于共词网络的社交媒体数据主题挖掘方法[J].武汉大学学报（信息科学版）,2018,43(12):2287-2294. 被引量：11
6龚静,胡平霞,胡灿.用于文本分类的特征项权重算法改进[J].计算机技术与发展,2014,24(9):128-132. 被引量：9
7翟继友.一种混合型的句子语义相似度计算方法[J].科学技术与工程,2014,22(28):81-85. 被引量：4
8吴树芳,徐建民,武晓波.融合用户标签和关系的微博用户相似性度量[J].情报杂志,2014,33(12):170-173. 被引量：8
9王茜,习磊.基于行业分布的企业网络信息安全威胁及对策研究[J].价值工程,2015,34(20):50-53.
10杜思奇,李红莲,吕学强.汉语组块分析在产品特征提取中的应用研究[J].现代图书情报技术,2015(9):26-30. 被引量：4

1刘鑫泉,徐建.融合数据增强与集成学习的IT运维数据分类方法[J].计算机与数字工程,2024,52(12):3579-3584. 被引量：1
2徐艳楠,张占鹏,曾亦纯,颜文杰.餐饮厨房环境下可燃气体探测器抗乙醇乙酸干扰性能试验结果分析及改进建议[J].城市燃气,2025(2):14-18.
3吴广硕,樊重俊,陶国庆.基于Transformer-TextRank-PGN的文本摘要模型[J].计算机与数字工程,2024,52(12):3681-3685.
4彭朝晖.电磁离合器试验及改进措施研究[J].科技视界,2024,14(31):81-83.
5丁嘉伟,路美松,伍彬彬,王超,钟天宇,张林.基于朴素贝叶斯算法的城市安全舆情信息智能分类研究[J].中国安全生产科学技术,2024,20(S1):262-266. 被引量：2
6梁高鹏,徐鲁强.基于改进TextRank的抽取式自动文本摘要生成方法[J].计算机与数字工程,2024,52(12):3643-3648.
7龚晓凤,赵连成,张杰,贺叔滢,季成.基于文本挖掘的储气库安全隐患管理及可视化研究[J].中国安全生产科学技术,2024,20(S1):66-72. 被引量：2
8孟梦.基于大数据技术的学前教育专业智慧课程资源库设计与实现[J].无线互联科技,2025,22(2):74-77. 被引量：1
9王筱纶,姚倩,林佳慧,赵宇翔,孙志豪,林欣澜.自我决定理论视角下技能众包服务商参与动机研究:基于平台数据的实证分析[J].数据分析与知识发现,2025,9(1):55-64.
10成翌宁,张正,杨立,马肖肖.一种索引结构优化的检索增强生成技术在保险领域的交互应用研究[J].河北省科学院学报,2025,42(1):13-20. 被引量：2

信息通信技术与政策

2025年第2期

浏览历史

内容加载中请稍等...

基于多算法融合的标准文本关键词提取与歧义处理方法研究

参考文献19

二级参考文献136

共引文献187

相关作者

相关机构

相关主题

浏览历史