基于Word2Vec及TextRank算法的长文档摘要自动生成研究被引量：1

Research on Abstract Automatic Generation of Long Document Based on the Word2Vec + TextRank Algorithm

下载PDF

导出

摘要近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec算法进行特征提取,并利用WordCloud对提取的关键词进行可视化展示;最后利用TextRank算法计算语句间的相似度,生成摘要候选句,根据候选句的权重生成该专利文档的摘要信息。实验表明,采用Word2Vec和TextRank生成的专利摘要质量高,概括性也强。 In recent years, how to extract critical information from large amounts of information has become a problem which needs to be solved urgently. For Chinese patent long documents, a patent generation algorithm combining Word2Vec and TextRank is proposed.Firstly, Python Jieba technology is used to segment words in Chinese patent documents, and meaningless words are removed by using the stop dictionary. Secondly, the Word2Vec algorithm is used for feature extraction, and the extracted keywords are visually displayed by WordCloud. Finally, the TextRank algorithm is used to calculate the similarity between sentences, generate abstract candidate sentences,and generate abstract information of the patent documents according to the weight of candidate sentences. Experiments show that patent abstracts generated by Word2Vec and TextRank are of high quality and have strong generalization.

作者朱玉婷刘乐辛晓乐陈珑慧康亮河 ZHU Yuting;LIU Le;XIN Xiaole;CHEN Longhui;KANG Lianghe(Gansu Agricultural University,Lanzhou 730070,China)

机构地区甘肃农业大学

出处《现代信息科技》 2023年第4期36-38,42,共4页 Modern Information Technology

基金甘肃省农业大学盛彤笙科技创新基金(GSAU-STS-2021-15) 国家自然基金(32060437) 甘肃农业大学省级大学生创新创业训练计划项目(202216018)。

关键词 Jieba分词关键词提取 Word2Vec算法 TextRank算法 Jieba word segmentation keyword extraction Word2Vec algorithm TextRank algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1赵明辉,张玲玲,顾基发.基于网络评论文本挖掘的技术预见方法研究[J].科技管理研究,2022,42(16):176-181. 被引量：6
2熊谦,唐文哲.基于文本挖掘的水利工程建设管理信息化专利分析[J].清华大学学报（自然科学版）,2023,63(2):223-232. 被引量：10
3刘志明,于波,欧阳纯萍,余颖,阳小华,翟云.基于主题的SE-TextRank情感摘要方法[J].情报工程,2017,3(3):97-104. 被引量：8
4王永成,王晓峰.国家信息基础结构与全息检索[J].电子出版,1997(4):57-59. 被引量：1
5程园,吾守尔.斯拉木,买买提依明.哈斯木.基于综合的句子特征的文本自动摘要[J].计算机科学,2015,42(4):226-229. 被引量：11
6利润霖,龙昌敏,李雯芸,胡广林,强玉龙,刘彦君.基于TextRank算法的项目标签智能化生成技术研究[J].信息技术,2022,46(8):77-82. 被引量：3
7李秀秀,陈海山.基于机器学习的新闻文本分类研究[J].电脑编程技巧与维护,2021(12):132-135. 被引量：3
8丁敬达,陈一帆,刘超,蔡微.基于共词和Word2Vec加权向量的文献-主题语义匹配分析方法[J].图书情报工作,2022,66(12):108-116. 被引量：16
9罗婉丽,张磊.结合拓扑势与TextRank算法的关键词提取方法[J].计算机应用与软件,2022,39(1):334-338. 被引量：14

二级参考文献91

1钱学森.开创复杂巨系统的科学与技术──祝中国系统工程学会第八届学术年会的召开[J].科学决策,1995(2):12-13. 被引量：17
2徐竹青.专利、技术创新与经济增长:理论与实证[J].科技管理研究,2004,24(5):109-111. 被引量：62
3刘武艺,邵东国,张鹏.我国水利信息化建设的难点与对策[J].水利水电科技进展,2005,25(1):67-70. 被引量：21
4尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
5刘功中,李建华,李生红.基于类信息的特征选择和加权方法[C]//第一届全国信息检索与内容安全学术会议.上海:上海交通大学出版社,2004.
6Luhn H P.The automatic creation of literature abstract[J].IBM Journal of Research and Development,1958,2(2):159-165.
7Edmundson H P.New methods in automatic extracting[J].Journal of the ACM (JACM),1969,6(2):264-285.
8Erkan G,Radev D R.LexRank:Graph-based lexical centrality as salience in text summarization[J].J.Artif.Intell.Res.(JAIR),2004,22(1):457-479.
9Antiqueira L,Oliveira Jr O N,Costa L F,et al.A complex net-work approach to text summarization[J].Information Sciences,2009,179(5):584-599.
10Salton G,Lesk M E.Computer evaluation of indexing and text processing [J].Journal of the ACM,1968,15(1):8-36.

共引文献63

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：23
2靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384. 被引量：2
3叶强,詹宝强,马笑晨,李永立.基于文本挖掘和多模块融合的金融数据分类分级方法[J].信息技术与管理应用,2022(1):120-133.
4杜秀英.基于聚类与语义相似分析的多文本自动摘要方法[J].情报杂志,2017,36(6):167-172. 被引量：7
5王玮,欧阳纯萍,阳小华,罗凌云,刘志明.融合句子情感和主题相似性的中文新闻文本情感摘要[J].计算机应用研究,2017,34(12):3543-3546. 被引量：4
6贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：21
7荀静,杨玉珍.基于TextRank的文本情感摘要提取方法[J].计算机应用与软件,2018,35(10):80-84. 被引量：10
8朱耘葶.一种语音识别的智能学习助手系统设计[J].电子测试,2019,0(16):22-26. 被引量：5
9李晓峰,马静,李驰,朱恒民.基于XGBoost模型的电商商品品名识别算法研究[J].数据分析与知识发现,2019,3(7):34-41. 被引量：7
10孙涛.基于LSTM的时政新闻摘要提取研究[J].信息技术与信息化,2020(1):206-208.

同被引文献8

1桂小娅,陆志强,韩笑乐.集装箱码头连续型泊位与岸桥集成调度[J].上海交通大学学报,2013,47(2):226-229. 被引量：17
2乐美龙,刘秀玲.基于泊位偏好与岸桥干扰的泊位和岸桥分配[J].运筹与管理,2014,23(1):90-100. 被引量：16
3王晓芳,贾宗维.基于K-means的MOOC学习行为分析及用户画像研究[J].中国教育信息化,2019,25(1):43-46. 被引量：10
4黄太进,刘三女牙,李卿.“互联网+教育”的课程智能适配[J].高等工程教育研究,2021,69(1):181-186. 被引量：9
5周瑛,张晓宇,虞小芳.基于产品评论挖掘的消费者偏好分析[J].情报科学,2022,40(1):58-65. 被引量：24
6王世奇,刘智锋,王继民.学者画像研究综述[J].图书情报工作,2022,66(20):73-81. 被引量：19
7刘宇韬,施莉,刘诗含.基于TF-IDF与Word2vec的用户评论分析研究[J].成都航空职业技术学院学报,2022,38(4):89-92. 被引量：4
8席宁丽,朱丽佳,王录通,陈俊,万晓容.一种Word2vec构建词向量模型的实现方法[J].电脑与信息技术,2023,31(1):43-46. 被引量：20

引证文献1

1龚雪敏,罗凌,郭育研,杨露.基于文本分析的在线课程画像研究[J].情报探索,2024(6):64-71. 被引量：1

二级引证文献1

1冯丹,孙谋,李园,赵媛媛,杨曦,周屹炜.面向兵器安全生产的企业安全画像系统开发[J].兵工学报,2024,45(S01):308-315.

1林素红,杜玉红.基于评论数据的文本关键词提取和可视化方法[J].信息与电脑,2022,34(23):101-103. 被引量：1
2何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：12
3刘燕.基于BERT-BiGRU的中文专利文本自动分类[J].郑州大学学报（理学版）,2023,55(2):33-40. 被引量：15
4陈挺,徐胜捷,陈龙,陆间,张丽丽.中文专利数据可视化分析系统研究与设计[J].计算机应用与软件,2023,40(1):24-29. 被引量：3
5徐惠,苏同,俞鹏飞,江全胜,朱咸军.基于Attention模型的法律文书生成研究[J].无线互联科技,2023,20(1):111-115.
6武瑛.从专利视角看压电发电技术在智能生活中的应用[J].电视技术,2022,46(12):225-228.
7沈洪波,姚赛彬,汪保友.基于5G MR指纹的室内定位技术研究[J].邮电设计技术,2023(2):37-41. 被引量：8
8王俊东.壮族节庆文化空间的现代转向及其文化生成研究[J].广西社会主义学院学报,2022,33(5):69-74. 被引量：2
9姜姗,赵春霞,朱红磊.多媒体背景下思政教育资源高效挖掘方法研究[J].信息与电脑,2022,34(23):238-240.
10张建生,王航,周杰,肖贵乾.电弧增材制造复杂截面等距填充路径生成算法[J].华中科技大学学报（自然科学版）,2022,50(12):70-74.

现代信息科技

2023年第4期

浏览历史

内容加载中请稍等...

基于Word2Vec及TextRank算法的长文档摘要自动生成研究被引量：1

参考文献9

二级参考文献91

共引文献63

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Word2Vec及TextRank算法的长文档摘要自动生成研究 被引量：1

参考文献9

二级参考文献91

共引文献63

同被引文献8

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Word2Vec及TextRank算法的长文档摘要自动生成研究被引量：1