面向冗余度控制的中文多文档自动文摘被引量：6

Chinese Multi-document Summarization Based on Redundancy Control

下载PDF

导出

摘要多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。 Multi-document summarization can help people to access information automatically and fast.Compared to single-document summarization,multi-document lays more emphasis on the correlation and redundancy between documents.Therefore,how to control information redundancy is a key problem to multi-document summarization.This paper proposes a model of redundancy control based on the features of summary.In this model,various similarities among the text units over topic＇s probability distribution are used to determine the choice of a sentence.Experimental results show that this method can reduce redundancy effectively,and produce better overall performance than existing systems.

作者王红玲周国栋朱巧明

机构地区苏州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2012年第2期92-96,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60873150 60970056) 江苏省高校自然科学基金资助项目(10KJB520016)

关键词冗余度控制多文档自动文摘中文自动文摘 reduandancy control multi-document summarization Chinese automatic summarization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
2傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
3马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
4宋锐,林鸿飞.基于文档语义图的中文多文档摘要生成机制[J].中文信息学报,2009,23(3):110-115. 被引量：6
5徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
6Radev,DR.,H.Jing,M.Budzikowska.Centroidbased summarization of multiple documents:sentence extraction,utility-based evaluation,and user studies[C].ANLP/ NAACL 2000:21-29.
7Radev,D.,Jing,H.,Sty s,M.,et al. Centroidbased summarization of multiple documents[J].Information Processing and Management 2004, 40:919-938.
8Haghighi A., Vanderwende L. Exploring Content Models for Multi-Document Summarization[C]//NAACL'2009:362-370.
9Hongling Wang,Guodong Zhou.Topic-driven Multidocument Summarization[C]// IALP'2010.

二级参考文献67

1钟伟才,刘静,刘芳焦,李成.组合优化多智能体进化算法[J].计算机学报,2004,27(10):1341-1353. 被引量：34
2苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
3王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
4钟彬彬,刘远超,徐志明.基于GA的文本子主题切分中的参数优化研究[J].计算机工程与应用,2005,41(21):97-99. 被引量：2
5傅间莲,陈群秀.基于连续段落相似度的主题划分算法[J].计算机应用,2005,25(9):2022-2024. 被引量：10
6秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
7傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
8耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
9傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
10刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10

共引文献57

1区力,王新旭,陈敏.Web文本挖掘技术在电力EIP的应用研究[J].现代计算机,2007,13(10):110-112.
2蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
3化柏林.基于篇章内容分析的文本信息处理系统差异性探析[J].情报杂志,2008,27(9):29-32. 被引量：3
4周强,施水才,李渝勤,吕学强.句子重述技术在中文文本摘要中的应用[J].情报学报,2008,27(6):897-901. 被引量：3
5周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
6周序生.改进的最小最大聚类方法在新闻主题来源追踪中的应用[J].湖南工业大学学报,2009,23(1):66-70.
7宋锐,林鸿飞.基于文档语义图的中文多文档摘要生成机制[J].中文信息学报,2009,23(3):110-115. 被引量：6
8许荣华,吴刚,李培峰,朱巧明.基于指代消解的中文事件融合方法[J].计算机应用,2009,29(8):2264-2267. 被引量：3
9王海,胡珀.基于遗传算法的查询导向式自动文摘[J].微计算机信息,2009,25(28):23-25.
10刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.

同被引文献106

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
4罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
5傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：9
6傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
8黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
9Arackal N,Dhanya P. A survey on existing extractive text summa-rization techniques [ EB/OL ]. [ 2014 -07 -05]. http://csidl.org/ xmlui/bitstream/handle/123456789/671/7. PDF? sequence=1.
10Sparck Jones K. Automatic summarising; The state of the art[ J ].Information Processing & Management, 2007,43 (6): 1449 -1481.

引证文献6

1王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
2卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
3吴仁守,张宜飞,王红玲,张迎.基于层次结构的生成式自动文摘[J].中文信息学报,2019,33(10):90-98. 被引量：8
4李健智,王红玲,王中卿.基于图卷积网络的专利摘要自动生成研究[J].计算机科学,2022,49(S01):172-177. 被引量：4
5崔卓,李红莲,张乐,吕学强.一种融合义原的中文摘要生成方法[J].中文信息学报,2022,36(6):146-154. 被引量：2
6李健智,王红玲,王中卿.基于场景与对话结构的摘要生成研究[J].计算机工程,2023,49(4):303-311. 被引量：3

二级引证文献24

1那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
2刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
3高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
4贾晓婷,王名扬,曹宇.基于加权主题分布表达的微博文本摘要生成研究[J].东北师大学报（自然科学版）,2020,52(1):69-74. 被引量：1
5陶兴,张向先,郭顺利,张莉曼.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究[J].数据分析与知识发现,2020,4(4):109-118. 被引量：9
6宁珊,严馨,徐广义,周枫,张磊.融合关键词的中文新闻文本摘要生成[J].计算机工程与科学,2020,42(12):2265-2272. 被引量：8
7姜志祥,叶青,傅晗,张帆.基于自注意力与指针网络的自动摘要模型[J].计算机工程与设计,2021,42(3):711-718. 被引量：6
8余传明,郭亚静,朱星宇,安璐.基于最大边界相关度的抽取式文本摘要模型研究[J].情报科学,2021,39(2):34-43. 被引量：9
9谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：15
10付颖,王红玲,王中卿.基于单词-章节关联的科技论文摘要[J].计算机科学,2021,48(10):59-66.

1王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
2王红玲,张明慧,周国栋.主题信息的中文多文档自动文摘系统[J].计算机工程与应用,2012,48(25):132-136. 被引量：5
3林莉媛,王中卿,李寿山,周国栋.基于PageRank的中文多文档文本情感摘要[J].中文信息学报,2014,28(2):85-90. 被引量：20
4段雪莹,王阳.基于遗传算法的中文多文档自动摘要方法研究[J].科技信息,2010(35). 被引量：1
5郁梅,张炜,蒋刚毅,汪增福.基于塔式格型矢量量化的图像多描述编码算法[J].电路与系统学报,2004,9(3):57-61. 被引量：7
6胡珀,何婷婷,姬东鸿.基于主题区域发现的中文自动文摘研究[J].计算机科学,2005,32(1):177-181. 被引量：5
7王硕,顾幸生.基于改进蚁群算法的作业车间调度[J].青岛科技大学学报（自然科学版）,2012,33(5):489-494. 被引量：6
8刘东波,吕方,陈玉娟,茅红伟,汪春梅.现场总线和智能仪表与核电厂DCS的接口分析及应用[J].自动化仪表,2015,36(11):41-44. 被引量：21
9张清军,朱才连.基于LBS的中文自动文摘技术研究[J].四川大学学报（工程科学版）,2004,36(4):99-102. 被引量：1
10林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：49

中文信息学报

2012年第2期

浏览历史

内容加载中请稍等...

面向冗余度控制的中文多文档自动文摘被引量：6

参考文献9

二级参考文献67

共引文献57

同被引文献106

引证文献6

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向冗余度控制的中文多文档自动文摘 被引量：6

参考文献9

二级参考文献67

共引文献57

同被引文献106

引证文献6

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向冗余度控制的中文多文档自动文摘被引量：6