基于LSA和pLSA的多文档自动文摘被引量：6

Multi-Documentation Summarization Based on LSA and pLSA

下载PDF

导出

摘要本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。 This paper proposes a new strategy of multi-document summarization based on the latent semantic analysis and the probabilistic latent semantic analysis. Firstly, all documents are split to paragraphs, and they are used to clustering. New features are used to construct word-paragraph matrices. Latent semantic analysis which stems from linear algebra performs a singular value decomposition of word-paragraph matrices, so that unimportant information is filtered and the high dimensional representation in the vector space model is changed to low dimensional representation in the latent semantic space. Co-occurrence data is changed to the probabilistic model by the probabilistic latent semantic analysis. In the period of summarization, the method of centroid-based summarization is used to generate summarization. The experimental results show that the performance of summarization is improved.

作者俞辉

机构地区中国石油大学计算机与通信工程学院

出处《计算机工程与科学》 CSCD 北大核心 2009年第9期108-111,共4页 Computer Engineering & Science

关键词多文档自动文摘潜在语义分析奇异值分解 multi-document summarization latent semantic analysis singular value decomposition

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Radev D R, McKeovwn K R. Generating Natural Languages Summaries from Multiple OnLine Sources[J]. Computational Linguistics, 1998,24 (3) : 21-29.
2Radev R, Jing Hongyan, Budzikowska M. Centroid-Based Summarization of Multiple Documents: Sentence Extraction, Utility-based Evaluation, and User Studies[C]//Proc of AN- LP/NAACL 2000 Workshop, 2000 : 21-29.
3陈戈,段建勇,陆汝占.基于潜在语义索引和句子聚类的中文自动文摘[J].计算机仿真,2008,25(7):82-85. 被引量：5
4贾果.基于篇章结构的自动文摘方法研究[J].计算机与数字工程,2007,35(6):10-13. 被引量：1
5秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
6孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
7肖华松,何婷婷,邵伟,等.一种改进的聚类算法在多文档文摘中的应用[C]//第三届全国信息检索与内容安全学术会议,2007.

二级参考文献27

1林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
2胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
3万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
4陈卫平,王永成,刘传汉.面向对话文本的自动摘要系统的研究[J].计算机仿真,2005,22(5):226-230. 被引量：3
5夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：10
6傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
7耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
8刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
9潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
10周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72

共引文献21

1卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
2李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
3林鸿飞,卢冶,王剑峰,宋锐.基于概念扩充和综合评价的文本综述[J].郑州大学学报（理学版）,2007,39(2):104-109. 被引量：2
4化柏林.基于篇章内容分析的文本信息处理系统差异性探析[J].情报杂志,2008,27(9):29-32. 被引量：3
5魏建香,苏新宁.基于关键词和摘要相关度的文献聚类研究[J].情报学报,2009,28(2):220-224. 被引量：4
6唐俊.SSC软聚类算法在面向查询的多文档文摘中的应用[J].计算机工程与科学,2010,32(6):112-114.
7杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
8刘茂福,李文捷,姬东鸿.基于事件项语义图聚类的多文档摘要方法[J].中文信息学报,2010,24(5):77-84. 被引量：6
9魏建香,孙越泓,苏新宁.基于聚类分析的学科交叉研究[J].情报学报,2010,29(6):1066-1073. 被引量：25
10史玉珍,彭智勇.基于修正h指数的学科领域专家发现的研究[J].计算机工程与应用,2011,47(29):1-3. 被引量：4

同被引文献53

1云晓春.国家互联网网络安全宏观态势综述[J].保密科学技术,2012(1):6-8. 被引量：4
2李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
3于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
4朱美琳,杨佩.基于支持向量机的多分类增量学习算法[J].计算机工程,2006,32(17):77-79. 被引量：11
5余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：46
6石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
7李良俊,张斌,杨明.基于LSA降维的KNN文本分类算法[J].东北师大学报（自然科学版）,2007,39(2):33-36. 被引量：7
8班磊,方启明,武永卫,杨广文.基于潜在语义的网络社区发现[J].计算机工程与应用,2007,43(22):115-119. 被引量：3
9SEBASTIANI F. Text categorization ; in alessandro zanasied, text mining and its application [ M ]. Southam-pton: WIT Press, 2005: 109-129.
10DEERWETER S, DUNMAIS S T, FURNAS G W. Indexing by latent semantic analysis [ J]. Journal of the American Society for Information Science, 1990, 41 (6) : 391-407.

引证文献6

1吴启明.基于潜在语义的双视图Web社区集成算法[J].计算机工程,2010,36(13):84-86.
2张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9
3崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：37
4贾会玲,吴晟,李英娜,李萌萌,杨玺,李川.基于PLSA模型的观点句聚类算法研究[J].价值工程,2015,34(31):167-169. 被引量：1
5孙名松,韩群.基于LDA模型的海量APT通信日志特征研究[J].计算机工程,2017,34(2):194-200. 被引量：3
6夏立新,陈健瑶,余华娟.基于事理图谱的多维特征网络舆情事件可视化摘要生成研究[J].情报理论与实践,2020,43(10):157-164. 被引量：31

二级引证文献81

1张玉峰,何超.基于语义空间和SVM的竞争情报分类分析模型研究[J].情报杂志,2011,30(6):161-163. 被引量：1
2张玉峰,黄姮.融合文本自动分类的竞争情报定标比超分析模型研究[J].图书情报知识,2011,28(4):78-83. 被引量：1
3胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154. 被引量：29
4王征强.大比例尺数字测图精度与测距长度之关系浅析[J].测绘通报,2000(4):32-33. 被引量：10
5方少珍.海南省全面开展液化石油气钢瓶检验站检验质量抽查活动[J].中国锅炉压力容器安全,2000,16(2):32-32.
6胡艳丽,白亮,张维明.一种话题演化建模与分析方法[J].自动化学报,2012,38(10):1690-1697. 被引量：26
7李保利,杨星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743. 被引量：29
8沈思,王东波,张祥,张文博.基于文献时间特征的学科主题演化分析方法研究——以图书情报学领域为例[J].图书情报工作,2013,57(7):81-88. 被引量：9
9许两有,许珠香.潜在狄利克雷分配模型在网络日志的应用[J].厦门大学学报（自然科学版）,2013,52(4):455-458.
10白如江,冷伏海.k-clique社区知识创新演化方法研究[J].图书情报工作,2013,57(17):86-94. 被引量：26

1孙春葵,钟义信.关于自然语言处理中的文摘生成及其相关技术[J].计算机科学,1999,26(10):16-19. 被引量：2
2杨颖,戴彬.基于多特征的中文关键词抽取方法[J].计算机应用与软件,2014,31(11):109-112. 被引量：6
3雷鸣,朱明.一种改进的基于项目语义的推荐算法[J].微电子学与计算机,2016,33(12):93-97.
4刘先省.运动目标统计模型下的传感器管理方法[J].河南大学学报（自然科学版）,2002,32(2):20-23. 被引量：3
5刘金岭,倪晓红,王新功.手机短信文本信息流的自动文摘生成[J].现代图书情报技术,2013(2):43-49. 被引量：4
6刘先省,李声威,潘泉,张洪才.基于概率统计模型的一类传感器管理方法[J].控制理论与应用,2001,18(5):805-807. 被引量：9
7时金瑞.读者信箱[J].汽车维护与修理,2010(5):76-76.
8沈高峰,谷淑敏.基于遗传算法优化综合启发式的中文网页特征提取[J].智能系统学报,2014,9(4):474-479.
9单建芳,刘宗田,周文.事件相似度计算[J].小型微型计算机系统,2010,31(4):731-734. 被引量：8
10魏继宏.利用CCED5.0宏命令进行自动排版[J].电脑爱好者,1996(3):23-23.

计算机工程与科学

2009年第9期

浏览历史

内容加载中请稍等...

基于LSA和pLSA的多文档自动文摘被引量：6

参考文献7

二级参考文献27

共引文献21

同被引文献53

引证文献6

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于LSA和pLSA的多文档自动文摘 被引量：6

参考文献7

二级参考文献27

共引文献21

同被引文献53

引证文献6

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于LSA和pLSA的多文档自动文摘被引量：6