期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于信息融合的多文档自动文摘技术 被引量:27
1
作者 徐永东 徐志明 王晓龙 《计算机学报》 EI CSCD 北大核心 2007年第11期2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下... 提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果. 展开更多
关键词 多文本框架 多文档自动文摘 信息融合 时间
在线阅读 下载PDF
基于LDA主题特征的自动文摘方法 被引量:24
2
作者 张明慧 王红玲 周国栋 《计算机应用与软件》 CSCD 2011年第10期20-22,46,共4页
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距... 近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。 展开更多
关键词 自动文摘 LDA 主题模型 多文档
在线阅读 下载PDF
自动文摘评价方法综述 被引量:12
3
作者 张瑾 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘... 评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 自动文摘 自然语言处理 多文档文摘 文摘评价方法
在线阅读 下载PDF
基于浅层分析的多文档自动文摘技术 被引量:5
4
作者 张姝 赵铁军 +1 位作者 郑德权 杨沐昀 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-... 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值. 展开更多
关键词 多文档文摘 浅层分析 MMR方法 自动评测
在线阅读 下载PDF
多文档文摘中基于时间信息的句子排序策略研究 被引量:8
5
作者 徐永东 王亚东 +2 位作者 刘杨 王伟 权光日 《中文信息学报》 CSCD 北大核心 2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序... 文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 展开更多
关键词 计算机应用 中文信息处理 多文档自动文摘 句子排序 中文时间信息处理
在线阅读 下载PDF
面向冗余度控制的中文多文档自动文摘 被引量:6
6
作者 王红玲 周国栋 朱巧明 《中文信息学报》 CSCD 北大核心 2012年第2期92-96,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文... 多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。 展开更多
关键词 冗余度控制 多文档自动文摘 中文自动文摘
在线阅读 下载PDF
关键词和被引次数对科技论文自动摘要效果影响研究 被引量:6
7
作者 刘家益 李鲡瑶 +1 位作者 张智雄 邹益民 《情报学报》 CSSCI CSCD 北大核心 2017年第11期1165-1174,共10页
科技论文的关键词和被引次数与论文主题具有高相关性,是发现论文重要内容的有力线索。但这两个特征尚未应用于当前面向科技论文的多文档自动摘要方法中,其对科技论文自动摘要效果的影响还有待探索。本文通过设计对比算法和实验,定量分... 科技论文的关键词和被引次数与论文主题具有高相关性,是发现论文重要内容的有力线索。但这两个特征尚未应用于当前面向科技论文的多文档自动摘要方法中,其对科技论文自动摘要效果的影响还有待探索。本文通过设计对比算法和实验,定量分析研究了科技论文的关键词、被引次数两个特征对科技论文自动摘要效果的影响。结果表明:引入关键词因子和被引次数因子能显著提高摘要的效果。其中,同时使用两个因子,对摘要效果的积极影响最为显著;单独使用被引次数因子对摘要效果的积极影响也较为显著,但弱于同时使用两个因子;单独使用关键词因子对摘要效果影响不显著,甚至差于基准组;此外两个因子对摘要规模的变化也较为敏感。 展开更多
关键词 关键词 被引次数 科技论文 多文档自动摘要
在线阅读 下载PDF
主题信息的中文多文档自动文摘系统 被引量:5
8
作者 王红玲 张明慧 周国栋 《计算机工程与应用》 CSCD 2012年第25期132-136,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模... 多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。 展开更多
关键词 中文自动文摘 浅层狄利赫雷分配(LDA) 主题模型 多文档
在线阅读 下载PDF
基于名实体的新闻专题自动综述系统研究与实现 被引量:2
9
作者 索红光 安迪 李健 《情报学报》 CSSCI 北大核心 2010年第1期32-37,共6页
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先... 自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计。然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述。实验结果表明,该方法是有效的,具有实用价值。 展开更多
关键词 自动综述 多文档自动摘要 名实体
在线阅读 下载PDF
基于混合方法的多语言多文档自动摘要系统构建及实现 被引量:5
10
作者 柯修 王惠临 《图书馆学研究》 CSSCI 北大核心 2013年第2期66-72,共7页
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块... 文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 展开更多
关键词 多语言自动摘要 多文档自动摘要 图排序算法 文本外部特征
原文传递
基于局部话题句群的事件相关多文档摘要研究 被引量:2
11
作者 吴玲达 雷震 +1 位作者 老松杨 雷永林 《计算机仿真》 CSCD 2006年第11期263-267,共5页
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于... 多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。 展开更多
关键词 多文档自动摘要 新闻事件 局部话题句群 新闻要素
在线阅读 下载PDF
多文档自动摘要方法的进展研究 被引量:5
12
作者 黄文彬 倪少康 《情报科学》 CSSCI 北大核心 2017年第4期160-165,共6页
【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关... 【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关键影响文章,梳理多文档自动摘要的概念与研究进展,揭示了最新的技术实现与实践情况。【结果/结论】基于不同技术方法对单词、句子或段落作为主要数据处理对象,找出多文档自动摘要的技术特征与难点,明确该领域的发展趋势,为未来的研究奠定了基础。 展开更多
关键词 自动摘要 多文档处理 自然语言处理
原文传递
基于MapReduce的多文档自动文摘的设计与实现
13
作者 胡琪 邹细勇 《计算机工程与应用》 CSCD 北大核心 2011年第35期67-70,共4页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动... 多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。 展开更多
关键词 多文档自动文摘 MAPREDUCE 并行计算
在线阅读 下载PDF
基于手机终端的中文文本网页自动综述系统的研究
14
作者 卢冶 苏勇 须磊 《计算机与数字工程》 2013年第6期943-946,995,共5页
总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和语句的内在特征进行相似度计算来考量语句的相关性;使用文本... 总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和语句的内在特征进行相似度计算来考量语句的相关性;使用文本聚类技术来寻找语句的差异性。同时,基于MyEclipse环境的Java ME平台,结合其轻量级UI工具包LWUIT,使用WTK作为开发工具,设计并实现了基于手机终端的自动综述系统。最后选取了近200篇文献作为测试语料,进行了可接受性评测和基于Q&A的信息性评测,测试结果比较满意。 展开更多
关键词 文本综述 语句相似度 文本聚类 JAVAME LWUIT WTK
在线阅读 下载PDF
改进的最小最大聚类方法在新闻主题来源追踪中的应用
15
作者 周序生 《湖南工业大学学报》 2009年第1期66-70,共5页
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法。实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程。
关键词 新闻主题 多文档自动文摘 IMMC
在线阅读 下载PDF
基于仿射传播算法的多文档摘要方法 被引量:3
16
作者 刘晓燕 黄宇 尤红建 《国外电子测量技术》 2014年第8期29-33,共5页
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类... 大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类个数。解决了余弦相似矩阵与AP算法输入不匹配的问题。使用类MMR算法对类内中心句进行排序并按压缩比抽取句子,对抽取句子并排序最终生成摘要。基于中文语料的实验表明,该方法生成的摘要具有较高的信息覆盖率。 展开更多
关键词 AP算法 多文档摘要 自动文摘 信息获取
在线阅读 下载PDF
基于聚类与语义相似分析的多文本自动摘要方法 被引量:7
17
作者 杜秀英 《情报杂志》 CSSCI 北大核心 2017年第6期167-172,共6页
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文... [目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。 展开更多
关键词 自动摘要 云计算 多文本 聚类 语义相似 分布式处理
在线阅读 下载PDF
多文档文摘语义单元自动去噪器的监督学习方法
18
作者 龚书 瞿有利 田盛丰 《计算机研究与发展》 EI CSCD 北大核心 2013年第4期873-882,共10页
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较... 多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升. 展开更多
关键词 自动去噪 监督学习 多文档文摘 文本表示 预处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部