期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
18
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于信息融合的多文档自动文摘技术
被引量:
27
1
作者
徐永东
徐志明
王晓龙
《计算机学报》
EI
CSCD
北大核心
2007年第11期2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下...
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.
展开更多
关键词
多文本框架
多文档自动文摘
信息融合
时间
在线阅读
下载PDF
职称材料
基于LDA主题特征的自动文摘方法
被引量:
24
2
作者
张明慧
王红玲
周国栋
《计算机应用与软件》
CSCD
2011年第10期20-22,46,共4页
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距...
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。
展开更多
关键词
自动文摘
LDA
主题模型
多文档
在线阅读
下载PDF
职称材料
自动文摘评价方法综述
被引量:
12
3
作者
张瑾
王小磊
许洪波
《中文信息学报》
CSCD
北大核心
2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘...
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。
展开更多
关键词
计算机应用
中文信息处理
文本挖掘
自动文摘
自然语言处理
多文档文摘
文摘评价方法
在线阅读
下载PDF
职称材料
基于浅层分析的多文档自动文摘技术
被引量:
5
4
作者
张姝
赵铁军
+1 位作者
郑德权
杨沐昀
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-...
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值.
展开更多
关键词
多文档文摘
浅层分析
MMR方法
自动评测
在线阅读
下载PDF
职称材料
多文档文摘中基于时间信息的句子排序策略研究
被引量:
8
5
作者
徐永东
王亚东
+2 位作者
刘杨
王伟
权光日
《中文信息学报》
CSCD
北大核心
2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序...
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。
展开更多
关键词
计算机应用
中文信息处理
多文档自动文摘
句子排序
中文时间信息处理
在线阅读
下载PDF
职称材料
面向冗余度控制的中文多文档自动文摘
被引量:
6
6
作者
王红玲
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2012年第2期92-96,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文...
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。
展开更多
关键词
冗余度控制
多文档自动文摘
中文自动文摘
在线阅读
下载PDF
职称材料
关键词和被引次数对科技论文自动摘要效果影响研究
被引量:
6
7
作者
刘家益
李鲡瑶
+1 位作者
张智雄
邹益民
《情报学报》
CSSCI
CSCD
北大核心
2017年第11期1165-1174,共10页
科技论文的关键词和被引次数与论文主题具有高相关性,是发现论文重要内容的有力线索。但这两个特征尚未应用于当前面向科技论文的多文档自动摘要方法中,其对科技论文自动摘要效果的影响还有待探索。本文通过设计对比算法和实验,定量分...
科技论文的关键词和被引次数与论文主题具有高相关性,是发现论文重要内容的有力线索。但这两个特征尚未应用于当前面向科技论文的多文档自动摘要方法中,其对科技论文自动摘要效果的影响还有待探索。本文通过设计对比算法和实验,定量分析研究了科技论文的关键词、被引次数两个特征对科技论文自动摘要效果的影响。结果表明:引入关键词因子和被引次数因子能显著提高摘要的效果。其中,同时使用两个因子,对摘要效果的积极影响最为显著;单独使用被引次数因子对摘要效果的积极影响也较为显著,但弱于同时使用两个因子;单独使用关键词因子对摘要效果影响不显著,甚至差于基准组;此外两个因子对摘要规模的变化也较为敏感。
展开更多
关键词
关键词
被引次数
科技论文
多文档自动摘要
在线阅读
下载PDF
职称材料
主题信息的中文多文档自动文摘系统
被引量:
5
8
作者
王红玲
张明慧
周国栋
《计算机工程与应用》
CSCD
2012年第25期132-136,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模...
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。
展开更多
关键词
中文自动文摘
浅层狄利赫雷分配(LDA)
主题模型
多文档
在线阅读
下载PDF
职称材料
基于名实体的新闻专题自动综述系统研究与实现
被引量:
2
9
作者
索红光
安迪
李健
《情报学报》
CSSCI
北大核心
2010年第1期32-37,共6页
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先...
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计。然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述。实验结果表明,该方法是有效的,具有实用价值。
展开更多
关键词
自动综述
多文档自动摘要
名实体
在线阅读
下载PDF
职称材料
基于混合方法的多语言多文档自动摘要系统构建及实现
被引量:
5
10
作者
柯修
王惠临
《图书馆学研究》
CSSCI
北大核心
2013年第2期66-72,共7页
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块...
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。
展开更多
关键词
多语言自动摘要
多文档自动摘要
图排序算法
文本外部特征
原文传递
基于局部话题句群的事件相关多文档摘要研究
被引量:
2
11
作者
吴玲达
雷震
+1 位作者
老松杨
雷永林
《计算机仿真》
CSCD
2006年第11期263-267,共5页
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于...
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。
展开更多
关键词
多文档自动摘要
新闻事件
局部话题句群
新闻要素
在线阅读
下载PDF
职称材料
多文档自动摘要方法的进展研究
被引量:
5
12
作者
黄文彬
倪少康
《情报科学》
CSSCI
北大核心
2017年第4期160-165,共6页
【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关...
【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关键影响文章,梳理多文档自动摘要的概念与研究进展,揭示了最新的技术实现与实践情况。【结果/结论】基于不同技术方法对单词、句子或段落作为主要数据处理对象,找出多文档自动摘要的技术特征与难点,明确该领域的发展趋势,为未来的研究奠定了基础。
展开更多
关键词
自动摘要
多文档处理
自然语言处理
原文传递
基于MapReduce的多文档自动文摘的设计与实现
13
作者
胡琪
邹细勇
《计算机工程与应用》
CSCD
北大核心
2011年第35期67-70,共4页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动...
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。
展开更多
关键词
多文档自动文摘
MAPREDUCE
并行计算
在线阅读
下载PDF
职称材料
基于手机终端的中文文本网页自动综述系统的研究
14
作者
卢冶
苏勇
须磊
《计算机与数字工程》
2013年第6期943-946,995,共5页
总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和语句的内在特征进行相似度计算来考量语句的相关性;使用文本...
总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和语句的内在特征进行相似度计算来考量语句的相关性;使用文本聚类技术来寻找语句的差异性。同时,基于MyEclipse环境的Java ME平台,结合其轻量级UI工具包LWUIT,使用WTK作为开发工具,设计并实现了基于手机终端的自动综述系统。最后选取了近200篇文献作为测试语料,进行了可接受性评测和基于Q&A的信息性评测,测试结果比较满意。
展开更多
关键词
文本综述
语句相似度
文本聚类
JAVAME
LWUIT
WTK
在线阅读
下载PDF
职称材料
改进的最小最大聚类方法在新闻主题来源追踪中的应用
15
作者
周序生
《湖南工业大学学报》
2009年第1期66-70,共5页
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法。实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程。
关键词
新闻主题
多文档自动文摘
IMMC
在线阅读
下载PDF
职称材料
基于仿射传播算法的多文档摘要方法
被引量:
3
16
作者
刘晓燕
黄宇
尤红建
《国外电子测量技术》
2014年第8期29-33,共5页
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类...
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类个数。解决了余弦相似矩阵与AP算法输入不匹配的问题。使用类MMR算法对类内中心句进行排序并按压缩比抽取句子,对抽取句子并排序最终生成摘要。基于中文语料的实验表明,该方法生成的摘要具有较高的信息覆盖率。
展开更多
关键词
AP算法
多文档摘要
自动文摘
信息获取
在线阅读
下载PDF
职称材料
基于聚类与语义相似分析的多文本自动摘要方法
被引量:
7
17
作者
杜秀英
《情报杂志》
CSSCI
北大核心
2017年第6期167-172,共6页
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文...
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
展开更多
关键词
自动摘要
云计算
多文本
聚类
语义相似
分布式处理
在线阅读
下载PDF
职称材料
多文档文摘语义单元自动去噪器的监督学习方法
18
作者
龚书
瞿有利
田盛丰
《计算机研究与发展》
EI
CSCD
北大核心
2013年第4期873-882,共10页
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较...
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升.
展开更多
关键词
自动去噪
监督学习
多文档文摘
文本表示
预处理
在线阅读
下载PDF
职称材料
题名
基于信息融合的多文档自动文摘技术
被引量:
27
1
作者
徐永东
徐志明
王晓龙
机构
哈尔滨工业大学计算机学院智能技术与自然语言处理研究室
出处
《计算机学报》
EI
CSCD
北大核心
2007年第11期2048-2054,共7页
基金
国家自然科学基金重点项目(60435020)
国家自然科学基金(60773070)资助.~~
文摘
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.
关键词
多文本框架
多文档自动文摘
信息融合
时间
Keywords
multi
ple
document
framework
multi
-
document
automatic
summarization
information fusion
time
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于LDA主题特征的自动文摘方法
被引量:
24
2
作者
张明慧
王红玲
周国栋
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
出处
《计算机应用与软件》
CSCD
2011年第10期20-22,46,共4页
基金
国家自然科学基金(60673041
60873150)
江苏省高校自然科学重大基础研究项目(08KJA520002)
文摘
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。
关键词
自动文摘
LDA
主题模型
多文档
Keywords
automatic
document
summarization
Latent dirichlet allocation(LDA) Topic model
multi
-
document
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
自动文摘评价方法综述
被引量:
12
3
作者
张瑾
王小磊
许洪波
机构
中国科学院计算技术研究所信息智能与信息安全研究中心
出处
《中文信息学报》
CSCD
北大核心
2008年第3期81-88,共8页
基金
国家973计划“大规模文本内容计算”课题资助项目(2004CB318109)
文摘
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。
关键词
计算机应用
中文信息处理
文本挖掘
自动文摘
自然语言处理
多文档文摘
文摘评价方法
Keywords
computer application
Chinese information processing
text mining
automatic
summarization
nature language processing
multi
-
document
summarization
summarization
evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于浅层分析的多文档自动文摘技术
被引量:
5
4
作者
张姝
赵铁军
郑德权
杨沐昀
机构
哈尔滨工业大学语言语音教育部-微软重点实验室
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期1102-1105,共4页
基金
国家自然科学基金资助项目(6030202160375019)
国家高技术研究发展计划资助项目(2004AA117010-08)
文摘
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值.
关键词
多文档文摘
浅层分析
MMR方法
自动评测
Keywords
multi
-
document
summarization
shallow analysis
MMR method
automatic
evaluation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
多文档文摘中基于时间信息的句子排序策略研究
被引量:
8
5
作者
徐永东
王亚东
刘杨
王伟
权光日
机构
哈尔滨工业大学(威海)计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2009年第4期27-33,共7页
基金
国家自然科学基金资助项目(60803092)
哈尔滨工业大学科技创新基金资助(IMQQ29080001)
文摘
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。
关键词
计算机应用
中文信息处理
多文档自动文摘
句子排序
中文时间信息处理
Keywords
computer application
Chinese information processing
multi
-
document
s
automatic
summarization
sen tences ordering
Chinese temporal information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向冗余度控制的中文多文档自动文摘
被引量:
6
6
作者
王红玲
周国栋
朱巧明
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2012年第2期92-96,共5页
基金
国家自然科学基金资助项目(60873150
60970056)
江苏省高校自然科学基金资助项目(10KJB520016)
文摘
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。
关键词
冗余度控制
多文档自动文摘
中文自动文摘
Keywords
reduandancy control
multi
-
document
summarization
Chinese
automatic
summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
关键词和被引次数对科技论文自动摘要效果影响研究
被引量:
6
7
作者
刘家益
李鲡瑶
张智雄
邹益民
机构
中国科学院文献情报中心
中国科学院大学
北京空间信息中继传输技术研究中心
浙江师范大学经济与管理学院
出处
《情报学报》
CSSCI
CSCD
北大核心
2017年第11期1165-1174,共10页
基金
国家社会科学基金项目"非相关网络科技信息的识别及其应用研究"(15CTQ022)
文摘
科技论文的关键词和被引次数与论文主题具有高相关性,是发现论文重要内容的有力线索。但这两个特征尚未应用于当前面向科技论文的多文档自动摘要方法中,其对科技论文自动摘要效果的影响还有待探索。本文通过设计对比算法和实验,定量分析研究了科技论文的关键词、被引次数两个特征对科技论文自动摘要效果的影响。结果表明:引入关键词因子和被引次数因子能显著提高摘要的效果。其中,同时使用两个因子,对摘要效果的积极影响最为显著;单独使用被引次数因子对摘要效果的积极影响也较为显著,但弱于同时使用两个因子;单独使用关键词因子对摘要效果影响不显著,甚至差于基准组;此外两个因子对摘要规模的变化也较为敏感。
关键词
关键词
被引次数
科技论文
多文档自动摘要
Keywords
key words
cited times
scientific papers
multi
-
document
automatic
summarization
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
主题信息的中文多文档自动文摘系统
被引量:
5
8
作者
王红玲
张明慧
周国栋
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
出处
《计算机工程与应用》
CSCD
2012年第25期132-136,共5页
基金
国家自然科学基金(No.60873150)
江苏省高校自然科学重大基础研究项目(No.08KJA520002)
文摘
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。
关键词
中文自动文摘
浅层狄利赫雷分配(LDA)
主题模型
多文档
Keywords
automatic
document
summarization
Latent Dirichlet Allocation(LDA)
topic model
multi
-
document
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于名实体的新闻专题自动综述系统研究与实现
被引量:
2
9
作者
索红光
安迪
李健
机构
中国石油大学计算机与通信工程学院
出处
《情报学报》
CSSCI
北大核心
2010年第1期32-37,共6页
文摘
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息。新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌。提出了一种基于名实体的新闻专题自动综述方法。该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计。然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述。实验结果表明,该方法是有效的,具有实用价值。
关键词
自动综述
多文档自动摘要
名实体
Keywords
automatic
summarization
,
multi
-
document
summarization
, named entity
分类号
G210.7 [文化科学—新闻学]
G353.11 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
基于混合方法的多语言多文档自动摘要系统构建及实现
被引量:
5
10
作者
柯修
王惠临
机构
北京大学信息管理系
中国科学技术信息研究所
出处
《图书馆学研究》
CSSCI
北大核心
2013年第2期66-72,共7页
基金
中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2012-6)的研究成果之一
文摘
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。
关键词
多语言自动摘要
多文档自动摘要
图排序算法
文本外部特征
Keywords
multi
lingual
automatic
text
summarization
multi
-
document
automatic
text
summarization
iterative graph
-
based ranking algorithm shallow text characteristics
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于局部话题句群的事件相关多文档摘要研究
被引量:
2
11
作者
吴玲达
雷震
老松杨
雷永林
机构
国防科技大学信息系统与管理学院
出处
《计算机仿真》
CSCD
2006年第11期263-267,共5页
基金
国家自然科学基金项目(60473117)
国家"八六三"高技术研究发展计划基金项目(2001AA115123)
文摘
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。
关键词
多文档自动摘要
新闻事件
局部话题句群
新闻要素
Keywords
multi - document automatic summarization
News event
Partial
-
topic
-
sentence group
News factor
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
多文档自动摘要方法的进展研究
被引量:
5
12
作者
黄文彬
倪少康
机构
北京大学信息管理系
出处
《情报科学》
CSSCI
北大核心
2017年第4期160-165,共6页
基金
中国科技信息研究所项目合作支持
文摘
【目的/意义】多文档自动摘要技术的目的是从一组文档中精炼出重要信息摘要,减轻用户从文档中获取与理解信息的负担,是自然语言理解领域的重要研究方向之一。【方法/过程】本文提取十五年内的多文档自动摘要研究文献并筛选出至少50篇关键影响文章,梳理多文档自动摘要的概念与研究进展,揭示了最新的技术实现与实践情况。【结果/结论】基于不同技术方法对单词、句子或段落作为主要数据处理对象,找出多文档自动摘要的技术特征与难点,明确该领域的发展趋势,为未来的研究奠定了基础。
关键词
自动摘要
多文档处理
自然语言处理
Keywords
document
automatic
summarization
multi
-
document
processing
natural language processing
分类号
G254 [文化科学—图书馆学]
原文传递
题名
基于MapReduce的多文档自动文摘的设计与实现
13
作者
胡琪
邹细勇
机构
中国计量学院光学与电子科技学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第35期67-70,共4页
基金
国家自然科学基金(No.50905170
No.61007012)~~
文摘
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。
关键词
多文档自动文摘
MAPREDUCE
并行计算
Keywords
multi
-
document
automatic
summarization
MapReduce
parallel computing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于手机终端的中文文本网页自动综述系统的研究
14
作者
卢冶
苏勇
须磊
机构
江苏科技大学电气与信息工程学院
出处
《计算机与数字工程》
2013年第6期943-946,995,共5页
文摘
总结了面向中文文本网页的文本综述的生成过程,详细分析了文本预处理、语句相似度计算、局部主题区域发现、差异性获取、综述生成等关键技术。在内容选择上,通过融合关键词和语句的内在特征进行相似度计算来考量语句的相关性;使用文本聚类技术来寻找语句的差异性。同时,基于MyEclipse环境的Java ME平台,结合其轻量级UI工具包LWUIT,使用WTK作为开发工具,设计并实现了基于手机终端的自动综述系统。最后选取了近200篇文献作为测试语料,进行了可接受性评测和基于Q&A的信息性评测,测试结果比较满意。
关键词
文本综述
语句相似度
文本聚类
JAVAME
LWUIT
WTK
Keywords
multi
-
document
automatic
summarization
sentence similarity
text clustering
Java ME
LWUIT
WTK
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
改进的最小最大聚类方法在新闻主题来源追踪中的应用
15
作者
周序生
机构
湖南工业大学
出处
《湖南工业大学学报》
2009年第1期66-70,共5页
基金
湖南省教育厅科研基金资助项目(08C285)
文摘
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法。实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程。
关键词
新闻主题
多文档自动文摘
IMMC
Keywords
news topic
multi
-
document
automatic
summarization
IMMC
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于仿射传播算法的多文档摘要方法
被引量:
3
16
作者
刘晓燕
黄宇
尤红建
机构
中科院空间信息处理与应用系统技术重点实验室
中国科学院电子学研究所
中国科学院大学
出处
《国外电子测量技术》
2014年第8期29-33,共5页
文摘
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类个数。解决了余弦相似矩阵与AP算法输入不匹配的问题。使用类MMR算法对类内中心句进行排序并按压缩比抽取句子,对抽取句子并排序最终生成摘要。基于中文语料的实验表明,该方法生成的摘要具有较高的信息覆盖率。
关键词
AP算法
多文档摘要
自动文摘
信息获取
Keywords
AP algorithm
multi
-
document
summarization
automatic
summarization
information acquisition
分类号
TN711 [电子电信—电路与系统]
在线阅读
下载PDF
职称材料
题名
基于聚类与语义相似分析的多文本自动摘要方法
被引量:
7
17
作者
杜秀英
机构
广州航海学院图书馆
出处
《情报杂志》
CSSCI
北大核心
2017年第6期167-172,共6页
文摘
[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
关键词
自动摘要
云计算
多文本
聚类
语义相似
分布式处理
Keywords
automatic
summarization
cloud computing
multi
-
document
clustering semantic similarity distributed processing
分类号
G252.6 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
多文档文摘语义单元自动去噪器的监督学习方法
18
作者
龚书
瞿有利
田盛丰
机构
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第4期873-882,共10页
基金
国家自然科学基金项目(61105056)
中央高校基本科研业务费专项基金项目(2011JBM231)
文摘
多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升.
关键词
自动去噪
监督学习
多文档文摘
文本表示
预处理
Keywords
Key words
automatic
noise filtering
supervised learning
multi
-
document
summarization
textrepresentation
preprocessing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于信息融合的多文档自动文摘技术
徐永东
徐志明
王晓龙
《计算机学报》
EI
CSCD
北大核心
2007
27
在线阅读
下载PDF
职称材料
2
基于LDA主题特征的自动文摘方法
张明慧
王红玲
周国栋
《计算机应用与软件》
CSCD
2011
24
在线阅读
下载PDF
职称材料
3
自动文摘评价方法综述
张瑾
王小磊
许洪波
《中文信息学报》
CSCD
北大核心
2008
12
在线阅读
下载PDF
职称材料
4
基于浅层分析的多文档自动文摘技术
张姝
赵铁军
郑德权
杨沐昀
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2007
5
在线阅读
下载PDF
职称材料
5
多文档文摘中基于时间信息的句子排序策略研究
徐永东
王亚东
刘杨
王伟
权光日
《中文信息学报》
CSCD
北大核心
2009
8
在线阅读
下载PDF
职称材料
6
面向冗余度控制的中文多文档自动文摘
王红玲
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2012
6
在线阅读
下载PDF
职称材料
7
关键词和被引次数对科技论文自动摘要效果影响研究
刘家益
李鲡瑶
张智雄
邹益民
《情报学报》
CSSCI
CSCD
北大核心
2017
6
在线阅读
下载PDF
职称材料
8
主题信息的中文多文档自动文摘系统
王红玲
张明慧
周国栋
《计算机工程与应用》
CSCD
2012
5
在线阅读
下载PDF
职称材料
9
基于名实体的新闻专题自动综述系统研究与实现
索红光
安迪
李健
《情报学报》
CSSCI
北大核心
2010
2
在线阅读
下载PDF
职称材料
10
基于混合方法的多语言多文档自动摘要系统构建及实现
柯修
王惠临
《图书馆学研究》
CSSCI
北大核心
2013
5
原文传递
11
基于局部话题句群的事件相关多文档摘要研究
吴玲达
雷震
老松杨
雷永林
《计算机仿真》
CSCD
2006
2
在线阅读
下载PDF
职称材料
12
多文档自动摘要方法的进展研究
黄文彬
倪少康
《情报科学》
CSSCI
北大核心
2017
5
原文传递
13
基于MapReduce的多文档自动文摘的设计与实现
胡琪
邹细勇
《计算机工程与应用》
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
14
基于手机终端的中文文本网页自动综述系统的研究
卢冶
苏勇
须磊
《计算机与数字工程》
2013
0
在线阅读
下载PDF
职称材料
15
改进的最小最大聚类方法在新闻主题来源追踪中的应用
周序生
《湖南工业大学学报》
2009
0
在线阅读
下载PDF
职称材料
16
基于仿射传播算法的多文档摘要方法
刘晓燕
黄宇
尤红建
《国外电子测量技术》
2014
3
在线阅读
下载PDF
职称材料
17
基于聚类与语义相似分析的多文本自动摘要方法
杜秀英
《情报杂志》
CSSCI
北大核心
2017
7
在线阅读
下载PDF
职称材料
18
多文档文摘语义单元自动去噪器的监督学习方法
龚书
瞿有利
田盛丰
《计算机研究与发展》
EI
CSCD
北大核心
2013
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部