期刊文献+
共找到277篇文章
< 1 2 14 >
每页显示 20 50 100
Insertion of Ontological Knowledge to Improve Automatic Summarization Extraction Methods
1
作者 Jésus Antonio Motta Laurence Capus Nicole Tourigny 《Journal of Intelligent Learning Systems and Applications》 2011年第3期131-138,共8页
The vast availability of information sources has created a need for research on automatic summarization. Current methods perform either by extraction or abstraction. The extraction methods are interesting, because the... The vast availability of information sources has created a need for research on automatic summarization. Current methods perform either by extraction or abstraction. The extraction methods are interesting, because they are robust and independent of the language used. An extractive summary is obtained by selecting sentences of the original source based on information content. This selection can be automated using a classification function induced by a machine learning algorithm. This function classifies sentences into two groups: important or non-important. The important sentences then form the summary. But, the efficiency of this function directly depends on the used training set to induce it. This paper proposes an original way of optimizing this training set by inserting lexemes obtained from ontological knowledge bases. The training set optimized is reinforced by ontological knowledge. An experiment with four machine learning algorithms was made to validate this proposition. The improvement achieved is clearly significant for each of these algorithms. 展开更多
关键词 automatic summarization ONTOLOGY MACHINE Learning Extraction Method
暂未订购
Using LSA and text segmentation to improve automatic Chinese dialogue text summarization 被引量:3
2
作者 LIU Chuan-han WANG Yong-cheng +1 位作者 ZHENG Fei LIU De-rong 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2007年第1期79-87,共9页
Automatic Chinese text summarization for dialogue style is a relatively new research area. In this paper, Latent Semantic Analysis (LSA) is first used to extract semantic knowledge from a given document, all questio... Automatic Chinese text summarization for dialogue style is a relatively new research area. In this paper, Latent Semantic Analysis (LSA) is first used to extract semantic knowledge from a given document, all question paragraphs are identified, an automatic text segmentation approach analogous to Text'filing is exploited to improve the precision of correlating question paragraphs and answer paragraphs, and finally some "important" sentences are extracted from the generic content and the question-answer pairs to generate a complete summary. Experimental results showed that our approach is highly efficient and improves significantly the coherence of the summary while not compromising informativeness. 展开更多
关键词 automatic text summarization Latent semantic analysis (LSA) Text segmentation Dialogue style COHERENCE Question-answer pairs
在线阅读 下载PDF
Study on controllability of semantic accessibility scale from the internet-based system of automatic text summarization and evaluation 被引量:2
3
作者 DU Jia-li YU Ping-fang +1 位作者 ZHAO Hong-yan XU Jing 《通讯和计算机(中英文版)》 2008年第9期54-60,共7页
关键词 通信技术 计算机技术 控制方法 自动化系统
在线阅读 下载PDF
融合知识和语义信息的双编码器自动摘要模型 被引量:1
4
作者 贾莉 马廷淮 +1 位作者 桑晨扬 潘倩 《计算机工程与应用》 北大核心 2025年第7期213-221,共9页
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating kn... 为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。 展开更多
关键词 知识图谱编码器 图注意力机制 指针网络 增强训练 自动摘要
在线阅读 下载PDF
结合主题分割和自动文摘的演示文稿生成方法
5
作者 王鑫 李宁 田英爱 《计算机应用与软件》 北大核心 2025年第8期35-40,共6页
通过演示文稿传播学术成果是一种常见做法,然而手工制作演示文稿过于繁琐。该文以学术论文为蓝本,提出一种结合主题分割和自动文摘的演示文稿生成方法。该方法首先在论文章节结构的基础上对正文进行主题分割,构建演示文稿层次结构,再利... 通过演示文稿传播学术成果是一种常见做法,然而手工制作演示文稿过于繁琐。该文以学术论文为蓝本,提出一种结合主题分割和自动文摘的演示文稿生成方法。该方法首先在论文章节结构的基础上对正文进行主题分割,构建演示文稿层次结构,再利用自动文摘抽取论文中的重要文本,基于主题生成演示文稿。实验证明,该方法生成的演示文稿不仅体现论文的行文逻辑,在ROUGE-1、ROUGE-2、ROUGE-L三个指标上也均有所提高。 展开更多
关键词 演示文稿生成 主题分割 自动文摘 ROUGE指标
在线阅读 下载PDF
基于深度学习的自动文本摘要研究综述 被引量:1
6
作者 其其日力格 斯琴图 王斯日古楞 《计算机工程与应用》 北大核心 2025年第18期24-40,共17页
自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神... 自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神经网络、预训练语言模型、序列到序列模型和强化学习等技术在自动文本摘要中的应用,并分析了各类模型的优缺点;介绍了自动文本摘要领域常用的公开数据集、国内低资源语言数据集及评价指标。通过多维度实验对比分析总结了现有技术面临的问题,提出了相应的改进方案。最后,探讨了自动文本摘要的未来研究方向,为后续研究提供参考。 展开更多
关键词 自动文本摘要 深度学习 生成式摘要 抽取式摘要 自然语言处理
在线阅读 下载PDF
嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成研究
7
作者 向博文 柴梦丹 向卓元 《数据分析与知识发现》 北大核心 2025年第8期73-85,共13页
【目的】鉴于司法裁判文书摘要需要与原文在基于案件事实、法律适用等要素方面保持一致,提出嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成方法。【方法】定义司法裁判文书摘要事实一致性判定的原则和方法;确定数据增加、事实... 【目的】鉴于司法裁判文书摘要需要与原文在基于案件事实、法律适用等要素方面保持一致,提出嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成方法。【方法】定义司法裁判文书摘要事实一致性判定的原则和方法;确定数据增加、事实一致性纠错和测评等预处理流程;分别构建分段抽取模型和引入司法要素知识图的生成式摘要模型,并在CAIL2020数据集上进行实验。【结果】本文提出的FC-JDSM模型生成的摘要在指标ROUGE-N(N=1、2、L)、SRO、EM-FCJS上分别为67.98%、55.40%、64.14%、78.54%、90.01%,均优于比较模型。消融实验证实了分块抽取和事实信息引入的有效性。【局限】事实一致性评测模型中的数据增强方案得到的数据与真实数据存在偏差。【结论】将司法要素融入一致性评测和摘要生成过程中,能提高中文司法裁判文书摘要一致性,有利于司法工作的公正性。 展开更多
关键词 司法文书 自动摘要 事实一致性 评测指标 摘要生成模型
原文传递
Weakly Supervised Abstractive Summarization with Enhancing Factual Consistency for Chinese Complaint Reports
8
作者 Ren Tao Chen Shuang 《Computers, Materials & Continua》 SCIE EI 2023年第6期6201-6217,共17页
A large variety of complaint reports reflect subjective information expressed by citizens.A key challenge of text summarization for complaint reports is to ensure the factual consistency of generated summary.Therefore... A large variety of complaint reports reflect subjective information expressed by citizens.A key challenge of text summarization for complaint reports is to ensure the factual consistency of generated summary.Therefore,in this paper,a simple and weakly supervised framework considering factual consistency is proposed to generate a summary of city-based complaint reports without pre-labeled sentences/words.Furthermore,it considers the importance of entity in complaint reports to ensure factual consistency of summary.Experimental results on the customer review datasets(Yelp and Amazon)and complaint report dataset(complaint reports of Shenyang in China)show that the proposed framework outperforms state-of-the-art approaches in ROUGE scores and human evaluation.It unveils the effectiveness of our approach to helping in dealing with complaint reports. 展开更多
关键词 automatic summarization abstractive summarization weakly supervised training entity recognition
在线阅读 下载PDF
中文大模型生成式摘要能力评估
9
作者 王俊超 樊可汗 霍智恒 《中文信息学报》 北大核心 2025年第1期1-15,共15页
从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展... 从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。 展开更多
关键词 自动文本摘要 大语言模型 能力评估
在线阅读 下载PDF
Support Vector Machine Based Handwritten Hindi Character Recognition and Summarization
10
作者 Sunil Dhankhar Mukesh Kumar Gupta +3 位作者 Fida Hussain Memon Surbhi Bhatia Pankaj Dadheech Arwa Mashat 《Computer Systems Science & Engineering》 SCIE EI 2022年第10期397-412,共16页
In today’s digital era,the text may be in form of images.This research aims to deal with the problem by recognizing such text and utilizing the support vector machine(SVM).A lot of work has been done on the English l... In today’s digital era,the text may be in form of images.This research aims to deal with the problem by recognizing such text and utilizing the support vector machine(SVM).A lot of work has been done on the English language for handwritten character recognition but very less work on the under-resourced Hindi language.A method is developed for identifying Hindi language characters that use morphology,edge detection,histograms of oriented gradients(HOG),and SVM classes for summary creation.SVM rank employs the summary to extract essential phrases based on paragraph position,phrase position,numerical data,inverted comma,sentence length,and keywords features.The primary goal of the SVM optimization function is to reduce the number of features by eliminating unnecessary and redundant features.The second goal is to maintain or improve the classification system’s performance.The experiment included news articles from various genres,such as Bollywood,politics,and sports.The proposed method’s accuracy for Hindi character recognition is 96.97%,which is good compared with baseline approaches,and system-generated summaries are compared to human summaries.The evaluated results show a precision of 72%at a compression ratio of 50%and a precision of 60%at a compression ratio of 25%,in comparison to state-of-the-art methods,this is a decent result. 展开更多
关键词 Support vector machine(SVM) optimization PRECISION Hindi character recognition optical character recognition(OCR) automatic summarization and compression ratio
在线阅读 下载PDF
论民事争议焦点自动生成的正当性
11
作者 刘韵 《中国海洋大学学报(社会科学版)》 2025年第5期94-103,共10页
民事争议焦点自动生成是人工智能技术赋能下的一种本案争议焦点自动整理和确定的方式。在外部需求层面上,争议焦点自动生成为“人案矛盾”“争议焦点整理形式化”等困境提供了现代化的解决方案,契合司法改革方向。在民事诉讼内部体系的... 民事争议焦点自动生成是人工智能技术赋能下的一种本案争议焦点自动整理和确定的方式。在外部需求层面上,争议焦点自动生成为“人案矛盾”“争议焦点整理形式化”等困境提供了现代化的解决方案,契合司法改革方向。在民事诉讼内部体系的协调层面上,一方面,争议焦点自动生成可平衡公正和效率价值之间的张力,在保障平等原则实质化的同时,推动处分原则、辩论原则的时代化发展;另一方面,在“审前+庭审”两阶段程序构造下,本案争议焦点在审前程序中自动生成与审前程序的目的及阶段性权利保护程度相匹配。在技术支撑层面上,民事争议焦点自动生成内在的请求权基础思维、攻击防御体系的对抗式过程场景,与计算机的线性程序模式和标准化决策结构契合,具有技术可行性。 展开更多
关键词 争议焦点整理 争议焦点自动生成 正当性基础 程序相称 程序保障
在线阅读 下载PDF
Constructing a taxonomy to support multi-document summarization of dissertation abstracts
12
作者 KHOO Christopher S.G. GOH Dion H. 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第11期1258-1267,共10页
This paper reports part of a study to develop a method for automatic multi-document summarization. The current focus is on dissertation abstracts in the field of sociology. The summarization method uses macro-level an... This paper reports part of a study to develop a method for automatic multi-document summarization. The current focus is on dissertation abstracts in the field of sociology. The summarization method uses macro-level and micro-level discourse structure to identify important information that can be extracted from dissertation abstracts, and then uses a variable-based framework to integrate and organize extracted information across dissertation abstracts. This framework focuses more on research concepts and their research relationships found in sociology dissertation abstracts and has a hierarchical structure. A taxonomy is constructed to support the summarization process in two ways: (1) helping to identify important concepts and relations expressed in the text, and (2) providing a structure for linking similar concepts in different abstracts. This paper describes the variable-based framework and the summarization process, and then reports the construction of the taxonomy for supporting the summarization process. An example is provided to show how to use the constructed taxonomy to identify important concepts and integrate the concepts extracted from different abstracts. 展开更多
关键词 Text summarization automatic multi-document summarization Variable-based framework Digital library
在线阅读 下载PDF
基于分层表示和上下文增强的类摘要生成技术 被引量:2
13
作者 陈豪伶 虞慧群 +2 位作者 范贵生 李明辰 黄子杰 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期307-323,共17页
代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一... 代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一种基于分层表示和上下文增强的类摘要生成方法HRCE(hierarchical representation and context enhancement),并构建了一个包含358 992个?Java类,上下文,摘要?数据对的类摘要数据集.HRCE使用代码精简策略去除类的非关键代码,从而缩短代码长度.然后,对类的层次结构,包括类签名、属性和方法分别进行建模,获得类的语义信息和层次结构信息.此外,从项目中抽取父类的签名及摘要来刻画类在项目中依赖的上下文.实验表明,基于分层表示和上下文增强的生成模型能够表征代码的语义和层次结构,并可以从目标类的内部和外部获取信息. HRCE在BLEU,METEOR,ROUGE-L等评估指标上超过了所有基准模型. 展开更多
关键词 代码自动摘要 分层表示 上下文增强 深度学习 类摘要
在线阅读 下载PDF
AIGC驱动古籍自动摘要研究:从自然语言理解到生成 被引量:10
14
作者 吴娜 刘畅 +1 位作者 刘江峰 王东波 《图书馆论坛》 CSSCI 北大核心 2024年第9期111-123,共13页
作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发... 作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发展提供参考,助力数字人文理念下的古籍内容价值实现。首先基于GujiBERT、SikuBERT、BERT-ancient-Chinese模型进行语义表征,并使用LexRank算法进行重要性排序以抽取摘要。然后利用GPT-3.5-turbo、GPT-4和ChatGLM3模型生成摘要,并构建ChatGLM3和GPT-3.5-turbo微调模型。最后采用信息覆盖率和信息多样性指标对抽取式摘要结果进行评测,采用rouge和mauve指标对生成式摘要结果进行评测。研究表明:SikuBERT在抽取式摘要任务中对古文的语义表征能力和理解能力较强;通用大语言模型在古籍领域的自动摘要能力各有特色,但主旨提炼能力有所欠缺;通过小样本数据集微调GPT-3.5-turbo和ChatGLM3模型能有效提升模型的摘要生成能力。 展开更多
关键词 古籍价值再造 自动摘要 SikuBERT 大语言模型
在线阅读 下载PDF
面向司法文书的抽取-生成式自动摘要模型 被引量:1
15
作者 陈炫言 安娜 +1 位作者 孙宇 周炼赤 《计算机工程与设计》 北大核心 2024年第4期1117-1125,共9页
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联... 为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。 展开更多
关键词 自动摘要 抽取式 生成式 算法融合 裁判文书 法律领域 完整连贯性
在线阅读 下载PDF
基于深度学习的海洋热点新闻挖掘方法 被引量:2
16
作者 覃娴萍 丁昭旭 +1 位作者 仲国强 王栋 《计算机科学》 CSCD 北大核心 2024年第S02期98-107,共10页
移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相... 移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相关媒体报道、公众舆论在网上大量涌现,热点事件频频发生。针对多来源、多属性的网络海洋信息,基于多源文本聚类和自动摘要技术,提出一种基于深度学习的海洋热点新闻自动挖掘系统,包括多源涉海数据自动采集、数据预处理、特征提取、文本聚类、自动摘要五大功能模块。具体而言,网络爬虫程序从多个数据源采集多样且分散的海洋数据,自动将数据结构化后存入数据库;根据文本特征的近似程度和文本间的关联关系实现聚类分析,聚类结果为后继摘要生成、主题发现提供数据支撑;基于预训练语言模型强大的上下文理解能力和丰富的语言表达能力,提出基于预训练语言模型的海洋新闻自动摘要生成方法。通过多组实验证明了所提方法在各个评估指标上的有效性,突显出其在多源异构网络海洋新闻挖掘方面的优势。该方法为处理分散的海洋资讯信息、生成可读性更强的内容摘要提供可行的解决方案,对提高海洋信息获取效率、监测公众舆论走向、推动海洋信息的应用与传播具有重要意义。 展开更多
关键词 海洋新闻 文本聚类 自动摘要 深度学习 自然语言处理 预训练模型
在线阅读 下载PDF
基于改动树检索的拉取请求描述生成方法 被引量:1
17
作者 蒋竞 刘子豪 +1 位作者 张莉 汪亮 《软件学报》 EI CSCD 北大核心 2024年第11期5065-5082,共18页
随着开源人工智能系统规模的扩大,软件的开发与维护也变得困难.GitHub是开源社区最重要的开源项目托管平台之一,通过GitHub提供的拉取请求系统,开发者可以方便地参与到开源项目的开发.拉取请求的描述可以帮助项目核心团队理解拉取请求... 随着开源人工智能系统规模的扩大,软件的开发与维护也变得困难.GitHub是开源社区最重要的开源项目托管平台之一,通过GitHub提供的拉取请求系统,开发者可以方便地参与到开源项目的开发.拉取请求的描述可以帮助项目核心团队理解拉取请求的内容和开发者的意图,促进拉取请求被接受.当前,存在可观比例的开发者没有为拉取请求提供描述,既增加了核心团队的工作负担,也不利于项目日后的维护工作.提出一种自动为拉取请求生成描述的方法PRSim.所提方法提取拉取请求包含的提交说明、注释更新和代码改动等特征,建立语法改动树,使用树结构自编码器编码以检索代码改动相似的其他拉取请求,参照相似拉取请求的描述,使用编码器-解码器网络概括提交说明和注释更新,生成新拉取请求的描述.实验结果表明,PRSim的生成效果在Rouge-1、Rouge-2和Rouge-L这3个指标的F1分数上分别达到36.47%、27.69%和35.37%,与现有方法LeadCM相比分别提升了34.3%、75.2%和55.3%,与方法Attn+PG+RL相比分别提升了16.2%、22.9%和16.8%,与方法PRHAN相比分别提升了23.5%、72.0%和24.8%. 展开更多
关键词 拉取请求 语法改动树 相似度计算 自动摘要 开源社区
在线阅读 下载PDF
基于二阶段对比学习的中文自动文本摘要方法研究 被引量:1
18
作者 杨子健 郭卫斌 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期586-593,共8页
在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,... 在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,而这种不一致将导致训练模型和测试模型直接的差异。本文提出了一个两阶段对比学习框架以实现面向中文文本的生成式摘要训练,同时从摘要模型的训练以及摘要评价的建模进行对比学习。在大规模中文短文本摘要数据集(LCSTS)以及自然语言处理与中文计算会议的文本数据集(NLPCC)上的实验结果表明,相比于基线模型,本文方法可以获得更高的面向召回率的摘要评价方法(ROUGE)指标,并能更好地解决暴露偏差问题。 展开更多
关键词 中文自动文本摘要 对比学习 暴露偏差 预处理模型 ROUGE指标
在线阅读 下载PDF
融合多模态信息的产品摘要抽取模型
19
作者 赵强 王中卿 王红玲 《计算机应用》 CSCD 北大核心 2024年第1期73-78,共6页
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具... 在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。 展开更多
关键词 产品摘要 多模态摘要 抽取式摘要 多模态融合 自动文摘
在线阅读 下载PDF
基于领域概念图的航天新闻自动摘要模型 被引量:1
20
作者 黄浩宁 陈志敏 +1 位作者 徐聪 张晓燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第1期317-327,共11页
互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提... 互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提出一种基于领域概念图的无监督自动摘要(DCG-TextRank)模型,利用领域术语辅助引导图排序,提高模型对领域文本的理解力。该模型分3个模块:领域概念图生成、图权重初始化、图排序及语义筛选。根据句向量相似度和领域术语库,将文本转换为包含句子节点和领域术语节点的领域概念图;根据航天新闻文本特征初始化领域概念图权值;采用TextRank模型对句子进行排序,并在语义筛选模块通过图节点聚类及设置摘要语义保留度的方法改进TextRank的输出,充分保留文本的多语义信息并降低冗余。所提模型具有领域可移植性,且实验结果表明:在航天新闻数据集中,所提模型相比传统TextRank模型性能提升了14.97%,相比有监督抽取式文本摘要模型BertSum和MatchSum性能提升了4.37%~12.97%。 展开更多
关键词 自动文本摘要 领域概念图 预训练语言模型 图排序算法 图节点聚类
原文传递
上一页 1 2 14 下一页 到第
使用帮助 返回顶部