期刊文献+
共找到325篇文章
< 1 2 17 >
每页显示 20 50 100
Long Text Classification Algorithm Using a Hybrid Model of Bidirectional Encoder Representation from Transformers-Hierarchical Attention Networks-Dilated Convolutions Network 被引量:1
1
作者 ZHAO Yuanyuan GAO Shining +1 位作者 LIU Yang GONG Xiaohui 《Journal of Donghua University(English Edition)》 CAS 2021年第4期341-350,共10页
Text format information is full of most of the resources of Internet,which puts forward higher and higher requirements for the accuracy of text classification.Therefore,in this manuscript,firstly,we design a hybrid mo... Text format information is full of most of the resources of Internet,which puts forward higher and higher requirements for the accuracy of text classification.Therefore,in this manuscript,firstly,we design a hybrid model of bidirectional encoder representation from transformers-hierarchical attention networks-dilated convolutions networks(BERT_HAN_DCN)which based on BERT pre-trained model with superior ability of extracting characteristic.The advantages of HAN model and DCN model are taken into account which can help gain abundant semantic information,fusing context semantic features and hierarchical characteristics.Secondly,the traditional softmax algorithm increases the learning difficulty of the same kind of samples,making it more difficult to distinguish similar features.Based on this,AM-softmax is introduced to replace the traditional softmax.Finally,the fused model is validated,which shows superior performance in the accuracy rate and F1-score of this hybrid model on two datasets and the experimental analysis shows the general single models such as HAN,DCN,based on BERT pre-trained model.Besides,the improved AM-softmax network model is superior to the general softmax network model. 展开更多
关键词 long text classification dilated convolution BERT fusing context semantic features hierarchical characteristics BERT_HAN_DCN AM-softmax
在线阅读 下载PDF
基于TextRank和自注意力的长文档无监督抽取式摘要
2
作者 邢玲 程兵 闫强 《计算机应用与软件》 北大核心 2025年第3期274-283,共10页
针对中文长文档自动文本摘要问题,提出将TextRank与自注意力相融合的两种模型:TRAI和TRAO。TRAI将基于统计共现字数得到的句子相似性同基于自注意力得到的句子相关性进行加权求和,作为TextRank边的权重参与迭代计算,对句子进行打分。TRA... 针对中文长文档自动文本摘要问题,提出将TextRank与自注意力相融合的两种模型:TRAI和TRAO。TRAI将基于统计共现字数得到的句子相似性同基于自注意力得到的句子相关性进行加权求和,作为TextRank边的权重参与迭代计算,对句子进行打分。TRAO利用TextRank对句子打分;利用自注意力重新表示每个句子融合整个文档信息的分布式向量,在此基础上计算句子间余弦相似度,作为TextRank边的权重参与迭代计算,给句子打分;将两种得分加权求和作为句子最终得分。两种模型均根据得分对句子进行排序得到候选摘要。为去除摘要冗余性,利用最大边界相关法(Maximal Marginal Relevance,MMR)在候选摘要中选取摘要句子。将提出的两种模型在构建的长文档上进行实验,与TextRank方法相比,所提方法在ROUGE评价指标上有显著提高。 展开更多
关键词 中文长文本摘要 textRank 自注意力机制 分布式向量表示 语义信息 融合文档信息
在线阅读 下载PDF
基于深度学习的法律判决预测研究综述
3
作者 刘世娟 余树坤 +3 位作者 张宸玮 刘谢天 李培森 田萱 《计算机工程与应用》 北大核心 2026年第1期68-86,共19页
法律判决预测(legal judgment prediction,LJP)作为智慧司法领域的关键任务,聚焦于运用自然语言处理技术深度剖析法律文本,进而精准预测案件的法条适用、指控类别及刑罚结果。随着人工智能与司法领域的深度融合,高效可靠的LJP方法对提... 法律判决预测(legal judgment prediction,LJP)作为智慧司法领域的关键任务,聚焦于运用自然语言处理技术深度剖析法律文本,进而精准预测案件的法条适用、指控类别及刑罚结果。随着人工智能与司法领域的深度融合,高效可靠的LJP方法对提升司法效率、促进智能判决具有重大现实意义。然而,现有研究在技术路径与理论框架层面仍存在显著局限,系统性梳理该领域核心挑战与方法论创新的研究亟待加强。该研究梳理了LJP的实现流程,涵盖输入、编码、预测及结果生成环节,深度挖掘各阶段核心挑战,诸如输入信息的局限性、长文本处理困境、先例利用的不充分性等,并系统归纳相应研究方法,包括多任务学习架构的搭建、对比学习范式的应用、可解释性强化路径的探索等,并指出多模态信息融合、非结构化文本高效处理、小样本优化等未来研究方向。 展开更多
关键词 法律判决预测 深度学习 阶段性挑战 多任务学习 长文本处理
在线阅读 下载PDF
面向长文本的通配符对称搜索加密方案
4
作者 张茜 王柳旭 +4 位作者 苏烨 杨海宁 李青茹 谷志斌 王长广 《河北师范大学学报(自然科学版)》 2026年第1期9-24,共16页
针对数据要素在生命周期使用过程中面临的安全检索问题,以能够准确描述多种数据类型的长文本为研究对象,聚焦对称加密场景下的长文本安全检索需求,围绕长文本密文搜索的问题建模、算法设计与安全模型构建等方面展开研究,设计了一种面向... 针对数据要素在生命周期使用过程中面临的安全检索问题,以能够准确描述多种数据类型的长文本为研究对象,聚焦对称加密场景下的长文本安全检索需求,围绕长文本密文搜索的问题建模、算法设计与安全模型构建等方面展开研究,设计了一种面向长文本的对称可搜索加密方案.针对长文本数据字符规模大、字符空间固定和位置特征显著等特点,提出了粒子化搜索思想,并构建了相应的实例化位图索引结构,进而设计出支持任意通配符的长文本密文搜索方案.该方案在基于模拟的框架下被证明满足L-适应性安全.为进一步评估方案的实际效率,首先在理论上与多个现有方案在存储、计算和通信开销方面进行了对比分析,证明了所提方案在理论上的高效性,进一步地,通过实验将所提方案与明文基线方案进行性能对比.结果表明,所提方案的索引构建时间约为基线方案的100倍,而搜索时间与基线方案处于同一量级,验证了方案在搜索阶段的实用性与高效性. 展开更多
关键词 可搜索加密 对称可搜索加密 通配符可搜索加密 适应性安全 长文本密文搜索
在线阅读 下载PDF
中文科技政策文本分类:增强的TextCNN视角 被引量:8
5
作者 李牧南 王良 赖华鹏 《科技管理研究》 CSSCI 北大核心 2023年第2期160-166,共7页
近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神... 近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。 展开更多
关键词 NEWT 深度学习 数据增强 卷积神经网络 政策文本分类 中文长文本
在线阅读 下载PDF
基于图卷积神经网络的二阶段长文本自动摘要方法
6
作者 霍智恒 王俊超 +1 位作者 樊可汗 庞建民 《中文信息学报》 北大核心 2026年第1期144-152,共9页
针对当前自动文本摘要技术对长文本的全局信息提取能力较弱、文本长距离依赖不足的问题,该文提出了一种基于图卷积神经网络和预训练模型结合的二阶段摘要模型GFL-AS。该模型第一阶段将文本构建成一个基于共现关系的文本图,以单词为节点... 针对当前自动文本摘要技术对长文本的全局信息提取能力较弱、文本长距离依赖不足的问题,该文提出了一种基于图卷积神经网络和预训练模型结合的二阶段摘要模型GFL-AS。该模型第一阶段将文本构建成一个基于共现关系的文本图,以单词为节点,通过图神经网络筛选出关键节点,重新构成一个不包含无关信息的文本。第二阶段以中文摘要模型为核心,进行生成式文本摘要任务。此外,针对文本图中重要节点和非重要节点不均衡的问题,设计了适用于图神经网络节点分类的损失函数GFL。在长文本数据集CLTS和NLPCC2017上的实验结果表明,该模型在摘要指标ROUGE-1、ROUGE-2和ROUGE-L上超过了基线模型,提高了现有模型摘要的能力,证明GFL-AS模型是有效的。 展开更多
关键词 图卷积神经网络 聚焦交叉熵 长文本摘要
在线阅读 下载PDF
一种基于预训练语言模型的多特征融合文章对匹配模型
7
作者 陆顺意 何庆 《计算机工程与科学》 北大核心 2026年第2期363-371,共9页
针对传统文本语义匹配方法存在难以深入挖掘文本间深度语义特征及交互关系的问题,提出了一种基于预训练语言模型的多特征融合文章对匹配模型MF-APM。首先,通过数据增强策略对文章内容进行删减,以筛选出关键句子。其次,将增强后的新闻文... 针对传统文本语义匹配方法存在难以深入挖掘文本间深度语义特征及交互关系的问题,提出了一种基于预训练语言模型的多特征融合文章对匹配模型MF-APM。首先,通过数据增强策略对文章内容进行删减,以筛选出关键句子。其次,将增强后的新闻文档输入到具有孪生网络结构的Longformer模型来提取文章内容的深层特征,结合注意力特征融合方法得到文档匹配信息。其次,使用BERT对新闻标题进行交互式编码,将得到的编码向量输入到多头注意力机制中,以提取标题的深层次交互特征,进而获得标题交互信息。最后,通过将标题交互信息和文档交互信息的语义特征通过最大池化特征融合的方式实现文本对关系的预测。此外,在模型训练过程中,还引入了PolyLoss来代替传统的二进制交叉熵损失函数,有效降低了超参数调整的复杂性。将提出的MF-APM与其他匹配模型在CNSE和CNSS这2个数据集上进行比较,实验结果相较于基线模型,MF-APM模型在CNSE和CNSS数据集上的准确率分别至少提升了0.41和1.59个百分点,F 1值分别至少提升了4.64和1.66个百分点,有效提升了文章对匹配任务的准确性。 展开更多
关键词 预训练语言模型 长文本匹配 多头注意力机制 注意力特征融合 PolyLoss函数
在线阅读 下载PDF
基于语料库与预训练模型的非遗实体识别
8
作者 张新生 杨颖洁 《计算机工程与设计》 北大核心 2026年第1期286-293,共8页
针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-... 针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-ext预训练语言模型提取高精度的词嵌入向量,借助BiLSTM提取非遗文本特征,CRF完成实体标签序列预测,实现对非遗文本语料中实体及其类别的识别。在自建语料库ICHSX-NER上进行多组实验,实验结果表明:模型的macro-F1值达90.62%,验证了在非遗文本实体识别任务中的有效性。 展开更多
关键词 命名实体识别 预训练语言模型 非遗文本语料库 动态全词掩码策略 双向长短期记忆网络 条件随机场 深度学习
在线阅读 下载PDF
基于长文本和特征增强的煤矿事故实体识别
9
作者 温乃宁 范爽爽 史晓楠 《计算机工程与设计》 北大核心 2025年第9期2683-2689,共7页
针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平... 针对煤矿事故领域中长文本、长实体和复杂实体难以准确识别的问题,提出一种基于长文本和特征增强的煤矿事故实体识别模型。该模型嵌入层在ALBERT的基础上引入了全局注意力掩码,用来调节滑窗注意力和全局注意力之间的分配,从而更好的平衡全局和局部信息;编码层引入门控线性单元和BiLSTM增强模型的特征表示能力;解码层使用CRF来获得最佳标记序列。实验结果表明,该模型较基准模型的F1值提升了1.9%,在煤矿事故实体识别中具有优越的性能。 展开更多
关键词 命名实体识别 煤矿事故 预训练语言模型 门控线性单元 注意力机制 长文本 特征增强
在线阅读 下载PDF
面向舆论情感识别的自然语言处理技术 被引量:4
10
作者 王敏 汪旭 《现代电子技术》 北大核心 2025年第12期115-119,共5页
为提高舆情风险预测的准确性和效率,提出一种基于注意力机制与双向长短期记忆(BiLSTM)网络相结合的舆情感知模型。该方法通过结合BiLSTM的双向建模能力与注意力机制的特征聚焦能力,精准捕捉舆论数据中的情感波动和上下文语义特征,从而... 为提高舆情风险预测的准确性和效率,提出一种基于注意力机制与双向长短期记忆(BiLSTM)网络相结合的舆情感知模型。该方法通过结合BiLSTM的双向建模能力与注意力机制的特征聚焦能力,精准捕捉舆论数据中的情感波动和上下文语义特征,从而提升舆情风险的预测精度。同时以“高考冒名顶替”事件为样本,展开网络舆论数据分析。通过与ELM、随机森林、决策树、LSTM、BiGRU和BiLSTM等多种主流算法进行对比实验,验证所提模型的有效性和优越性。在算法设计中,注意力机制的引入有效地提升了模型在长文本情感分类中的表现,能够精确捕捉情感变化的关键节点。实验结果表明,所提出的预测模型能够有效地识别出舆情风险,准确率达到94.87%,相比于表现最优的BiGRU算法提高了约5.75%。 展开更多
关键词 舆情风险预测 情感识别 自然语言处理 双向长短期记忆网络 注意力机制 文本分类
在线阅读 下载PDF
面向工艺设计的领域大模型构建方法 被引量:4
11
作者 刘祥根 郭彦 +6 位作者 李玥 史建成 刘文 邓洪波 孙晨伟 李阳 吕建成 《四川大学学报(自然科学版)》 北大核心 2025年第3期513-521,共9页
面向工艺设计的智能化需求,领域大模型的构建方法成为关键研究方向.尽管大规模语言模型(Large Language Models,LLMs)的发展极大地推动了自然语言处理技术的进步,但工艺设计领域的数据通常存在样本稀缺、格式复杂以及缺乏结构化标签等问... 面向工艺设计的智能化需求,领域大模型的构建方法成为关键研究方向.尽管大规模语言模型(Large Language Models,LLMs)的发展极大地推动了自然语言处理技术的进步,但工艺设计领域的数据通常存在样本稀缺、格式复杂以及缺乏结构化标签等问题,使得通用LLMs训练方法难以直接适用.此外,传统注意力机制在处理长文本和复杂任务时仍然面临计算复杂度高、资源消耗大、全局语义不稳定等挑战,进一步限制了大模型在工艺设计任务中的适应性.为解决这一问题,本研究提出了一种面向工艺设计的领域大模型构建方法,并在此基础上训练了具备100亿参数规模的工艺设计大模型——鲁班-10B.该方法引入混合稀疏注意力机制,通过保留起始词元的注意力权重,并基于查询内容动态选取相关性最高的若干历史词元,避免对完整序列计算密集型注意力矩阵,在有效降低计算复杂度的同时,提升模型对长文本中关键信息的建模能力.实验结果表明,鲁班-10B能够有效提升领域大模型在工艺设计任务中的适应能力与生成表现,为智能化工艺设计提供了新的技术路径与支撑. 展开更多
关键词 大规模语言模型 注意力机制 长文本生成 工艺设计
在线阅读 下载PDF
管理者长期主义促进了商业向善吗?——基于创业板上市公司社会责任的视角
12
作者 徐宁 张迪 李昱潼 《经济与管理研究》 北大核心 2025年第9期108-125,共18页
商业向善是维系企业乃至社会可持续发展的必由之路,但创业板公司在履行社会责任方面的积极性整体偏弱,内生动力尚不明确。本文基于跨期选择理论,在运用文本分析与机器学习方法构建管理者长期主义指标的基础上,以创业板上市公司为样本研... 商业向善是维系企业乃至社会可持续发展的必由之路,但创业板公司在履行社会责任方面的积极性整体偏弱,内生动力尚不明确。本文基于跨期选择理论,在运用文本分析与机器学习方法构建管理者长期主义指标的基础上,以创业板上市公司为样本研究管理者长期主义特质对企业社会责任承担的影响及机制。结果显示:(1)管理者长期主义能够有效促进创业板公司社会责任的履行;(2)管理者长期主义能够通过缓解两类委托代理问题与提高内部控制质量促进创业板公司的社会责任承担;(3)管理者激励强度与环境不确定性等内外部因素增强了管理者长期主义对创业板公司社会责任承担的积极效应;(4)在非国有产权性质下以及位于市场化指数较高的地区,管理者长期主义的作用更为明显。本文的研究结论丰富了创业板公司社会责任前因以及管理者长期主义作用后果的相关文献,拓展了跨期选择理论在管理学领域的应用边界,并为组建与激励高管团队以促进商业向善提供了新视角与新路径。 展开更多
关键词 管理者长期主义 企业社会责任 文本分析 机器学习 跨期选择理论
在线阅读 下载PDF
基于BERT融合算法的病例文本结构化模型研究
13
作者 张雪 王琛琛 职宁 《中国医疗设备》 2025年第9期12-19,共8页
目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长... 目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长短时记忆网络建立时序关系,并引入条件随机场优化标签序列的一致性。实验选用MIMIC-Ⅲ和ClinicalSTS这2个权威临床数据集进行分析,构建五类医学文本分类任务,对比所有模型在不同结构组合下的性能表现。结果本研究所提出的病例文本结构化模型的精准度、召回率和F1得分分别为0.92、0.90和0.91,均较传统双向编码器模型提升约10%;在处理超过1000字的长文本场景时,模型效率提升达12%,表现出良好的时效性与可扩展性。结论本研究通过验证深度融合多种结构对提高病例文本结构化处理能力的有效性,为智能医学文本分析提供了理论依据。 展开更多
关键词 病例文本 长短时记忆网络 BERT 图卷积神经网络 结构化模型 医学智能化
在线阅读 下载PDF
融合BiLSTM与CNN的推特黑灰产分类模型 被引量:3
14
作者 朱恩德 王威 高见 《计算机工程与应用》 北大核心 2025年第1期186-195,共10页
当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memor... 当前推特等国外社交平台,已成为从事网络黑灰产犯罪不可或缺的工具,对推特上黑灰产账号进行发现、检测和分类对于打击网络犯罪、维护社会稳定具有重大意义。现有的推文分类模型双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)可以学习推文的上下文信息,却无法学习局部关键信息,卷积神经网络(convolution neural network,CNN)模型可以学习推文的局部关键信息,却无法学习推文的上下文信息。结合BiLSTM与CNN两种模型的优势,提出了BiLSTM-CNN推文分类模型,该模型将推文进行向量化后,输入BiLSTM模型学习推文的上下文信息,再在BiLSTM模型后引入CNN层,进行局部特征的提取,最后使用全连接层将经过池化的特征连接在一起,并应用softmax函数进行四分类。模型在自主构建的中文推特黑灰产推文数据集上进行实验,并使用TextCNN、TextRNN、TextRCNN三种分类模型作为对比实验,实验结果显示,所提的BiLSTM-CNN推文分类模型在对四类推文进行分类的宏准确率为98.32%,明显高于TextCNN、TextRNN和TextRCNN三种模型的准确率。 展开更多
关键词 文本分类 双向长短期记忆网络(BiLSTM) 卷积神经网络(CNN) 黑灰产 推特
在线阅读 下载PDF
融合降噪微调与图注意力机制的藏文长文本分类
15
作者 敬容 万福成 +2 位作者 黄锐 于洪志 马宁 《计算机工程与科学》 北大核心 2025年第6期1133-1140,共8页
在藏文长文本分类任务中,长距离依赖问题尤为突出。同时,多语言预训练模型在处理藏文文本分类任务时也存在一定的偏差。针对以上问题,基于预训练语言模型CINO-Large,提出融合降噪微调与图注意力机制的藏文长文本分类方法。首先,在CINO-L... 在藏文长文本分类任务中,长距离依赖问题尤为突出。同时,多语言预训练模型在处理藏文文本分类任务时也存在一定的偏差。针对以上问题,基于预训练语言模型CINO-Large,提出融合降噪微调与图注意力机制的藏文长文本分类方法。首先,在CINO-Large中引入不完全信任损失函数In-trust,通过任务适应性损失增强模型在下游任务中的泛化能力。其次,在图结构建模中引入滑动窗口和线性分类,选择性增加文档与文档边缘,提高节点间的特征区分度。最后,利用图注意力机制GAT捕捉不同节点在图中的重要性,完成藏文长文本分类任务。在TNCC中的新闻长文本上,由所提方法构建的模型的分类准确率达到了71.66%,与预训练语言模型CINO-Large相比,其准确率、精确度和F1分数分别提高了1.77%、2.67%和2.03%,在部分分类困难的子类别上,模型的F1分数能显著提升20%左右。 展开更多
关键词 预训练模型 降噪微调 图注意力机制 藏文长文本分类
在线阅读 下载PDF
基于数据增强与多尺度的图文匹配优化方法
16
作者 杨孟凡 杨勇 任鸽 《计算机工程与设计》 北大核心 2025年第12期3586-3592,共7页
针对当前CLIP模型在处理长文本描述和复杂图像检索任务中的局限性,提出了一种新型优化模型DAMLA(数据增强与多尺度局部注意力),该模型通过引入MixUp数据增强技术和多尺度局部注意力机制,提升了模型在细粒度信息捕捉和泛化性能上的表现。... 针对当前CLIP模型在处理长文本描述和复杂图像检索任务中的局限性,提出了一种新型优化模型DAMLA(数据增强与多尺度局部注意力),该模型通过引入MixUp数据增强技术和多尺度局部注意力机制,提升了模型在细粒度信息捕捉和泛化性能上的表现。MixUp数据增强通过生成多样本变体,增加了训练数据的多样性,从而提高了模型鲁棒性,减轻了过拟合问题;多尺度局部注意力机制则在不同层次有效提取并融合全局与局部特征,增强了对长文本和复杂图像的对齐能力。实验结果表明,DAMLA模型在多个数据集上实现了显著性能提升,特别是在长文本与图像配对任务中,精度提高约8%。 展开更多
关键词 数据增强 多尺度局部注意力 对比语言-图像预训练 图像检索 长文本处理 多模态学习 特征提取
在线阅读 下载PDF
面向房地产拍卖公告的长文本实体关系抽取方法
17
作者 韩郁 殷永峰 +2 位作者 宋友 仵伟强 王宝会 《中文信息学报》 北大核心 2025年第3期76-83,95,共9页
大多数实体关系联合抽取方法关注实体对在句子内反映的关系,忽略了长文本情景下存在的关系类型分布不均衡等问题。该文面向房地产拍卖公告,基于实体关系抽取思想,针对房地产拍卖公告实体长度较长、关系复杂的情况,设计了一种关系补充抽... 大多数实体关系联合抽取方法关注实体对在句子内反映的关系,忽略了长文本情景下存在的关系类型分布不均衡等问题。该文面向房地产拍卖公告,基于实体关系抽取思想,针对房地产拍卖公告实体长度较长、关系复杂的情况,设计了一种关系补充抽取机制,并结合全局指针网络和二部图匹配算法,最终形成了一个新的关系抽取模型LRCM,增强了模型对长实体和关系重叠三元组的抽取能力,减小了关系类型分布不均衡对关系抽取性能的影响。实验结果显示,该文方法优于其他主流的实体关系抽取方法,在构建的房地产拍卖数据集和WebNLG数据集上,F 1值分别达到了86.0%和92.7%。 展开更多
关键词 实体关系联合抽取 长文本 房地产拍卖公告 关系补充抽取机制
在线阅读 下载PDF
长征国家文化公园价值评价及其分类发展路径研究
18
作者 陈庚 陈熙 《兰州大学学报(社会科学版)》 北大核心 2025年第5期87-100,共14页
长征国家文化公园是传承革命文化和构建“长征精神”符号标识的重要载体,对促进革命文化资源创造性转化与创新性发展、增强中华民族文化认同、筑牢共同体意识具有独特的价值作用。构建长征国家文化公园价值评价维度,客观评价不同区域的... 长征国家文化公园是传承革命文化和构建“长征精神”符号标识的重要载体,对促进革命文化资源创造性转化与创新性发展、增强中华民族文化认同、筑牢共同体意识具有独特的价值作用。构建长征国家文化公园价值评价维度,客观评价不同区域的价值特征和优劣势,是推动长征国家文化公园分类发展的重要路径。通过构建涵盖五大维度的价值评价体系,基于29个长征重要地市相关数据的分析发现,不同地区长征国家文化公园的综合价值差异显著,事件指向性明显;基因传承价值处于均质化初级形态,文物保护价值呈“大分散,小集中”的极差化保护态势,研学教育价值西南区域配置相对不均,红旅融合价值形成弱极差格局,观光收益价值契合“经济—地形”双因素耦合特征;29个地市可划分为高价值—事件驱动型、中等价值—潜力挖掘型、低价值—资源阻滞型三种发展类型。鉴于不同区域长征国家文化公园的价值差异,建议通过协调范式跃迁、观光经济效益转化、公园空间叙事、文化资源拓扑的方式分类推动长征国家文化公园的建设实践。 展开更多
关键词 长征国家文化公园 价值评价 发展类型 政策文本分析
原文传递
LtoG:局部到全局映射的长文本自动摘要
19
作者 王强 卢玲 王爱娟 《重庆理工大学学报(自然科学)》 北大核心 2025年第7期94-101,共8页
自动摘要技术可帮助人们迅速获取文本的核心观点及主要内容,提高用户的信息获取速度,但是传统的长文本摘要技术主要集中于抽取句子,会导致抽取信息碎片化,严重影响了生成摘要的质量。为了解决这些问题,提出了一种局部到全局映射的抽取-... 自动摘要技术可帮助人们迅速获取文本的核心观点及主要内容,提高用户的信息获取速度,但是传统的长文本摘要技术主要集中于抽取句子,会导致抽取信息碎片化,严重影响了生成摘要的质量。为了解决这些问题,提出了一种局部到全局映射的抽取-生成式摘要方法(LtoG)。LtoG是一种结合了“扫描”和“基于深度阅读的生成”两阶段的框架。在扫描阶段,将输入文本切分成块,抽取显著的块。在生成阶段,引入了一种层次训练方法来训练一个模型,利用局部信息到全局映射生成总体摘要。该方法在ICSI和QMSum数据集上分别取得了2.00/1.53/1.62、1.45/0.42/0.69的ROUGE-1/2/L分数提升。证明本文中提出的LtoG能够使用相对较小的内存处理任意长的文本,有效解决了传统基于句子抽取方法中存在的信息碎片化问题。 展开更多
关键词 长文本 切分 抽取-生成 局部到全局
在线阅读 下载PDF
融合N-Gram的水产养殖长文本实体关系联合抽取 被引量:1
20
作者 毕甜甜 张思佳 +3 位作者 孙旭菲 王水涛 王祎涵 安宗诗 《哈尔滨理工大学学报》 北大核心 2025年第2期91-103,共13页
针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiL... 针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiLSTM提取深层次特征。然后逐层提取融合N-Gram算法预处理的长文本切片矩阵特征,建模切片矩阵的相对位置和绝对位置。在自构建的水产养殖长文本数据集和SKE公共数据集上的实验效果与基准模型相比有了明显提升。实验结果表明,该方法能够充分获取并处理水产养殖长文本中的语义信息,有效提高了实体关系抽取的准确性和完整性。 展开更多
关键词 水产养殖 长文本 实体关系联合抽取 N-Gram算法 多模型融合算法
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部