期刊文献+
共找到576篇文章
< 1 2 29 >
每页显示 20 50 100
A Comparative Study on Two Techniques of Reducing the Dimension of Text Feature Space
1
作者 Yin Zhonghang, Wang Yongcheng, Cai Wei & Diao Qian School of Electronic & Information Technology, Shanghai Jiaotong University, Shanghai 200030, P.R.China 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2002年第1期87-92,共6页
With the development of large scale text processing, the dimension of text feature space has become larger and larger, which has added a lot of difficulties to natural language processing. How to reduce the dimension... With the development of large scale text processing, the dimension of text feature space has become larger and larger, which has added a lot of difficulties to natural language processing. How to reduce the dimension has become a practical problem in the field. Here we present two clustering methods, i.e. concept association and concept abstract, to achieve the goal. The first refers to the keyword clustering based on the co occurrence of 展开更多
关键词 in the same text and the second refers to that in the same category. Then we compare the difference between them. Our experiment results show that they are efficient to reduce the dimension of text feature space. Keywords: text data mining
在线阅读 下载PDF
语义特征空间模型在基于RAG的智能问答中的应用 被引量:1
2
作者 黄红伟 杜军 +3 位作者 卢云涛 马继涛 马健 朱培虎 《软件导刊》 2026年第2期8-13,共6页
为提升基于RAG架构的智能问答系统文本召回率,研究分析了当前常用的文本向量化策略。针对各种策略存在的上下文语义不连贯及词嵌入后其向量中被引入噪声等问题,提出一种语义特征空间模型以及利用文本要点进行语义检索的向量化策略。通... 为提升基于RAG架构的智能问答系统文本召回率,研究分析了当前常用的文本向量化策略。针对各种策略存在的上下文语义不连贯及词嵌入后其向量中被引入噪声等问题,提出一种语义特征空间模型以及利用文本要点进行语义检索的向量化策略。通过该模型分析并证明基于文本要点策略构造的语义特征空间能够更好地逼近领域知识空间,并得到将文本向量投影到低秩语义特征空间进行语义检索以提高文本召回率的方法。整体应用该模型、策略、方法所形成的方案优化并改进了RAG架构,实验结果显示,其召回率较传统的RAG架构有显著提升,以大语言模型为底座实现了科技政策法规智能问答。该方案进一步完善了RAG应用开发技术栈,其语义特征空间可用于改进向量数据库的搜索算法。 展开更多
关键词 语义特征空间 文本要点 检索增强生成 智能问答 大语言模型
在线阅读 下载PDF
几何空间感知的层次多标签文本分类方法
3
作者 钟习 姚晓 +3 位作者 龙航 薛源海 刘欣然 沈华伟 《中文信息学报》 北大核心 2026年第1期153-162,175,共11页
层次多标签文本分类是经典文本分类任务的重要延伸,旨在将文本映射为标签体系中一条或多条路径上标签的集合。在复杂层次标签的场景下,数据分布存在明显的长尾现象,稀疏标签的少量样本制约了模型对标签语义边界的表达。为提高模型对标... 层次多标签文本分类是经典文本分类任务的重要延伸,旨在将文本映射为标签体系中一条或多条路径上标签的集合。在复杂层次标签的场景下,数据分布存在明显的长尾现象,稀疏标签的少量样本制约了模型对标签语义边界的表达。为提高模型对标签之间语义相似性和差异性的辨识能力,该文提出了一种几何空间感知的层次多标签文本分类方法。该方法引入盒嵌入表示模型,采用欧氏空间的超矩形表示标签和文本特征,将几何空间的包含、分离和重叠关系映射为标签-标签和标签-文本之间在盒空间的概率约束和几何约束,学习标签和文本在盒空间的大小和位置,进而以标签和文本特征在盒空间的优化目标作为辅助信号,增强层次多标签文本分类的效果。真实数据集上的实验结果表明,盒嵌入表示对层次标签语义建模更鲁棒,验证了深度神经网络和空间几何联合学习的有效性。 展开更多
关键词 层次多标签文本分类 几何空间建模 盒嵌入表示
在线阅读 下载PDF
CGP-Net:用于胃癌精准分割的跨模态引导先验网络
4
作者 葛潮洋 高亦凡 +1 位作者 刘成 高欣 《生物医学工程学杂志》 北大核心 2026年第1期146-153,共8页
胃癌计算机断层扫描(CT)图像的精准分割是临床实现精准诊疗的关键环节,但当前仍面临两大挑战:肿瘤与周围正常组织对比度低,导致边界精确描绘困难;肿瘤形态、大小和位置的高度变异性,导致肿瘤定位不准确。为此,本文提出一种跨模态先验知... 胃癌计算机断层扫描(CT)图像的精准分割是临床实现精准诊疗的关键环节,但当前仍面临两大挑战:肿瘤与周围正常组织对比度低,导致边界精确描绘困难;肿瘤形态、大小和位置的高度变异性,导致肿瘤定位不准确。为此,本文提出一种跨模态先验知识引导的胃癌CT图像自动分割方法(CGP-Net)。该方法利用大语言模型从诊断报告提取视觉先验,通过语义锚定与解析模块辅助病灶定位;构建混合上下文感知Mamba模块,协同优化特征建模以适应肿瘤形态变化;设计边界感知门控卷积模块提升模糊边界的勾勒精度。在349例胃癌数据集上的实验表明,本方法的Dice系数与Hausdorff距离第95百分位数(HD95)分别达到了78.10%和16.44 mm,在分割精度和边界预测准确度上超过了U-Mamba与nnUNet等最先进的方法。该方法有效地融合了文本先验,提升了分割精度,具有重要的临床应用价值。 展开更多
关键词 胃癌分割 文本引导 状态空间模型 跨模态融合
原文传递
基于文本挖掘的有限空间事故致因网络分析
5
作者 周婷婷 贾波 +3 位作者 李学盛 汪圣华 朱建淼 冯银均 《工业安全与环保》 2026年第3期50-55,共6页
有限空间事故是安全生产领域常见事故类型之一。为有效识别有限空间主要事故致因,分析事故致因的关联关系,选取2010—2024年国内272起有限空间事故调查报告,对事故调查报告进行数据清洗、分词和特征分析处理;运用词频-逆文档频率(TF-IDF... 有限空间事故是安全生产领域常见事故类型之一。为有效识别有限空间主要事故致因,分析事故致因的关联关系,选取2010—2024年国内272起有限空间事故调查报告,对事故调查报告进行数据清洗、分词和特征分析处理;运用词频-逆文档频率(TF-IDF)算法,提取出34个有限空间事故关键特征,构建关键特征要素共现矩阵;基于事故成因的社会网络中心性分析、核心边缘结构分析和凝聚子群分析有限空间关键致因要素聚类关系,分析得出核心、操作、环境、管理事故致因群,探索有限空间事故致因链路。研究结果表明,有毒有害气体、作业人员、检测、防护用品、盲目施救、通风是有限空间事故核心致因要素,各事故致因要素之间有聚类关系和强关联关系,研究结果可为有限空间事故防控提供参考。 展开更多
关键词 有限空间事故 文本挖掘 事故致因 社会网络分析
在线阅读 下载PDF
一种基于CLIP和动态语义优化的文本到3D形状生成方法
6
作者 袁康 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2026年第1期47-48,54,共3页
文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一... 文本到3D形状生成技术为虚拟现实、3D打印和动画设计等领域提供了极具潜力的自然语言交互方式。然而,由于文本与3D形状在模态上的显著差异,以及高质量3D形状生成中存在的语义一致性和多样性挑战,目前的方法往往难以在生成质量与文本一致性之间取得平衡。提出了一种基于CLIP和动态语义优化的文本到3D形状生成方法。该方法通过构建动态语义优化模块,实时分解并调整文本特征的语义权重,使生成的3D形状更符合输入文本的描述。将动态语义优化嵌入现有的两阶段特征空间对齐框架中,显著提升了文本到3D形状生成的精度和质量。实验结果表明,与现有方法相比,该方法在生成质量、一致性方面得到了提升。 展开更多
关键词 文本到3D形状生成 CLIP 动态语义优化 特征空间对齐 生成一致性
在线阅读 下载PDF
国内外近20年体育旅游研究对比——基于Cite Space的可视化分析
7
作者 张婕 郑江华 韩林芝 《商丘师范学院学报》 CAS 2021年第6期31-36,共6页
体育旅游作为体育产业与旅游产业融合发展的产物,已成为旅游研究的热点领域.研究使用Cite Space5.2软件对近20年CNKI核心期刊收录的1468篇中文文献和WOS核心合集收录的2173篇外文文献进行分析,从研究阶段、研究方法、研究热点等方面对... 体育旅游作为体育产业与旅游产业融合发展的产物,已成为旅游研究的热点领域.研究使用Cite Space5.2软件对近20年CNKI核心期刊收录的1468篇中文文献和WOS核心合集收录的2173篇外文文献进行分析,从研究阶段、研究方法、研究热点等方面对国内外体育旅游文献做归纳和比较,力图为未来国内体育旅游研究的方向提出新的展望.研究发现:国内体育旅游的研究经历了"萌芽期""蓬勃发展期""波动上升期""稳定发展期"四个阶段,国际体育旅游的研究经历了"萌芽期""迅速成长期""稳定发展期"三个阶段,目前二者都处于"稳定发展期",研究方法与研究热点随时期变化表现出明显不同.建议未来国内的体育旅游研究应当:(1)拓展体育旅游的研究领域;(2)实现研究方法的精准与深度使用;(3)关注具有实践意义的研究对象及调查群体;(4)进一步加强对体育旅游研究的重视程度. 展开更多
关键词 体育旅游 文本空间分析 文献计量 研究进展
在线阅读 下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:5
8
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 textRank算法 Bert 词向量技术 向量空间模型
在线阅读 下载PDF
基于Cite Space的信息类文本翻译策略研究知识图谱分析
9
作者 张菊 《商丘职业技术学院学报》 2019年第4期40-44,共5页
借助CiteSpace科学计量学软件,从发文量、作者、高被引文献和关键词四个方面对2000-2018年间信息类文本翻译策略相关研究的发展脉络进行梳理,绘制了其近十年的研究发展知识图谱,发现文本类型理论在整个发展过程中贯穿始终;变译理论在200... 借助CiteSpace科学计量学软件,从发文量、作者、高被引文献和关键词四个方面对2000-2018年间信息类文本翻译策略相关研究的发展脉络进行梳理,绘制了其近十年的研究发展知识图谱,发现文本类型理论在整个发展过程中贯穿始终;变译理论在2002年后逐渐成为信息类文本翻译研究的热点。 展开更多
关键词 CITEspace 信息类文本 翻译策略 变译理论
在线阅读 下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:2
10
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing Vector space Models Semantic spaces Word Embeddings Representation Learning text Vectorization Machine Learning Deep Learning
在线阅读 下载PDF
历史文化街区空间品质与游客感知失配研究
11
作者 李璇 张佳宇 解丹 《城市建筑》 2025年第23期96-100,共5页
历史文化街区是文化资源与旅游功能的复杂融合体,运用多源数据开展历史文化街区空间品质与游客感知研究,对历史文化街区的可持续发展具有重大意义。本研究依托街景数据、网络文本数据、POI数据等,结合图片识别、文本分析、耦合分析等方... 历史文化街区是文化资源与旅游功能的复杂融合体,运用多源数据开展历史文化街区空间品质与游客感知研究,对历史文化街区的可持续发展具有重大意义。本研究依托街景数据、网络文本数据、POI数据等,结合图片识别、文本分析、耦合分析等方法,探究历史文化街区空间品质与游客感知的失配状况。研究发现:①空间品质与游客感知高耦合区域集中于中部,并向南北方向逐渐递减;②失配空间占比达39.9%,适配程度仍有不足,失配区域主要集中在南侧道路与纵向道路区域。最后,依据失配要素及其分布情况剖析原因。 展开更多
关键词 历史文化街区 网络文本数据 空间品质 游客感知 五大道
在线阅读 下载PDF
从戈剑到流泉:金城诗歌书写的文化嬗变
12
作者 多洛肯 马丽媛 《兰州文理学院学报(社会科学版)》 2025年第5期35-40,共6页
唐代、明清时期书写金城(今甘肃兰州)的诗歌文本,可以唐代边塞诗与明清五泉记游诗的代表作品为具体案例,通过文本细读与阐释,成为探讨金城地域文化转型进程中诗歌书写方式。唐代边塞诗以“戈剑”“羌笛”等意象构建出金城军事重镇的悲... 唐代、明清时期书写金城(今甘肃兰州)的诗歌文本,可以唐代边塞诗与明清五泉记游诗的代表作品为具体案例,通过文本细读与阐释,成为探讨金城地域文化转型进程中诗歌书写方式。唐代边塞诗以“戈剑”“羌笛”等意象构建出金城军事重镇的悲壮叙事;明清五泉记游诗则借助“流泉”“古塔”等生态文化符号重塑“山水灵境”的诗意空间。上述书写转型映射出金城从“烽燧黄云”到“五泉钟灵”的空间功能嬗变,其本质是丝路重镇在军事价值消退后,通过文学记忆的重构完成文化形态整合的过程,为西北地域文学研究提供了“文本—空间”互动的新范式。 展开更多
关键词 金城诗歌 文化嬗变 地域文学 文本空间互动
在线阅读 下载PDF
越宽松越浪费?资源节约标识的文字间隙对消费者资源浪费的影响及机制
13
作者 柳武妹 李佳扬 金晓彤 《南开管理评论》 北大核心 2025年第8期17-27,75,共12页
如何减少消费者对食物、水、纸等资源的浪费是一个兼具理论价值和实践价值的研究话题。过往研究探究了哪些因素会促进消费者的资源节约,以及哪些因素会导致消费者的资源浪费。然而,资源节约标识的视觉设计是否会影响消费者的资源节约/浪... 如何减少消费者对食物、水、纸等资源的浪费是一个兼具理论价值和实践价值的研究话题。过往研究探究了哪些因素会促进消费者的资源节约,以及哪些因素会导致消费者的资源浪费。然而,资源节约标识的视觉设计是否会影响消费者的资源节约/浪费,目前学术界尚未回答。通过1项田野实验和4项实验室实验,本文发现了一种新颖的宽松间隙—资源浪费效应。具体而言,资源节约标识中的文字信息在视觉上排列得宽松(相比于排列得紧凑)会增加消费者实际的资源浪费和资源浪费意愿。原因是资源节约标识中宽松(vs.紧凑)的文字间隙设计会使消费者感知宣传资源节约信息组织的言行不一致,这进一步降低了资源节约信息的感知说服力,从而加大了消费者的资源浪费意愿。这一效应在具有外归因特质的消费者中更加显著,在具有内归因特质的消费者中消失。本文对资源节约领域和视觉营销领域的研究均有明显推进。 展开更多
关键词 文字间隙疏密 消费者资源浪费 感知组织言行不一致 感知资源节约信息说服力 内外归因特质
在线阅读 下载PDF
《五号屠场》对战争创伤的后现代书写
14
作者 胡作友 卢逸凡 《广东石油化工学院学报》 2025年第2期35-41,共7页
美国著名作家库尔特·冯内古特的《五号屠场》因时空交错的叙事、文本与潜文本的并置以及语言与叙事层面的留白而一举成为后现代文学代表作。时空交错的叙事使过去、现在与未来相互交织,形成独特的叙事时间,使真实的战争场景与虚幻... 美国著名作家库尔特·冯内古特的《五号屠场》因时空交错的叙事、文本与潜文本的并置以及语言与叙事层面的留白而一举成为后现代文学代表作。时空交错的叙事使过去、现在与未来相互交织,形成独特的叙事时间,使真实的战争场景与虚幻的星空旅行相互切换,真假难辨,从侧面展现了战争的残酷;文本与潜文本的并置使公开的灾难场景与隐藏的内心痛苦形成鲜明对照,揭露了战争造成的破坏性后果;语言与叙事层面的留白使故事情节如万花筒般的碎片一样拼凑起来,将读者置于无限想象的空间,从而间接地参与艺术作品的再创作,更深刻地体验战争带来的深重灾难。上述创作技巧为后现代小说赋予了更深层次的意义和表达方式,使读者体验到更丰富、更开放的文学魅力。 展开更多
关键词 五号屠场 时空交错 文本与潜文本 留白 后现代书写
在线阅读 下载PDF
结构感知增强与跨模态融合的文本图像超分辨率 被引量:1
15
作者 朱仲杰 张磊 +3 位作者 李沛 屠仁伟 白永强 王玉儿 《中国图象图形学报》 北大核心 2025年第5期1364-1376,共13页
目的 场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造... 目的 场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造成文本识别困难。为此,提出一种基于文本结构动态感知的跨模态融合超分辨率方法以提高文本图像质量和文本可读性。方法 首先,构建文本结构动态感知模块,通过方向感知层和上下文关联单元,分别提取文本的多尺度定向特征并解析字符邻域间的上下文联系,精准捕获文本图像的结构动态特征;其次,设计语义空间对齐模块,利用文本掩码信息促进精细化文本语义先验的生成,并通过仿射变换对齐语义先验和图像特征;最后,在此基础上,通过跨模态融合模块结合文本语义先验与图像特征,以自适应权重分配的方式促进跨模态交互融合,输出高分辨率文本图像。结果 在真实数据集TextZoom上与多种主流方法进行对比,实验结果表明所提方法在ASTER(attentional scene text recognizer)、CRNN(convolutional recurrent neural network)和MORAN(multiobject rectified attention network)3种文本识别器上的平均识别精度为62.4%,较性能第2的方法有2.8%的提升。此外,所提方法的峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)指标分别为21.9 dB和0.789,分别处于第1名和第2名的位置,领先大多数方法。结论 所提方法通过精准捕获文本结构动态特征来指导高级文本语义先验的生成,从而促进文本和图像两种模态的对齐和融合,有效提升了图像重建质量和文本可读性。 展开更多
关键词 场景文本图像超分辨率(STISR) 文本结构动态特征 多尺度定向特征 语义空间对齐 跨模态融合
原文传递
基于联合嵌入空间的视频文本检索研究综述 被引量:1
16
作者 董闯 栗伟 +1 位作者 巴聪 覃文军 《中国图象图形学报》 北大核心 2025年第5期1220-1237,共18页
视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联... 视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的4个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。 展开更多
关键词 视频文本检索(VTR) 联合嵌入空间 特征提取 特征对齐 多模态
原文传递
基于文本生成与迭代匹配的图像-文本检索
17
作者 潘莹莹 马青 白琮 《计算机辅助设计与图形学学报》 北大核心 2025年第5期856-864,共9页
跨模态图文检索由于图像和文本的特征表示方式不同面临着模态异构问题,传统的公共空间方法难以度量图像和文本的相似性.为此,提出了基于文本生成与迭代匹配的跨模态图像文本检索框架,它包含了特征融合模块和文本生成模块.特征融合模块... 跨模态图文检索由于图像和文本的特征表示方式不同面临着模态异构问题,传统的公共空间方法难以度量图像和文本的相似性.为此,提出了基于文本生成与迭代匹配的跨模态图像文本检索框架,它包含了特征融合模块和文本生成模块.特征融合模块通过迭代融合的方式,多次对齐图像和文本,在不同的迭代步骤中聚合细粒度信息,捕获图像和文本之间的局部关联信息,优化了局部公共嵌入空间;文本生成模块采用特征转换的思路,由图像模态中的特征映射到文本模态中的句子特征,通过图文信息交互增强了图像和文本的整体语义相关性,优化了全局公共嵌入空间,挖掘出图像与文本更深层的语义信息,以提高跨模态图像文本检索模型的性能.在Flickr30K和COCO数据集上进行了实验,并与现有的模型进行比较,结果表明,该框架在Flickr30K和COCO上的整体性能分别提升了0.7%和1.2%.在文本检索任务的召回指标中,最高可以提升3.4%;在图像检索任务的召回指标中,最高可以提升4.6%.消融实验也证明了其中特征融合模块以及文本生成模块的有效性. 展开更多
关键词 跨模态图文检索 文本生成 公共空间 特征融合 迭代匹配
在线阅读 下载PDF
基于关键语义驱动和对比学习的文本聚类方法
18
作者 张士举 郭朝阳 +2 位作者 吴承亮 吴凌俊 杨丰玉 《计算机科学》 北大核心 2025年第8期171-179,共9页
文本聚类是指将大量文本数据按照它们的相似性进行分组的过程,其可以帮助理解文本数据的结构和内容,发现其中的模式和趋势,通常用于信息检索、文档管理等。现有文本聚类模型在信息抽取过程中存在过度依赖原始数据质量和容易造成关键信... 文本聚类是指将大量文本数据按照它们的相似性进行分组的过程,其可以帮助理解文本数据的结构和内容,发现其中的模式和趋势,通常用于信息检索、文档管理等。现有文本聚类模型在信息抽取过程中存在过度依赖原始数据质量和容易造成关键信息提取不充分的问题,而且不同类别的数据在表示空间中会相互重叠。针对以上问题,提出了一种基于关键语义驱动和对比学习的文本聚类方法(KSD-CLTC)。该方法在数据处理环节通过数据增强模块丰富原始数据来提高泛化性,并设计了一个关键语义驱动模块提取文本中的关键词,补足关键语义信息的丢失;在特征提取环节借助预训练模型和自动编码器对数据进行高质量表征;然后,在聚类学习环节借助聚类模块将聚类损失与关键语义驱动模块的重构损失相结合,进一步学习更适用于聚类的特征表示,并利用对比学习模块来实现更好的类别划分效果。实验结果表明,KSD-CLTC在公共数据集和工业数据集上的聚类效果优于对比的聚类算法,相比先进的SCCL方法,其在所有数据集上的ACC平均提高了2.92%,NMI平均提高了1.99%。聚类结果也证明了关键语义驱动模块对文本聚类的重要性。 展开更多
关键词 信息抽取 表示空间 文本聚类 关键语义驱动 对比学习
在线阅读 下载PDF
国土空间规划政策评估与优化研究——基于政策文本分析的视角 被引量:1
19
作者 李建兴 陈锦富 孙晓艳 《中国国土资源经济》 2025年第9期33-41,共9页
为了提升国土空间规划政策的科学性,促进国土空间规划改革取得实效,文章采用政策文本分析法,包含社会网络分析法、S-CAD政策评估法和政策工具分析法,对82份国家层面国土空间规划政策文本进行分析,研究发现:政策网络密度不足,“元政策”... 为了提升国土空间规划政策的科学性,促进国土空间规划改革取得实效,文章采用政策文本分析法,包含社会网络分析法、S-CAD政策评估法和政策工具分析法,对82份国家层面国土空间规划政策文本进行分析,研究发现:政策网络密度不足,“元政策”的价值观和预期结果超出了政策目标和手段能够实现的范围;各类型政策工具使用结构不均衡,“用途管制”工具占比最大,以及经济类和教育类政策工具使用不足等问题制约了政策的实施。因此,需要立足国土空间规划的公共政策属性,增强政策网络联系,调适政策元素关系,优化政策工具使用结构。 展开更多
关键词 国土空间规划 政策评估 政策工具 政策文本 优化策略
在线阅读 下载PDF
基于注意力机制的印刷包装标签文本自动定位检测方法 被引量:1
20
作者 张鹏涛 李文峰 宋强 《包装与食品机械》 北大核心 2025年第3期80-87,共8页
针对印刷标签中的多语言、密集排列及极端长宽比的文本,提出一种基于注意力机制的印刷包装标签文本区域的定位检测方法。将ResNet中的Bottleneck传统卷积替换为可学习间距的扩张卷积,以扩大网络感受野;加入全局与局部注意力机制模块,以... 针对印刷标签中的多语言、密集排列及极端长宽比的文本,提出一种基于注意力机制的印刷包装标签文本区域的定位检测方法。将ResNet中的Bottleneck传统卷积替换为可学习间距的扩张卷积,以扩大网络感受野;加入全局与局部注意力机制模块,以增强骨干网络对文本信息的特征提取能力;在特征金字塔网络中加入残差注意力机制模块,以引导多尺度特征的自适应融合。消融试验结果表明,相较于DBNet,改进后的模型F1值分别提高1.2,2.1,1.7个百分点。在ICDAR2015,Total-Text及自建数据集上的对比试验结果显示,模型检测效果优于EAST,PSENet,FCENet,DPText-DETR,DBNet等主流文本检测模型,模型F1值分别为88.3%,86.1%,85.1%。研究为印刷标签在线检测的智能化提供保障。 展开更多
关键词 标签检测 文本定位 注意力机制 可学习间距扩张卷积
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部