期刊文献+
共找到828篇文章
< 1 2 42 >
每页显示 20 50 100
融合类别描述与增强嵌入的煤矿安全风险预测模型研究
1
作者 杨超宇 黄大卫 《安全与环境学报》 北大核心 2026年第2期517-528,共12页
煤矿安全风险辨识文本包含丰富的风险特征描述与专家经验知识,深入挖掘这些文本对实现风险等级预测具有重要价值。针对风险辨识文本存在小样本、短文本及语义复杂问题,提出了一种融合类别描述与增强嵌入的煤矿安全风险预测模型。该方法... 煤矿安全风险辨识文本包含丰富的风险特征描述与专家经验知识,深入挖掘这些文本对实现风险等级预测具有重要价值。针对风险辨识文本存在小样本、短文本及语义复杂问题,提出了一种融合类别描述与增强嵌入的煤矿安全风险预测模型。该方法在句子级嵌入维度对文本进行数据增强,有效扩充训练样本;通过构建风险类别描述引入煤矿领域知识,并利用注意力机制对风险类别描述进行动态融合,为煤矿安全风险样本补充专业知识;使用双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络与Mamba算法对原始文本特征进行深度提取,获取煤矿文本复杂情境下的核心特征;最后使用动态门控机制融合各模块特征,输出预测结果。研究表明,该模型在小规模煤矿风险辨识数据集上准确率和F1均有不错的表现,可基于煤矿安全风险辨识文本为煤矿安全风险等级预测提供支持。 展开更多
关键词 安全工程 风险预测 煤矿安全 小样本 短文本 数据增强 特征融合
原文传递
战略性技术创新与企业未来产业布局
2
作者 王伟光 吴传波 《工业技术经济》 北大核心 2026年第1期33-42,共10页
未来产业及其优先布局对于新质生产力发展壮大极为重要,但未来产业发展需要前沿性、颠覆性技术创新,而这些具有高度不确定性的技术创新单纯依靠企业自身研发投入很难产生良好效果,适当的政府研发支持即自带国家任务型属性的战略性技术... 未来产业及其优先布局对于新质生产力发展壮大极为重要,但未来产业发展需要前沿性、颠覆性技术创新,而这些具有高度不确定性的技术创新单纯依靠企业自身研发投入很难产生良好效果,适当的政府研发支持即自带国家任务型属性的战略性技术创新是必要的。本文生成了未来产业布局词典,并对上市公司的年报和专利进行文本分析,构建了企业层面的战略性技术创新与未来产业布局指标,并采用双向固定效应模型考察战略性技术创新对企业未来产业布局的影响及作用机制。结果表明战略性技术创新通过跨组织资源集聚机制与创新人才集聚机制促进企业未来产业布局,对小规模、资本密集型、大中城市中的企业促进效果更明显,且在一定程度上抑制了企业短期绩效。本文有助于从微观企业层面理解战略性技术创新在促进未来产业布局过程中所发挥的效能,并提出相关对策建议。 展开更多
关键词 战略性技术创新 未来产业 跨组织资源 创新人才 企业绩效 新质生产力 文本分析 短期绩效
在线阅读 下载PDF
融合多级语义的中文医疗短文本分类模型
3
作者 杨杰 刘纳 +2 位作者 郑国风 李晨 道路 《郑州大学学报(理学版)》 北大核心 2026年第1期51-57,共7页
针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语... 针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语义;采用注意力池化技术聚焦文本中的文档级信息,增强对医学专业术语和概念的识别与理解。最后,引入对抗训练策略,提升模型在面对模糊表达或扰动输入时的稳定性和准确性。在CHIP-CTC、KUAKE_QIC和VSQ三个医疗文本分类数据集上验证了模型的有效性,结果表明,相较于现有模型,所提模型在三个数据集上的F 1值均有所提升,显著增强了中文医疗短文本的分类性能。 展开更多
关键词 中文医疗数据 短文本分类 语义融合 胶囊网络 注意力池化
在线阅读 下载PDF
面向短文本-多领域科技实体抽取的提示工程构建研究
4
作者 孙蒙鸽 王燕鹏 +1 位作者 付芸 刘细文 《数据分析与知识发现》 北大核心 2026年第1期133-149,共17页
【目的】在多领域科技实体抽取任务中,科技短文本通常存在因语义稀疏导致上下文信息不足、知识实体领域跨度大、实体边界模糊等问题。由此,本研究提出一种基于知识提示学习的Scientific Prompt知识实体抽取策略。【方法】首先提出以科... 【目的】在多领域科技实体抽取任务中,科技短文本通常存在因语义稀疏导致上下文信息不足、知识实体领域跨度大、实体边界模糊等问题。由此,本研究提出一种基于知识提示学习的Scientific Prompt知识实体抽取策略。【方法】首先提出以科技问题为基本切分单元的实体边界识别方法,以明确短文本中的知识实体边界;其次,利用知识蒸馏技术构建自动标注体系,获取小规模高质量多领域实体数据集。在此基础上,设计了包含BERTopic动态采样与自我一致性校验的两阶段Scientific Prompt策略,借助BERTopic将领域知识动态引入提示词中,以扩展稀疏短文本语义上下文。【结果】在Scientific Prompt策略作用下,Qwen2.5-7B、Qwen 2.5-7B(微调)与GPT-4o的F1值分别为0.6526、0.7407、0.7878;而Zero-Shot下对应模型的F1值分别为0.5534、0.6165、0.6822。在短文本-多领域实体抽取任务中,Scientific Prompt策略作用下的开源模型略优于对其微调的效果(0.6526 vs 0.6165);该策略作用下的微调Qwen 2.5-7B模型表现略优于仅使用GPT-4o的效果(0.7407 vs 0.6822)。【局限】仅测试了Scientific Prompt策略在中文科技短文本上的表现。【结论】与微调方式相比,Scientific Prompt策略无需更新模型参数即可显著提升大语言模型在短文本-多领域知识实体抽取任务中的性能。在大规模无监督科技短文本中,Scientific Prompt策略可以有效提升大语言模型在多领域知识实体识别中的语义理解和感知能力,增强抽取的精确性和泛化能力,为通用型中文科技短文本知识实体抽取任务提供了重要的技术路径参考。 展开更多
关键词 知识提示策略 多领域知识实体抽取 动态提示工程 科技短文本
原文传递
基于辅助任务与知识蒸馏的中文短文本分类算法
5
作者 陈昊 金广星 苏航 《武汉大学学报(工学版)》 北大核心 2026年第2期308-318,共11页
在短文本分类这一热门研究领域,预训练模型虽表现出色,但存在数据表征散布和转移学习受限等问题,导致分类效果降低。尽管诸如ERNIE(enhanced representation through knowledge integration)等大模型提升了分类效果,但由于其速度慢、资... 在短文本分类这一热门研究领域,预训练模型虽表现出色,但存在数据表征散布和转移学习受限等问题,导致分类效果降低。尽管诸如ERNIE(enhanced representation through knowledge integration)等大模型提升了分类效果,但由于其速度慢、资源需求大、受硬件限制等问题,难以应用于工业生产。为此提出了基于ERNIE的辅助任务模型EL(ERNIE+LAT(learning with auxiliary tasks)),旨在验证其获取更优类别特征的可行性。针对工业任务落地需求,同时提出知识蒸馏法,对EL与TextCNN模型进行蒸馏训练,以验证其在提升分类效果以及线上推理效率方面的可行性。研究验证现有预训练模型在公共数据集上的分类优势;采用辅助任务结合预训练模型的方法进行实验改进;并基于知识蒸馏法深入推进模型加速研究。实验表明,通过联合训练能够提升模型的泛化能力与特征提取能力,进而增强特定任务下的学习能力;学生模型TextCNN经蒸馏后不仅可与教师模型相媲美,在线上部署时还更具优势。 展开更多
关键词 短文本分类 深度学习 预训练模型 辅助任务 知识蒸馏
原文传递
融合RAG和大语言模型微调的学术短文本学科分类研究
6
作者 尚渡新 段宇锋 +2 位作者 柏萍 谢佳宏 刘宴佐 《现代情报》 北大核心 2026年第3期18-29,共12页
[目的/意义]学术短文本的学科分类研究能够有效促进学术论文的计量分析。[方法/过程]本文提出了一种融合检索增强生成(RAG)与大语言模型微调的学术短文本分类框架,通过动态检索学科关联信息,结合参数高效微调技术,在增强模型输入的语义... [目的/意义]学术短文本的学科分类研究能够有效促进学术论文的计量分析。[方法/过程]本文提出了一种融合检索增强生成(RAG)与大语言模型微调的学术短文本分类框架,通过动态检索学科关联信息,结合参数高效微调技术,在增强模型输入的语义表征能力的同时,实现领域任务的深度适配。[结果/结论]实验表明,相较于传统深度学习模型和通用大语言模型,融合LoRA微调与RAG的协同范式显著提升了多标签分类性能,分类错误率相对下降36.8%,汉明损失、覆盖度与首标记错误率均达到最优水平。融合RAG与大语言模型微调的分类框架在学术短文本多标签分类中展现出协同优势,其模块化架构为跨学科知识分类提供了技术路径,具有重要的学术价值与实践意义。 展开更多
关键词 学科分类 学术短文本分类 检索增强生成 大语言模型 LoRA微调
在线阅读 下载PDF
利用实体间提示的迭代式短文本实体链接方法
7
作者 应天和 胡建鹏 +2 位作者 李敏 刘岚 李安 《计算机工程与设计》 北大核心 2026年第2期536-543,共8页
为解决传统方法在短文本实体链接中因特征不足导致的准确率下降问题,提出一种基于实体间提示的迭代式实体链接方法。该方法使用预训练模型对实体提及进行分类,提高候选实体生成的准确性;通过注意力机制识别上下文中的关键关联实体,并结... 为解决传统方法在短文本实体链接中因特征不足导致的准确率下降问题,提出一种基于实体间提示的迭代式实体链接方法。该方法使用预训练模型对实体提及进行分类,提高候选实体生成的准确性;通过注意力机制识别上下文中的关键关联实体,并结合其知识库描述生成链接提示;为了避免初期提示造成的噪音和错误问题,对目标实体提及进行多轮迭代式链接,逐步提高链接准确率。在两个公开数据集上的实验结果显示,该方法在短文本实体链接任务上优于现有技术,尤其在小样本情况下表现出色,可有效应对上下文信息不足和样本量有限的挑战。 展开更多
关键词 实体消歧 提示学习 短文本特征抽取 注意力机制 多轮次迭代式实体链接 预训练模型 小样本实体链接
在线阅读 下载PDF
基于多通道Bi-LSTM的教育数据短文本分类
8
作者 姜红旭 胡俊鹏 +2 位作者 郭骁 胡涛 沈济南 《佳木斯大学学报(自然科学版)》 2026年第3期18-21,共4页
为了解决教育管理系统中短文本数据难以有效分类的问题,提出了一种融合字、词和句向量的多通道双向长短期记忆网络(Bi-LSTM)模型。该方法在字符级和词级引入腾讯预训练词向量,以捕捉细粒度语义特征;在句子级利用预训练BERT模型生成动态... 为了解决教育管理系统中短文本数据难以有效分类的问题,提出了一种融合字、词和句向量的多通道双向长短期记忆网络(Bi-LSTM)模型。该方法在字符级和词级引入腾讯预训练词向量,以捕捉细粒度语义特征;在句子级利用预训练BERT模型生成动态上下文向量,以获取全局语义信息。三类向量经Bi-LSTM提取后进行拼接融合,再通过全连接层与Softmax分类器实现多类别判别,从而增强了模型对短文本的语义表示能力。实验在两所高校的教育数据集上进行,结果表明该模型优于其他方法,最高分类准确率达到98.6%。研究结果表明,所提出的方法能够显著提升教育数据短文本的自动化分类效果,为教育数据的分级保护和安全管理提供可靠技术支持。 展开更多
关键词 教育数据 短文本分类 Bi-LSTM 向量融合
在线阅读 下载PDF
基于麻雀搜索算法优化Transformer的短文本情感分析方法
9
作者 胡翔 《微处理机》 2026年第1期53-58,共6页
短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短... 短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短文本的表现形式;利用Transformer模型提取情感特征,并引入SSA优化模型超参数;将所提取情感特征输入全连接层+Softmax分类器中,采用交叉熵损失的梯度下降算法衡量文本预测情感与真实情感之间的差异,完成短文本情感分析。SSA具有全局搜索能力强、收敛速度快等优点,能有效优化Transformer模型的超参数,提升模型性能。试验结果表明,所提出方法的迭代损失值较低,分类精度较高,能够较好地捕捉情感特征且对各类情感区分能力强。 展开更多
关键词 麻雀搜索算法 Transformer模型 短文本情感分析 情感特征
在线阅读 下载PDF
基于语料库与预训练模型的非遗实体识别
10
作者 张新生 杨颖洁 《计算机工程与设计》 北大核心 2026年第1期286-293,共8页
针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-... 针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-ext预训练语言模型提取高精度的词嵌入向量,借助BiLSTM提取非遗文本特征,CRF完成实体标签序列预测,实现对非遗文本语料中实体及其类别的识别。在自建语料库ICHSX-NER上进行多组实验,实验结果表明:模型的macro-F1值达90.62%,验证了在非遗文本实体识别任务中的有效性。 展开更多
关键词 命名实体识别 预训练语言模型 非遗文本语料库 动态全词掩码策略 双向长短期记忆网络 条件随机场 深度学习
在线阅读 下载PDF
启发式图结构增强的社交媒体短文本谣言检测研究 被引量:3
11
作者 李贺 杨心苗 +1 位作者 沈旺 刘嘉宇 《情报理论与实践》 北大核心 2025年第3期151-159,共9页
[目的/意义]研究构建启发式图结构增强的社交媒体短文本谣言检测模型,提升社交媒体短文本谣言分类检测的准确性。[方法/过程]首先从谣言传播结构的角度构建谣言传播树和用户社交网络,从中提取结构内容构建全局网络关系图,创新性地引入... [目的/意义]研究构建启发式图结构增强的社交媒体短文本谣言检测模型,提升社交媒体短文本谣言分类检测的准确性。[方法/过程]首先从谣言传播结构的角度构建谣言传播树和用户社交网络,从中提取结构内容构建全局网络关系图,创新性地引入启发式算法对关系图的图节点和图边权重分配,最后构建谣言检测模型。[结果/结论]谣言检测模型在三个短文本公开数据集上的F1值分别为94.64%、95.52%和97.68%,显著优于基线,且在谣言早期检测中表现出良好的性能。提出的社交媒体短文本谣言检测模型通过启发式图结构增强策略,在捕捉推文之间的全局交互关系方面展示了强大的能力,为谣言检测提供了一种高效且准确的解决方案。[局限]模型在推文语义理解和向量表示方面存在的局限一定程度上影响了谣言检测结果的准确性。 展开更多
关键词 谣言检测 启发式图结构 社交媒体短文本 谣言传播树 全局社交关系
原文传递
基于特征增强的农业短文本语义智能匹配方法研究 被引量:1
12
作者 金宁 郭宇峰 +2 位作者 渠丽娜 缪祎晟 吴华瑞 《农业机械学报》 北大核心 2025年第5期395-404,共10页
针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本... 针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本特征;然后利用多尺度卷积核通道注意力加权网络MSCN和基于多头自注意力的双向长短期记忆网络Multi_SAB分别从空间和时间提取语义特征;最后利用文本注意力融合机制TEXTAFF对多种特征进行智能融合。试验结果表明,Font_MBAFF模型可有效弥补短文本特征词少的不足,优化文本特征提取及特征融合,语义匹配正确率达到96.42%,与MaLSTM、BiLSTM、BiLSTM_Self-attention、TEXTCNN_Attention、Sentence-BERT等5种语义匹配模型相比优势明显,正确率至少高2.07个百分点。 展开更多
关键词 农业短文本 语义匹配 字形特征表示 多特征融合
在线阅读 下载PDF
基于社交媒体短文本的城市内涝灾情信息识别与分析 被引量:1
13
作者 王鑫 罗年学 赵前胜 《测绘与空间地理信息》 2025年第4期41-44,47,共5页
社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合... 社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。 展开更多
关键词 社交媒体 短文本 多标签分类 积水点 物资需求
在线阅读 下载PDF
融合ERNIE与知识增强的临床短文本分类研究
14
作者 温浩 杨洋 《计算机工程与应用》 北大核心 2025年第8期108-116,共9页
提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERN... 提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERNIE-BiGRU模型。该模型通过引入医学知识与文本独特知识的ERNIE模型训练文本的特征向量,利用BiGRU强化上下文信息,最终在输出层进行文本分类。通过在真实的临床文本的验证与对比实验,KW-ERNIE-BiGRU模型的精确率、召回率、宏F1分别为93.4%、92.1%、92.7%,均优于其他模型。 展开更多
关键词 深度学习 知识图谱 ERNIE 语义强化 临床短文本分类
在线阅读 下载PDF
基于情感增强非参数模型的社交媒体观点聚类
15
作者 刘勘 陈昱 何佳瑞 《中文信息学报》 北大核心 2025年第3期148-158,共11页
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该... 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 展开更多
关键词 观点分析 短文本流聚类 非参数模型 社交媒体
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
16
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 预训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
中文小说短句序列文本复述数据集
17
作者 万福成 雷鑫鹏 +1 位作者 王双 魏斌 《中国科学数据(中英文网络版)》 2025年第3期535-543,共9页
文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中... 文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中文小说复述语料,通过人工挑选和数据预处理得到高质量的短句复述对。数据集包括34770句对,69540句短文本序列,大小为2.91 MB。通过使用LaserTagger复述生成模型与大规模的中文问题匹配语料库(A Largescale Chinese Question Matching Corpus,LCQCM)进行对比,显示本数据集质量更高。本数据集可应用于机器翻译,缓解语料稀疏问题,对自动问答领域问句进行改写和扩展,对信息检索领域检索词、句进行扩展和泛化等。 展开更多
关键词 文本复述 短句序列 复述生成 低资源
在线阅读 下载PDF
基于人机交互和隐马尔可夫模型时序分析的语言文本信息抽取研究
18
作者 王燕 赵建华 《自动化与仪器仪表》 2025年第2期24-27,共4页
为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交... 为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交互系统语音文本情感的分析。结果表明,使用二阶隐马尔可夫模型在测试集上进行切分,所得结果相较于使用一阶隐马尔可夫分词模型,更符合实际词义,且与人工分词结果相近;基于二阶隐马尔可夫模型分词结果进行的情感分析,总体准确率相较于基于一阶隐马尔可夫模型提高了1.26%,有效提高了模型的文本情感分析的性能;最终在社交文本数据集上,结合二阶隐马尔可夫分词模型与Bi_LSTM分类预测模型,总体准确率达到92.67%。由此得出,在人机交互的语音识别中,无论是在积极、消极还是中性的语音文本上,本模型对情感倾向的分类准确率都更高于使用一阶隐马尔可夫模型和其他模型,。由此得出,本语音文本抽取方法可用于人机交互中的信息抽取和情感分析。 展开更多
关键词 人机交互 隐马尔可夫模型 长短时网络 文本信息 情感分析
原文传递
基于迁移学习的农业短文本语义相似度计算方法
19
作者 金宁 郭宇峰 +2 位作者 韩晓东 缪祎晟 吴华瑞 《智慧农业(中英文)》 2025年第1期33-43,共11页
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Represe... [目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT (Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。[方法] CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法 CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT (Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。[结果和讨论] CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM (Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。[结论] CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。 展开更多
关键词 迁移学习 农业短文本 语义相似度计算 字形特征 知识智能服务 大模型
在线阅读 下载PDF
融合BTM和Doc2vec的中文短文本自动评分方法 被引量:1
20
作者 宫皓明 万小芬 康春花 《江西师范大学学报(自然科学版)》 北大核心 2025年第2期120-127,共8页
为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和B... 为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和BTM-W2V的效果优于BTM和Doc2vec的效果,而且BTM-D2V的表现尤其突出.该研究为中文短文本主观题自动评分探索了一种新思路. 展开更多
关键词 中文短文本 自动评分 准确性
在线阅读 下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部