期刊文献+
共找到236篇文章
< 1 2 12 >
每页显示 20 50 100
基于文本挖掘的我国长期护理保险政策供给特征研究
1
作者 刘芷含 李鹤斌 +1 位作者 卢志诚 王雪晗 《护理研究》 北大核心 2025年第19期3242-3255,共14页
目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘... 目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘研究。结果:利用多维尺度分析将政策文本内容梳理出宏观政策环境、服务模式与内容、筹资与给付标准3条政策脉络。结论:建议政府创新制度供给,鼓励数据驱动供给,加强危机学习意识。 展开更多
关键词 长期护理保险 词频-逆文档频率词向量模型 多维尺度分析 文本挖掘 政策供给
在线阅读 下载PDF
DNMKG: A method for constructing domain of nonferrous metals knowledge graph based on multiple corpus
2
作者 Hai-liang LI Hai-dong WANG 《Transactions of Nonferrous Metals Society of China》 2025年第8期2790-2802,共13页
To address the underutilization of Chinese research materials in nonferrous metals,a method for constructing a domain of nonferrous metals knowledge graph(DNMKG)was established.Starting from a domain thesaurus,entitie... To address the underutilization of Chinese research materials in nonferrous metals,a method for constructing a domain of nonferrous metals knowledge graph(DNMKG)was established.Starting from a domain thesaurus,entities and relationships were mapped as resource description framework(RDF)triples to form the graph’s framework.Properties and related entities were extracted from open knowledge bases,enriching the graph.A large-scale,multi-source heterogeneous corpus of over 1×10^(9) words was compiled from recent literature to further expand DNMKG.Using the knowledge graph as prior knowledge,natural language processing techniques were applied to the corpus,generating word vectors.A novel entity evaluation algorithm was used to identify and extract real domain entities,which were added to DNMKG.A prototype system was developed to visualize the knowledge graph and support human−computer interaction.Results demonstrate that DNMKG can enhance knowledge discovery and improve research efficiency in the nonferrous metals field. 展开更多
关键词 knowledge graph nonferrous metals THESAURUS word vector model multi-source heterogeneous corpus
在线阅读 下载PDF
DeepSeek懂哲学吗?——以黑格尔哲学为例
3
作者 徐英瑾 《山西师大学报(社会科学版)》 2025年第3期76-85,共10页
DeepSeek等大模型的出现,显然在工具意义上大大提高了人文社科工作者的研究效率。但由此就认定大模型能“懂”诸如哲学这样的高深学问,则未免过于言过其实。哲学思维本质上是一种高级的格局感训练,因此,“懂”哲学在相当程度上就等于具... DeepSeek等大模型的出现,显然在工具意义上大大提高了人文社科工作者的研究效率。但由此就认定大模型能“懂”诸如哲学这样的高深学问,则未免过于言过其实。哲学思维本质上是一种高级的格局感训练,因此,“懂”哲学在相当程度上就等于具备了在宏观上调整我们借以描述世界的根本概念构架之拓扑学结构的能力。然而,大模型所依赖的“预测词元”的工作方式在本质上就是去层次化的,而这种工作方式也会在根本上剥夺机器对于概念图谱的洞察力。与之相较,黑格尔哲学对于概念层次自身的复杂结构性特征的高度重视,的确对大模型的现有工作方式提出了严峻挑战。 展开更多
关键词 大语言模型 人工智能 DeepSeek 词向量 《逻辑学》 三段论
在线阅读 下载PDF
融合Word2vec与TextRank的关键词抽取研究 被引量:69
4
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 word2vec TextRank 图模型 词向量
原文传递
基于统计语言模型改进的Word2Vec优化策略研究 被引量:14
5
作者 张克君 史泰猛 +1 位作者 李伟男 钱榕 《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 展开更多
关键词 词向量 统计语言模型 TFIDF 文本关键词 CBOW-TFIDF
在线阅读 下载PDF
基于词向量模型的短文本分类方法研究综述 被引量:1
6
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《南京师范大学学报(工程技术版)》 2025年第2期54-68,共15页
生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采... 生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采用的词向量模型,从传统词向量模型和预训练词向量模型来分析主流词向量模型在短文本分类领域的研究现状,简要梳理了词向量模型的发展进程,介绍了词向量模型在短文本分类领域的具体应用,分析了其优缺点,给出了后词向量时代的短文本分类的发展展望,最后探讨了当前词向量模型在短文本分类中存在的局限性及未来的发展方向. 展开更多
关键词 文本挖掘 词向量 短文本分类 预训练模型
在线阅读 下载PDF
基于SUMO和WordNet本体集成的文本分类模型研究 被引量:8
7
作者 胡泽文 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2011年第1期31-38,共8页
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量... 针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 展开更多
关键词 SUMO本体 wordNET 本体集成 文本分类模型 词向量空间 概念向量空间
原文传递
结合LDA与Word2vec的文本语义增强方法 被引量:28
8
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
9
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
在线阅读 下载PDF
基于语义增强的装备事件抽取方法
10
作者 方睿 崔良中 方圆婧 《计算机科学》 北大核心 2025年第S1期286-294,共9页
信息时代下,装备领域的数据量急剧增长,使得论证人员难以高效地从中获取关键信息,进而支持相应的数据分析和论证工作。针对装备领域事件抽取事件论元边界模糊的问题,提出了一种基于语义增强的装备事件抽取方法。该方法利用装备领域的专... 信息时代下,装备领域的数据量急剧增长,使得论证人员难以高效地从中获取关键信息,进而支持相应的数据分析和论证工作。针对装备领域事件抽取事件论元边界模糊的问题,提出了一种基于语义增强的装备事件抽取方法。该方法利用装备领域的专业术语和词汇信息,构建领域词向量,并设计能够兼容和整合不同粒度语义信息的模型结构,将装备领域词向量与预训练模型ERNIE生成的字符向量进行融合,将专业术语知识和通用语言理解能力相结合,实现更全面的语义信息捕捉,增强模型对装备领域文本语义的理解,从而提升模型对事件论元边界的识别能力。实验结果表明,该方法在装备领域数据集上取得了优于基线方法的F1值,相比CK-BERT模型F1值提升了3.83%;在公开数据集ACE2005上进行的实验验证了其能有效提升装备领域事件要素抽取的性能。 展开更多
关键词 装备领域 事件抽取 语义增强 领域词向量 预训练模型
在线阅读 下载PDF
小学教育现代化:教师视角的核心关切与现实困境分析——基于自然语言处理(NLP)技术
11
作者 杨黎 宋乃庆 谢路 《教育与教学研究》 2025年第6期83-95,共13页
小学教育现代化是实现基础教育高质量发展的关键环节。当前关于小学教育现代化的研究多聚焦宏观理论与政策设计,对教师在实践中的实际感受和意见关注不足。本研究基于全国中东西部25省市的6942位小学教师的意见数据,运用自然语言处理(N... 小学教育现代化是实现基础教育高质量发展的关键环节。当前关于小学教育现代化的研究多聚焦宏观理论与政策设计,对教师在实践中的实际感受和意见关注不足。本研究基于全国中东西部25省市的6942位小学教师的意见数据,运用自然语言处理(NLP)技术和词向量分析模型,对教师意见数据进行定量分析,系统挖掘小学教师在学校教育现代化进程中的核心关注点与现实困境,为政策制定者提供基层教育工作者的直接反馈,并在此基础上提出了小学教育现代化改进与完善的对策建议,为小学教育现代化的理论研究和实践探索提供科学依据和实践参考。 展开更多
关键词 小学教育 现代化发展 教师视角 自然语言处理(NLP)技术 词向量模型
在线阅读 下载PDF
Word2vec的工作原理及应用探究 被引量:104
12
作者 周练 《科技情报开发与经济》 2015年第2期145-148,共4页
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练... 研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。 展开更多
关键词 word2vec 词向量 统计语言模型
在线阅读 下载PDF
获取适配专利知识的功能模型相似度计算方法
13
作者 曹国忠 李凯 《机械设计》 北大核心 2025年第4期175-181,共7页
为优化产品创新知识推送的适配性问题,在构建模型进行知识匹配与推送研究基础上,提出一种获取适配专利知识的功能模型相似度计算方法。该方法将TRIZ中的功能模型与知识推送过程相结合,根据功能模型选取待改进设计中相似度计算的要素,引... 为优化产品创新知识推送的适配性问题,在构建模型进行知识匹配与推送研究基础上,提出一种获取适配专利知识的功能模型相似度计算方法。该方法将TRIZ中的功能模型与知识推送过程相结合,根据功能模型选取待改进设计中相似度计算的要素,引入图论算法;基于功能模型计算所选要素的权重;融合专利检索与专利自然语言处理技术提取专利设计中的相似度计算要素,采用词向量模型实现相似度计算。对存在刹车导管切割长度不良问题的切管机进行实例研究,构建其功能模型,并采用计算方法匹配相似专利方案功能模型,验证该计算方法的可行性与准确性。基于该方法准确计算匹配相似专利方案功能模型,从结构层面直接对设计问题的解决进行启发,可提升产品创新知识推送的适配性,进而提高创新设计效率。 展开更多
关键词 功能模型相似度计算 适配性专利知识 图论算法 自然语言处理 词向量模型
原文传递
基于隐马尔科夫模型的中文分词优化方法探讨
14
作者 张富 张璇 《测绘科学》 北大核心 2025年第2期43-48,共6页
针对目前在自然语言处理中存在中文语义歧义性的问题,该文提出了一种通过优化中文分词来消除语义歧义的研究方法,在正向最大匹配算法基础上,通过Word2Vec模型将分词文本转换为词向量,并与相对应字符输入至隐马尔科夫模型,以此优化中文... 针对目前在自然语言处理中存在中文语义歧义性的问题,该文提出了一种通过优化中文分词来消除语义歧义的研究方法,在正向最大匹配算法基础上,通过Word2Vec模型将分词文本转换为词向量,并与相对应字符输入至隐马尔科夫模型,以此优化中文分词的准确性和稳定性。将Word2Vec词向量融入隐马尔科夫模型中,显著提高了中文分词的准确率,一定程度上能有效消除部分中文语义歧义问题,提升自然语言处理效果。本方法在中文自然语言处理中的应用具有重要意义,能够为复杂文本的分词和歧义消除提供有效支持。 展开更多
关键词 自然语言处理 中文分词 分词组合 正向最大匹配 word2Vec词向量模型 隐马尔可夫模型
原文传递
基于TB-IDACNN的新闻推荐模型
15
作者 辛春花 鲁晓波 何婷 《计算机工程与设计》 北大核心 2025年第5期1387-1394,共8页
针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络... 针对现有新闻推荐方法存在未考虑新闻的动态特性、难以深度挖掘新闻的语义信息等问题,提出一种融合TinyBERT和改进型动态注意卷积神经网络的个性化新闻推荐模型(TB-IDACNN)。充分利用TinyBERT词向量模型、卷积神经网络和内积注意力网络等深度学习模型的优势,综合考虑新闻的动态特性和静态特性,实现个性化新闻推荐。在MIND和Adressa数据集上的结果表明,相比其它几种先进的新闻推荐模型,所提模型可以获得更好的推荐性能,能够有效满足用户在新闻推荐任务中的需求。 展开更多
关键词 动态神经网络 新闻推荐 词嵌入模型 内积注意力机制 卷积神经网络 词向量化 平均加权池化
在线阅读 下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:16
16
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 word2Vec 词向量模型 SCI地址字段
在线阅读 下载PDF
利用大型语言模型实现服务器故障检测研究
17
作者 查俊杰 单新文 +2 位作者 陆佳鑫 朱佳佳 刘子寒 《国外电子测量技术》 2025年第4期166-171,共6页
针对服务器的故障检测精度较低导致服务器维护成本增加的问题,提出了一种利用大型语言模型实现服务器故障的检测方法。利用BERT(Bidirectional Encoder Representation of Transformer)大型语言模型对服务器运行状态文本进行语义分析,... 针对服务器的故障检测精度较低导致服务器维护成本增加的问题,提出了一种利用大型语言模型实现服务器故障的检测方法。利用BERT(Bidirectional Encoder Representation of Transformer)大型语言模型对服务器运行状态文本进行语义分析,生成高维词向量,以充分捕捉文本中的语义信息。基于生成的词向量,计算各词向量的权重值和互信息值,筛选出对故障检测具有显著贡献的关键词向量,从而降低数据维度并提升特征提取的准确性。将筛选出的关键词向量作为输入,利用GG(Gaussian-Gamma)聚类算法进行聚类分析,通过迭代优化聚类中心和隶属度矩阵,将服务器运行状态划分为正常状态和故障状态,并进一步识别具体故障类型。实验结果表明,该方法在关键词向量提取和故障检测性能上均表现出色,能够有效提升服务器故障检测的精度和效率,为降低服务器维护成本提供了可靠的技术支持。 展开更多
关键词 大型语言模型 服务器 故障检测 词向量生成 GG聚类
原文传递
自然语言处理领域中的词嵌入方法综述 被引量:23
18
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
在线阅读 下载PDF
基于A-BiLSTM和CNN的文本分类 被引量:3
19
作者 黄远 戴晓红 +2 位作者 黄伟建 于钧豪 黄峥 《计算机工程与设计》 北大核心 2024年第5期1428-1434,共7页
为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将... 为解决单一神经网络不能获取准确全局文本信息的问题,提出一种基于A-BiLSTM双通道和优化CNN的文本分类模型。A-BiLSTM双通道层使用注意力机制关注对文本分类贡献值较大的部分,并用BiLSTM提取文本中上下文语义信息;A-BiLSTM双通道层中将两者输出的特征信息融合,得到高级语义;A-BiLSTM双通道层后,使用优化CNN的强学习能力提取关键局部特征,得到最终文本特征表示。分类器输出文本信息的类别。实验结果表明,该模型分类效果优于其它对比模型,具有良好的泛化能力。 展开更多
关键词 文本分类 深度学习 双通道网络 注意力机制 双向长短时记忆网络 卷积神经网络 词向量模型
在线阅读 下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:2
20
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing vector Space models Semantic Spaces word Embeddings Representation Learning Text vectorization Machine Learning Deep Learning
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部