期刊文献+
共找到859篇文章
< 1 2 43 >
每页显示 20 50 100
Towards privacy-preserving and efficient word vector learning for lightweight IoT devices
1
作者 Nan Jia Shaojing Fu +2 位作者 Guangquan Xu Kai Huang Ming Xu 《Digital Communications and Networks》 SCIE CSCD 2024年第4期895-903,共9页
Nowadays,Internet of Things(IoT)is widely deployed and brings great opportunities to change people's daily life.To realize more effective human-computer interaction in the IoT applications,the Question Answering(Q... Nowadays,Internet of Things(IoT)is widely deployed and brings great opportunities to change people's daily life.To realize more effective human-computer interaction in the IoT applications,the Question Answering(QA)systems implanted in the IoT services are supposed to improve the ability to understand natural language.Therefore,the distributed representation of words,which contains more semantic or syntactic information,has been playing a more and more important role in the QA systems.However,learning high-quality distributed word vectors requires lots of storage and computing resources,hence it cannot be deployed on the resource-constrained IoT devices.It is a good choice to outsource the data and computation to the cloud servers.Nevertheless,it could cause privacy risks to directly upload private data to the untrusted cloud.Therefore,realizing the word vector learning process over untrusted cloud servers without privacy leakage is an urgent and challenging task.In this paper,we present a novel efficient word vector learning scheme over encrypted data.We first design a series of arithmetic computation protocols.Then we use two non-colluding cloud servers to implement high-quality word vectors learning over encrypted data.The proposed scheme allows us to perform training word vectors on the remote cloud servers while protecting privacy.Security analysis and experiments over real data sets demonstrate that our scheme is more secure and efficient than existing privacy-preserving word vector learning schemes. 展开更多
关键词 PRIVACY-PRESERVING word vector learning Secret sharing Internet of things
在线阅读 下载PDF
Improve Neural Machine Translation by Building Word Vector with Part of Speech 被引量:3
2
作者 Jinyingming Zhang Jin Liu Xinyue Lin 《Journal on Artificial Intelligence》 2020年第2期79-88,共10页
Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot dist... Neural Machine Translation(NMT)based system is an important technology for translation applications.However,there is plenty of rooms for the improvement of NMT.In the process of NMT,traditional word vector cannot distinguish the same words under different parts of speech(POS).Aiming to alleviate this problem,this paper proposed a new word vector training method based on POS feature.It can efficiently improve the quality of translation by adding POS feature to the training process of word vectors.In the experiments,we conducted extensive experiments to evaluate our methods.The experimental result shows that the proposed method is beneficial to improve the quality of translation from English into Chinese. 展开更多
关键词 Machine translation parts of speech word vector
在线阅读 下载PDF
基于Word2vec的哈萨克文词向量化模型的实现
3
作者 吾塔嗯拜克·阿萨汗 亚森·艾则孜 阿依努尔·努尔太 《数字通信世界》 2025年第5期148-149,166,共3页
词向量嵌入技术是研究自然语言的重要一步,通过向量化,将自然语言数字化,使自然语言能够被计算机识别和进行相关处理计算。基于Word2vec实现哈萨克文向量化,对哈萨克语机器翻译、文本分类和识别等领域研究具有重要支撑意义。本文将开源... 词向量嵌入技术是研究自然语言的重要一步,通过向量化,将自然语言数字化,使自然语言能够被计算机识别和进行相关处理计算。基于Word2vec实现哈萨克文向量化,对哈萨克语机器翻译、文本分类和识别等领域研究具有重要支撑意义。本文将开源的科大讯飞哈萨克文语料数据集作为语料库,经过清洗、分词等步骤,用Word2vc实现向量化,将每一个哈萨克文词转换为一个独立的K位词向量,通过对词向量的计算,实现发现哈萨克文文本中包含的上下文语义规律、文本主题词提取、相似词计算等功能。 展开更多
关键词 哈萨克文 word2vec 词向量 相似度分析
在线阅读 下载PDF
Paragraph Vector Representation Based on Word to Vector and CNN Learning 被引量:5
4
作者 Zeyu Xiong Qiangqiang Shen +1 位作者 Yijie Wang Chenyang Zhu 《Computers, Materials & Continua》 SCIE EI 2018年第5期213-227,共15页
Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learn... Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 展开更多
关键词 Distributed word vector distributed paragraph vector CNNS CBOW deep learning.
在线阅读 下载PDF
基于Word2vector的文本特征化表示方法 被引量:22
5
作者 周顺先 蒋励 +2 位作者 林霜巧 龚德良 王鲁达 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2018年第2期272-279,共8页
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词... 针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。 展开更多
关键词 word2vector 上下文关系 特征化表示 文本分类
在线阅读 下载PDF
一种基于Word2Vector与编辑距离的句子相似度计算方法 被引量:4
6
作者 陆尹浩 《电脑知识与技术(过刊)》 2017年第2X期146-147,共2页
随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提... 随着各种问答系统的流行与聊天机器人的火热,对句子相似性的比较和处理越来越成为各类类似系统的核心部分。因此,研究并设计出一种好的句子相似性比较方法变得越来越关键。该文基于一种深度学习模型Word2Vector并且结合编辑距离算法提出了一种句子相似度计算方法,给出了具体的设计思路,并且通过实验验证了该方法的有效性,最后总结了该方法的优缺点。 展开更多
关键词 句子相似度计算 word2vector 编辑距离 Edit Distance
在线阅读 下载PDF
基于Word2vec的二语教学“基本形式库”构建方法初探 被引量:1
7
作者 杨苛鑫 庄会彬 杨牧 《国际汉语教学研究》 2024年第3期76-84,共9页
二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式... 二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式”。本文初步提出了一种兼具可操作性和效率性的建设方法,作为人工建设“基本形式库”的辅助工具,并检索出了一部分基本形式(准)等义组作为前人研究的补充,为“基本形式”观理论进一步发展提供工具与思考。 展开更多
关键词 基本形式 word2vec 词向量 (准)等义组
原文传递
Word2Vec新闻推荐系统设计与实现——基于Attention机制与Embedding优化
8
作者 陈宇 《情报探索》 2024年第10期88-96,共9页
[目的/意义]设计基于Attention机制与Embedding优化的Word2Vec新闻推荐系统,通过词向量计算上的性能提升改善推荐成效。[方法/过程]重点解决改进Word2Vec的新闻推荐系统建设中的3个关键技术难点:(1)基于Attention机制与Embedding优化的W... [目的/意义]设计基于Attention机制与Embedding优化的Word2Vec新闻推荐系统,通过词向量计算上的性能提升改善推荐成效。[方法/过程]重点解决改进Word2Vec的新闻推荐系统建设中的3个关键技术难点:(1)基于Attention机制与Embedding优化的Word2Vec模型构建,为系统提供词向量计算神经网络;(2)MongoDB及Redis数据库的可用性提升,提升分布式框架下的数据库架构鲁棒性;(3)构建智能监控与运维平台。[结果/结论]对比Word2Vec,基于Attention机制与Embedding优化的Word2Vec在损失值和准确率方面明显提升,数据库层优化及智能监控与运维平台提升系统可靠性和稳定性。 展开更多
关键词 新闻推荐 词向量 注意力机制
在线阅读 下载PDF
融合多阶段特征的中文命名实体识别模型
9
作者 杨先凤 范玥 +1 位作者 李自强 汤依磊 《计算机工程与设计》 北大核心 2025年第1期37-43,共7页
针对中文命名实体识别中未充分利用完整的文本表示和语句特征的问题,提出一种融合多阶段特征的中文命名实体识别模型(LM-CNER)。采用全局注意力机制文本融合字符级嵌入与其预训练词向量,同时获取字符级特征和单词级特征。采用翻转长短... 针对中文命名实体识别中未充分利用完整的文本表示和语句特征的问题,提出一种融合多阶段特征的中文命名实体识别模型(LM-CNER)。采用全局注意力机制文本融合字符级嵌入与其预训练词向量,同时获取字符级特征和单词级特征。采用翻转长短时记忆网络(Re-LSTM)进行上下文特征提取,采用多头自注意力机制进行句法分析,并将二者进行拼接。使用条件随机场作为解码器,得到命名实体识别结果。在微博和简历两个数据集上的实验结果表明,该模型能够获取更加准确的文本表示和语句特征,提升模型的实体识别效果。 展开更多
关键词 命名实体识别 翻转长短时记忆网络 注意力机制 编码器 预训练词向量 多阶段特征 条件随机场
在线阅读 下载PDF
基于文本挖掘的我国长期护理保险政策供给特征研究
10
作者 刘芷含 李鹤斌 +1 位作者 卢志诚 王雪晗 《护理研究》 北大核心 2025年第19期3242-3255,共14页
目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘... 目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘研究。结果:利用多维尺度分析将政策文本内容梳理出宏观政策环境、服务模式与内容、筹资与给付标准3条政策脉络。结论:建议政府创新制度供给,鼓励数据驱动供给,加强危机学习意识。 展开更多
关键词 长期护理保险 词频-逆文档频率词向量模型 多维尺度分析 文本挖掘 政策供给
在线阅读 下载PDF
DeepSeek懂哲学吗?——以黑格尔哲学为例
11
作者 徐英瑾 《山西师大学报(社会科学版)》 2025年第3期76-85,共10页
DeepSeek等大模型的出现,显然在工具意义上大大提高了人文社科工作者的研究效率。但由此就认定大模型能“懂”诸如哲学这样的高深学问,则未免过于言过其实。哲学思维本质上是一种高级的格局感训练,因此,“懂”哲学在相当程度上就等于具... DeepSeek等大模型的出现,显然在工具意义上大大提高了人文社科工作者的研究效率。但由此就认定大模型能“懂”诸如哲学这样的高深学问,则未免过于言过其实。哲学思维本质上是一种高级的格局感训练,因此,“懂”哲学在相当程度上就等于具备了在宏观上调整我们借以描述世界的根本概念构架之拓扑学结构的能力。然而,大模型所依赖的“预测词元”的工作方式在本质上就是去层次化的,而这种工作方式也会在根本上剥夺机器对于概念图谱的洞察力。与之相较,黑格尔哲学对于概念层次自身的复杂结构性特征的高度重视,的确对大模型的现有工作方式提出了严峻挑战。 展开更多
关键词 大语言模型 人工智能 DeepSeek 词向量 《逻辑学》 三段论
在线阅读 下载PDF
基于超球坐标的复数词向量位置编码研究
12
作者 安俊秀 杨林旺 柳源 《微电子学与计算机》 2025年第6期138-145,共8页
现有的位置编码方法采用绝对位置编码和相对位置编码,但两种编码方式的缺点都源自元素信息和其位置信息的分离。为解决这一问题,提出了基于超球坐标的复数词向量中的位置编码方法(HCCPE)。借鉴复数编码的思想,采用超球坐标将元素信息和... 现有的位置编码方法采用绝对位置编码和相对位置编码,但两种编码方式的缺点都源自元素信息和其位置信息的分离。为解决这一问题,提出了基于超球坐标的复数词向量中的位置编码方法(HCCPE)。借鉴复数编码的思想,采用超球坐标将元素信息和位置信息统一编码。首先采用绝对位置编码生成角度坐标,其次采用中心点方法求得超球半径,最后将超球坐标系中表示的向量重新转移回原始坐标系。考虑到融合位置信息后,词向量会受到位置特征的影响而失去部分原始语义信息。因此,通过设置不同的权重系数,来确保融合结果既包含位置信息,又保留原始语义信息。实验结果表明:在机器翻译和文本分类任务上,基于WMT2016数据集的实验中,所提方法的BLEU值提升了1.16%;基于CR、MPQA、SUBJ、MR、SST和TREC数据集的实验中,所提方法相比已有基线模型取得了较好的效果。 展开更多
关键词 位置编码 复数词向量 超球坐标
在线阅读 下载PDF
DNMKG: A method for constructing domain of nonferrous metals knowledge graph based on multiple corpus
13
作者 Hai-liang LI Hai-dong WANG 《Transactions of Nonferrous Metals Society of China》 2025年第8期2790-2802,共13页
To address the underutilization of Chinese research materials in nonferrous metals,a method for constructing a domain of nonferrous metals knowledge graph(DNMKG)was established.Starting from a domain thesaurus,entitie... To address the underutilization of Chinese research materials in nonferrous metals,a method for constructing a domain of nonferrous metals knowledge graph(DNMKG)was established.Starting from a domain thesaurus,entities and relationships were mapped as resource description framework(RDF)triples to form the graph’s framework.Properties and related entities were extracted from open knowledge bases,enriching the graph.A large-scale,multi-source heterogeneous corpus of over 1×10^(9) words was compiled from recent literature to further expand DNMKG.Using the knowledge graph as prior knowledge,natural language processing techniques were applied to the corpus,generating word vectors.A novel entity evaluation algorithm was used to identify and extract real domain entities,which were added to DNMKG.A prototype system was developed to visualize the knowledge graph and support human−computer interaction.Results demonstrate that DNMKG can enhance knowledge discovery and improve research efficiency in the nonferrous metals field. 展开更多
关键词 knowledge graph nonferrous metals THESAURUS word vector model multi-source heterogeneous corpus
在线阅读 下载PDF
A Binary Vulnerability Similarity Detection Model Based on Deep Graph Matching
14
作者 Yangzhi Zhang 《Journal of Electronic Research and Application》 2025年第5期291-298,共8页
To enhance network security,this study employs a deep graph matching model for vulnerability similarity detection.The model utilizes a Word Embedding layer to vectorize data words,an Image Embedding layer to vectorize... To enhance network security,this study employs a deep graph matching model for vulnerability similarity detection.The model utilizes a Word Embedding layer to vectorize data words,an Image Embedding layer to vectorize data graphs,and an LSTM layer to extract the associations between word and graph vectors.A Dropout layer is applied to randomly deactivate neurons in the LSTM layer,while a Softmax layer maps the LSTM analysis results.Finally,a fully connected layer outputs the detection results with a dimension of 1.Experimental results demonstrate that the AUC of the deep graph matching vulnerability similarity detection model is 0.9721,indicating good stability.The similarity scores for vulnerabilities such as memory leaks,buffer overflows,and targeted attacks are close to 1,showing significant similarity.In contrast,the similarity scores for vulnerabilities like out-of-bounds memory access and logical design flaws are less than 0.4,indicating good similarity detection performance.The model’s evaluation metrics are all above 97%,with high detection accuracy,which is beneficial for improving network security. 展开更多
关键词 Network security word vectors Graph vector matrix Deep graph matching Vulnerability similarity
在线阅读 下载PDF
基于Bagging_BiLSTM的网络文本情感分析
15
作者 刘杰 葛浩伟 《计算机仿真》 2025年第9期274-278,共5页
网络文本处理中,颗粒度过大或过小都会造成情感分析关键词断裂,无法精准定位文本内部固有的结构断裂点,从而难以全面捕捉关键词,导致情感识别准确性、特征贡献率减弱。为此,提出基于Bagging_BiLSTM的网络文本情感分析方法。基于word2ve... 网络文本处理中,颗粒度过大或过小都会造成情感分析关键词断裂,无法精准定位文本内部固有的结构断裂点,从而难以全面捕捉关键词,导致情感识别准确性、特征贡献率减弱。为此,提出基于Bagging_BiLSTM的网络文本情感分析方法。基于word2vec方法将网络文本中的词语转换为词向量,并根据词向量计算文本中各语句的重要度,选取重要度较高的语句作为颗粒度基准,构建文本摘要,更准确地反映文本的情感和结构特点;基于最大距离法的K-means算法对各文本摘要展开聚类,将相似的文本摘要归为一类,避免文本结构断裂造成的情感分析关键词断裂;在各聚类中任选一个文本,将该文本摘要的词向量输入到Bagging_BiLSTM模型中,识别各聚类文本的具体情感类型特征信息,完成情感分析。实验结果表明,上述方法的文本聚类效果较好,情感识别准确性、特征贡献率较高。 展开更多
关键词 情感分析 网络文本分类 词向量
在线阅读 下载PDF
基于词向量模型的短文本分类方法研究综述 被引量:1
16
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《南京师范大学学报(工程技术版)》 2025年第2期54-68,共15页
生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采... 生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采用的词向量模型,从传统词向量模型和预训练词向量模型来分析主流词向量模型在短文本分类领域的研究现状,简要梳理了词向量模型的发展进程,介绍了词向量模型在短文本分类领域的具体应用,分析了其优缺点,给出了后词向量时代的短文本分类的发展展望,最后探讨了当前词向量模型在短文本分类中存在的局限性及未来的发展方向. 展开更多
关键词 文本挖掘 词向量 短文本分类 预训练模型
在线阅读 下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:28
17
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:24
18
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 词向量 word2vec技术 Attention机制 智能提取
在线阅读 下载PDF
融合Word2vec与TextRank的关键词抽取研究 被引量:69
19
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 word2vec TextRank 图模型 词向量
原文传递
基于SUMO和WordNet本体集成的文本分类模型研究 被引量:8
20
作者 胡泽文 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2011年第1期31-38,共8页
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量... 针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 展开更多
关键词 SUMO本体 wordNET 本体集成 文本分类模型 词向量空间 概念向量空间
原文传递
上一页 1 2 43 下一页 到第
使用帮助 返回顶部