期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种基于Word2Vec的训练效果优化策略研究 被引量:20
1
作者 王飞 谭新 《计算机应用与软件》 北大核心 2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word... Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。 展开更多
关键词 word2vec 词向量 语义相似度 算法
在线阅读 下载PDF
Substitutability of urban sustainability assessment indicators:A semantic similarity analysis
2
作者 Yunlin He Tianshu Yu Jiangming Ma 《Chinese Journal of Population,Resources and Environment》 2024年第4期436-442,共7页
Urban sustainability assessment is an effective method for objectively presenting the current state of sustainable urban development and diagnosing sustainability-related issues.As the global community intensifies its... Urban sustainability assessment is an effective method for objectively presenting the current state of sustainable urban development and diagnosing sustainability-related issues.As the global community intensifies its efforts to implement the sustainable development goals(SDGs),the demand for assessing progress in urban sustainable development has increased.This has led to the emergence of numerous indicator systems with varying scales and themes published by different entities.Cities participating in these evaluations often encounter difficulties in matching indicators or the absence of certain indicators.In this context,urban decision makers and planners urgently need to identify substitute indicators that can express the semantic meaning of the original indicators and consider the availability of indicators for participating cities.Hence,this study explores the relationships of substitution between indicators and constructs a collection of substitute indicators to serve as a reference for sustainable urban development assessment.Specifically,building on a review of international and Chinese indicators related to urban sustainability assessment,this study employs natural semantic analysis methods based on the Word2Vec model and cosine similarity algorithm to calculate the similarity between indicators related to sustainable urban development.The results show that the Skip-gram algorithm with a word vector dimensionality of 600 has the best performance in terms of calculating the similarity between sustainable urban development assessment indicators.The findings provide valuable insights into selecting substitute indicators for future sustainable urban development assessment,particularly in China. 展开更多
关键词 Urban sustainability assessment Sustainable development semantic analysis word2vec Cosine similarity
在线阅读 下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
3
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
在线阅读 下载PDF
基于自然语言处理的企业科技成果管理平台研究
4
作者 韩光明 车坚女 +2 位作者 郭龙 韩玉林 王继鹏 《天然气与石油》 2025年第1期43-50,共8页
企业科技成果包含数据较为复杂,并涵盖较多敏感数据,现有文本分类结果不能满足实际的保密管理需求,可能存在数据泄露或非法访问的风险。为此,设计基于自然语言处理(Natural Language Processing,NLP)的企业科技成果管理平台,以解决关键... 企业科技成果包含数据较为复杂,并涵盖较多敏感数据,现有文本分类结果不能满足实际的保密管理需求,可能存在数据泄露或非法访问的风险。为此,设计基于自然语言处理(Natural Language Processing,NLP)的企业科技成果管理平台,以解决关键字检索不能对保密文本进行准确分类的经典问题。使用卷积神经网络(Convolutional Neural Networks,CNN)自动提取文本特征,并用支持向量机(Support Vector Machine,SVM)作为最终的分类器,构建CNN-SVM模型;采用多种不同维度的卷积核进行卷积运算,利用全连接层接收并处理来自注意力层的输出数据,采用SVM分类器对科技成果文本进行分类;通过附件管理模块实现对象存储服务(Swift Object Storage Service,Swift)部署;通过高级加密标准(Advanced Encryption Standard,AES)算法实施科技成果文本数据在传输和存储过程中的加密处理,实现企业科技成果管理平台设计。为了验证设计平台的有效性,将系统A、系统B进行对比实验,表明不同频率的数据窃取攻击下,被窃取科技成果数据不超过1 MB,检索一致性超过90%,对文档进行分类后语义涉密检查的召回率最高可达97%,说明设计平台的文档自动分类效果较好,能够对保护企业知识产权起一定作用。研究设计的企业科技成果管理平台,通过结合NLP技术和先进的加密手段,有效提升了科技成果文本的保密管理水平,能够在很大程度上防止数据泄露和非法访问,同时保证了文档分类的准确性和效率。 展开更多
关键词 NLP SVM CNN 词语向量化处理 SWIFT 企业科技成果管理 AES算法
在线阅读 下载PDF
结合语义的特征权重计算方法研究 被引量:20
5
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似度 知网
在线阅读 下载PDF
用于信息检索的同义词自动识别及其进展 被引量:25
6
作者 陆勇 侯汉清 《南京农业大学学报(社会科学版)》 2004年第3期87-93,共7页
同义词识别在很多领域都有广泛的应用 ,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等 ,它是信息表示和信息检索领域急需解决的问题。目前 ,国外的同义词自动识别的方法主要包括 :基于词典... 同义词识别在很多领域都有广泛的应用 ,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等 ,它是信息表示和信息检索领域急需解决的问题。目前 ,国外的同义词自动识别的方法主要包括 :基于词典注释的同义词识别算法、基于大型语料库统计的方法和基于搜索引擎的方法。 展开更多
关键词 信息检索 自动标引 同义词识别 语料库
在线阅读 下载PDF
基于DTW和改进匈牙利算法的句子语义相似度研究 被引量:1
7
作者 钮焱 李星 +2 位作者 李军 刘宇强 Jepkemei Judith 《计算机与数字工程》 2021年第2期242-247,共6页
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习... 句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。 展开更多
关键词 词向量 DTW 匈牙利算法 语义相似度 语义特征
在线阅读 下载PDF
面向领域的语义搜索引擎的应用研究 被引量:5
8
作者 赵宏亮 杨鹤标 《计算机工程与设计》 CSCD 北大核心 2012年第5期1801-1805,共5页
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型。以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型。在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩... 针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型。以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型。在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度。实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率。 展开更多
关键词 搜索引擎 语义索引 查询扩展 语义标注 领域本体
在线阅读 下载PDF
基于NLP技术的装备故障文本匹配算法研究 被引量:7
9
作者 祖月芳 凌海风 吕永顺 《兵器装备工程学报》 CSCD 北大核心 2021年第11期204-208,共5页
基于当前装备故障诊断的现状,依据在装备维修手册、装备履历书以及装备管理信息系统中存在大量的装备故障和维修经验等数据,结合装备故障文本的特点,提出了一种融合词性、语义及词序因子的故障文本相似度计算方法。该方法将装备故障文... 基于当前装备故障诊断的现状,依据在装备维修手册、装备履历书以及装备管理信息系统中存在大量的装备故障和维修经验等数据,结合装备故障文本的特点,提出了一种融合词性、语义及词序因子的故障文本相似度计算方法。该方法将装备故障文本中词汇的词性、语义及位置关系相联系,在余弦公式的基础上,通过文本中的词汇之间的相似度与词性权重的关联关系,改进相似度计算方法,并引入词序相似度进一步优化文本相似度。实验表明,所提出的方法较其他方法有更好的精确率和召回率,有效提高了装备故障文本的匹配效果。 展开更多
关键词 装备故障文本 词向量 词性 语义 词序相似度 文本相似度 匹配算法
在线阅读 下载PDF
An Automated System to Predict Popular Cybersecurity News Using Document Embeddings
10
作者 Ramsha Saeed Saddaf Rubab +5 位作者 Sara Asif Malik M.Khan Saeed Murtaza Seifedine Kadry Yunyoung Nam Muhammad Attique Khan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第5期533-547,共15页
The substantial competition among the news industries puts editors under the pressure of posting news articleswhich are likely to gain more user attention. Anticipating the popularity of news articles can help the edi... The substantial competition among the news industries puts editors under the pressure of posting news articleswhich are likely to gain more user attention. Anticipating the popularity of news articles can help the editorial teamsin making decisions about posting a news article. Article similarity extracted from the articles posted within a smallperiod of time is found to be a useful feature in existing popularity prediction approaches. This work proposesa new approach to estimate the popularity of news articles by adding semantics in the article similarity basedapproach of popularity estimation. A semantically enriched model is proposed which estimates news popularity bymeasuring cosine similarity between document embeddings of the news articles. Word2vec model has been used togenerate distributed representations of the news content. In this work, we define popularity as the number of timesa news article is posted on different websites. We collect data from different websites that post news concerning thedomain of cybersecurity and estimate the popularity of cybersecurity news. The proposed approach is comparedwith different models and it is shown that it outperforms the other models. 展开更多
关键词 EMBEDDINGS semanticS cosine similarity POPULARITY word2vec
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部