期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
Immune Algorithm For Document Query Optimization
1
作者 WangZiqiang FengBoqin 《工程科学(英文版)》 2005年第1期89-93,共5页
To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorith... To efficiently retrieve relevant document from the rapid proliferation of large information collections, a novel immune algorithm for document query optimization is proposed. The essential ideal of the immune algorithm is that the crossover and mutation of operator are constructed according to its own characteristics of information retrieval. Immune operator is adopted to avoid degeneracy. Relevant documents retrieved are merged to a single document list according to rank formula. Experimental results show that the novel immune algorithm can lead to substantial improvements of relevant document retrieval effectiveness. 展开更多
关键词 免疫算法 信息检索 文件查询优化 失量空间模型
在线阅读 下载PDF
基于贝叶斯算法的垃圾邮件过滤技术 被引量:9
2
作者 林巧民 许建真 +1 位作者 许棣华 王诚 《南京师范大学学报(工程技术版)》 CAS 2005年第4期61-64,共4页
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料... 对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果. 展开更多
关键词 垃圾邮件 文本分类 向量空间模型 贝叶斯算法
在线阅读 下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
3
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型VSM KFC算法
在线阅读 下载PDF
结合语义的特征权重计算方法研究 被引量:20
4
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似度 知网
在线阅读 下载PDF
一种基于向量空间模型的质谱谱库检索算法 被引量:6
5
作者 黄超 蒋学慧 +2 位作者 代丽 汪曣 赵学玒 《真空科学与技术学报》 EI CAS CSCD 北大核心 2010年第6期637-640,共4页
本文基于向量空间模型,提出了一种质谱谱库检索算法。该算法将质谱图数据向量化,并定义一个质量数向量空间,质谱图被表示成质量数空间内的一组向量,并利用向量间的相似性计算方法,实现质谱谱库的检索。并且,将(m/e)m.In作为权重进行质... 本文基于向量空间模型,提出了一种质谱谱库检索算法。该算法将质谱图数据向量化,并定义一个质量数向量空间,质谱图被表示成质量数空间内的一组向量,并利用向量间的相似性计算方法,实现质谱谱库的检索。并且,将(m/e)m.In作为权重进行质谱图相似性的计算,而不仅仅是(m/e)。通过试验,该算法的检索结果与NIST 05检索软件的检索结果一致。 展开更多
关键词 质谱 向量空间模型 库检索 算法
原文传递
基于VSM的分层网页推荐算法 被引量:5
6
作者 邵华 高凤荣 +1 位作者 邢春晓 蒋丽华 《计算机科学》 CSCD 北大核心 2006年第11期86-88,105,共4页
在面对大数据量时,传统的基于VSM的分层网页推荐算法由于分类的不准确,造成推荐精确率较低。该文针对这个缺陷提出了改进的分层推荐算法,该算法在推荐过程中综合考虑了领域和用户兴趣,以及网页和用户兴趣的相似程度,来为用户提供高效的... 在面对大数据量时,传统的基于VSM的分层网页推荐算法由于分类的不准确,造成推荐精确率较低。该文针对这个缺陷提出了改进的分层推荐算法,该算法在推荐过程中综合考虑了领域和用户兴趣,以及网页和用户兴趣的相似程度,来为用户提供高效的个性化网页推荐。实验表明,该算法提高了网页推荐的精确率。 展开更多
关键词 个性化 向量空间模型 层次 推荐算法
在线阅读 下载PDF
三种分类算法的实验比较 被引量:2
7
作者 蔡巍 王永成 +1 位作者 李伟 尹中航 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第4期510-512,共3页
对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新... 对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析. 展开更多
关键词 分类算法 K最近邻算法 向量空间模型算法 混合算法
在线阅读 下载PDF
农业文本特征重组向量矩阵算法优化与仿真 被引量:3
8
作者 刘波 郭平 +1 位作者 沈岳 丁德红 《软件》 2015年第4期6-13,共8页
本文以湖南国家农村农业信息化示范省建设项目中农业知识推送研究成果为基础,提出一个基于用户偏好变化的农业文本特征重组向量矩阵算法。首先,依据用户对农业知识访问的关键词诉求,通过关键词分频策略对推荐信息进行特征提取;其次,基... 本文以湖南国家农村农业信息化示范省建设项目中农业知识推送研究成果为基础,提出一个基于用户偏好变化的农业文本特征重组向量矩阵算法。首先,依据用户对农业知识访问的关键词诉求,通过关键词分频策略对推荐信息进行特征提取;其次,基于关键词参照库进行特征重组,得到标准特征词,改进向量空间模型中TF-IDF权重计算方法,设计关键词和特征词的相似度加权值反映用户偏好的变化。通过仿真实验与其它算法对比,此算法在降维的同时,对文本推荐具有较高的准确率和良好的区分度。 展开更多
关键词 矢量矩阵 向量空间模型 推荐算法 特征重组
在线阅读 下载PDF
Lucene搜索引擎 被引量:23
9
作者 周登朋 谢康林 《计算机工程》 CAS CSCD 北大核心 2007年第18期95-96,118,共3页
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。该文探讨了Lucene中使用的向量空间模型,分析了Lucene索引文件的结构以及搜索排序算法,讨论了Lucene的压缩算法... Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。该文探讨了Lucene中使用的向量空间模型,分析了Lucene索引文件的结构以及搜索排序算法,讨论了Lucene的压缩算法并且通过实验验证了Lucene的建立索引的过程。 展开更多
关键词 LUCENE 向量空间模型 排序算法 信息检索
在线阅读 下载PDF
一种改进的VSM及其在文本自动分类中的应用 被引量:3
10
作者 张婷慧 耿焕同 蔡庆生 《微电子学与计算机》 CSCD 北大核心 2005年第12期24-27,共4页
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁... 目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档。针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进。在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档。实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高。 展开更多
关键词 文本自动分类 向量空间模型 APFIORI算法 词共现
在线阅读 下载PDF
智能过滤Agent在Internet上的应用 被引量:6
11
作者 陈红英 李卫华 毛革非 《计算机工程》 CAS CSCD 北大核心 2002年第3期71-73,共3页
介绍了一个智能过滤的原理和实现方法,实验结果表明该比一般搜索引擎查准率有较大提高。
关键词 中文分词 信息过滤 ID3算法 向量空间法 INTERNET 信息处理 智能过滤 AGENT
在线阅读 下载PDF
基于维度索引表的改进KNN分类算法 被引量:3
12
作者 路永和 何新宇 《情报理论与实践》 CSSCI 北大核心 2014年第5期102-106,共5页
阐述传统KNN分类器的基本原理和其存在的不足之处;针对样本数量增大,维度上升时KNN算法中相似度计算量急剧增大的问题,提出基于维度索引表的改进KNN分类算法;该算法通过建立特征项维度索引表加速KNN算法中寻找K近邻;以搜狗自然语言实验... 阐述传统KNN分类器的基本原理和其存在的不足之处;针对样本数量增大,维度上升时KNN算法中相似度计算量急剧增大的问题,提出基于维度索引表的改进KNN分类算法;该算法通过建立特征项维度索引表加速KNN算法中寻找K近邻;以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,用改进KNN方法和传统KNN方法进行对比实验。实验结果表明:该方法能大幅度减少寻找K近邻时相似度计算的次数。 展开更多
关键词 文本分类 维度索引表 向量空间模型 分类算法
原文传递
基于TFIDF的社区问答系统问句相似度改进算法 被引量:11
13
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 TFIDF算法 社区问答系统 问句相似度
在线阅读 下载PDF
Internet信息过滤中用户个性化模式的构建 被引量:10
14
作者 赵涓涓 陈俊杰 《太原理工大学学报》 CAS 2003年第3期336-338,346,共4页
提出了个性化信息过滤技术 ,并对其基本原理进行了阐述 ;构建了用户个性化模式 ,给出了用户分类算法。最后 ,对当前存在的问题进行了总结。
关键词 INTERNET 信息过滤 用户个性化模式 用户分类算法 向量空间模型 基本原理 信息检索 信息处理
在线阅读 下载PDF
一种初值优化的K-均值文档聚类算法(英文) 被引量:2
15
作者 陈媛媛 屈志毅 +1 位作者 张恒龙 廖绍雯 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期206-210,共5页
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种... K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果. 展开更多
关键词 文档聚类 K-均值 向量空间模型 划分聚类算法
在线阅读 下载PDF
一种基于遗传算法的主题划分方法 被引量:1
16
作者 傅间莲 陈群秀 《计算机工程》 EI CAS CSCD 北大核心 2006年第11期209-210,218,共3页
提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的... 提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。 展开更多
关键词 自动文摘 向量空间模型 遗传算法 主题划分
在线阅读 下载PDF
融合模拟退火的遗传算法在文档聚类中的应用 被引量:2
17
作者 白曦 吕晓枫 孙吉贵 《计算机工程与应用》 CSCD 北大核心 2006年第23期144-148,共5页
为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来... 为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来。实验表明,使用该混合算法对文档进行聚类,不仅搜索效率得到了提高,而且准确度优于使用传统的遗传算法。 展开更多
关键词 布尔模型 向量空间模型 文档聚类 遗传算法 模拟退火
在线阅读 下载PDF
基于向量空间模型的文档聚类算法研究 被引量:8
18
作者 何飞 蒋冬初 《湖南城市学院学报》 2003年第3期114-116,共3页
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了几种基于向量空间模型的文档聚类算法,如常见的k-means算法和凝聚层次算法,针对它们的不足提出了改进的BK-means算法和多层CFK-means算法.最后,根据一定的评价标准... 随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了几种基于向量空间模型的文档聚类算法,如常见的k-means算法和凝聚层次算法,针对它们的不足提出了改进的BK-means算法和多层CFK-means算法.最后,根据一定的评价标准,得出Bk–means算法是文档聚类算法中较好的算法. 展开更多
关键词 向量空间模型 文档聚类算法 K-MEANS算法 凝聚层次算法 BK-means算法 多层CFK-means算法 文本挖掘 信息检索
在线阅读 下载PDF
基于文本加权KNN算法的中文垃圾短信过滤 被引量:19
19
作者 黄文明 莫阳 《计算机工程》 CAS CSCD 北大核心 2017年第3期193-199,共7页
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的... 针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。 展开更多
关键词 垃圾过滤 关联规则 特征选择 K最近邻算法 向量空间模型
在线阅读 下载PDF
一种基于向量空间模型的文本聚类方法 被引量:4
20
作者 刘立平 易华容 何文斌 《株洲师范高等专科学校学报》 2004年第5期23-25,共3页
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果... 研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的. 展开更多
关键词 向量空间模型 文本聚类 聚类算法
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部