期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data term frequency Inverse term frequency term frequency-inverse document frequency (TF-IDF) Social Media
在线阅读 下载PDF
基于改进OATA的物体打击事故致因-责任人关联分析
2
作者 李珏 武诗怡 《工程研究——跨学科视野中的工程》 2025年第3期364-377,共14页
文本选取建筑行业125例物体打击事故调查报告,利用文本挖掘技术从中提取出28项事故致因,并融合词频-逆文档频率算法(TF-IDF)和TextRank算法计算出每个致因的权重值。依据相关规定归类出15类事故责任人,并利用社会网络分析方法构建责任... 文本选取建筑行业125例物体打击事故调查报告,利用文本挖掘技术从中提取出28项事故致因,并融合词频-逆文档频率算法(TF-IDF)和TextRank算法计算出每个致因的权重值。依据相关规定归类出15类事故责任人,并利用社会网络分析方法构建责任人关系网络,进而构建了职业事故树,分析了事故致因与责任人之间的关联。结果表明:事故相关施工人员普遍存在安全意识淡薄、违规操作、防护用品佩戴不到位和物体乱放的问题;事故现场管理人员普遍存在现场管理不到位、监督检查不到位、隐患整改不力和安全教育培训不到位的问题。其中,项目负责人的总体事故责任承担率最高;企业管理人员需要重视人员配备和应急管理方面的工作;政府部门人员需要加强对施工单位的监督和管理。通过挖掘事故责任人和致因之间的关联,既可以让各类责任人明晰自己的责任,也有助于决策者制定更精准的预防措施,并将措施的执行落实到个人,提高措施的执行效率。 展开更多
关键词 物体打击事故 社会网络分析 职业事故树分析(OATA) 词频-逆文档频率 TextRank算法
在线阅读 下载PDF
Hybrid Approach to Document Anomaly Detection:An Application to Facilitate RPA in Title Insurance
3
作者 Abhijit Guha Debabrata Samanta 《International Journal of Automation and computing》 EI CSCD 2021年第1期55-72,共18页
Anomaly detection(AD)is an important aspect of various domains and title insurance(TI)is no exception.Robotic process automation(RPA)is taking over manual tasks in TI business processes,but it has its limitations with... Anomaly detection(AD)is an important aspect of various domains and title insurance(TI)is no exception.Robotic process automation(RPA)is taking over manual tasks in TI business processes,but it has its limitations without the support of artificial intelligence(AI)and machine learning(ML).With increasing data dimensionality and in composite population scenarios,the complexity of detecting anomalies increases and AD in automated document management systems(ADMS)is the least explored domain.Deep learning,being the fastest maturing technology can be combined along with traditional anomaly detectors to facilitate and improve the RPAs in TI.We present a hybrid model for AD,using autoencoders(AE)and a one-class support vector machine(OSVM).In the present study,OSVM receives input features representing real-time documents from the TI business,orchestrated and with dimensions reduced by AE.The results obtained from multiple experiments are comparable with traditional methods and within a business acceptable range,regarding accuracy and performance. 展开更多
关键词 Anomaly detection title insurance autoencoder one-class support vector machine(OSVM) term frequency-inverse document frequency(TF-IDF) robotic process automation dimensionality reduction
原文传递
语义识别驱动的化工泄漏事故事前预防研究 被引量:4
4
作者 刘勤明 董宏霖 孔得朝 《安全与环境学报》 CAS CSCD 北大核心 2024年第12期4734-4742,共9页
化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent ... 化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型提取化工泄漏事故致因主题及关键词,利用关键词共现网络分析进行致因中心性和关联度分析,使用因子分析进行致因影响因子的计算,实现了对化工泄漏事故报告潜在信息的挖掘和有效分析。结果表明:通过LDA模型可以计算得到化工泄漏事故致因主题,得出安全意识缺失、物料逸出、设备故障等5个聚类;基于改进点互信息(Pointwise Mutual Information,PMI)的关键词共现网络可以得到事故的关键致因、环节、场所和事故类型,其中最重要且关联度较高的致因是人员操作不当和现场管理不力;最后,通过因子分析得到影响后果最严重的致因是危险作业环境,其次是违规操作或操作不当。提出的研究框架在更深入挖掘利用海量事故致因信息的同时,减少了事故致因评价指标的主观性,为结构复杂、非单一标准的事故报告文本信息提取提供了新的思路,同时将语义识别拓展到化工泄漏事故预防领域,有助于化工泄漏事故的风险识别、预测与防控。 展开更多
关键词 安全社会工程 化工事故 文本挖掘 语义识别 词频逆文档频率算法 潜在狄利克雷分配主题模型
原文传递
基于Softmax回归分类模型的网页搜索排序算法 被引量:3
5
作者 党米花 《吉林大学学报(信息科学版)》 CAS 2024年第5期985-990,共6页
针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页... 针对网页搜索结果存在返回的网页与搜索的关键词领域不相关的领域漂移现象,导致用户无法搜索到需求信息的问题,提出基于Softmax回归分类模型的网页搜索排序算法。选择网页搜索文本特征,得到相应的特征项,利用向量表示模型,将选择的网页搜索文本特征项转换为格式化数据,对网页搜索文本数据进行均衡处理,获取网页搜索文本数据集。采用Softmax回归分类模型,分类处理网页搜索文本数据集,预测网页搜索文本类别,通过Okapi BM25算法,对网页搜索文本进行排序操作,实现网页搜索排序。实验结果表明,所提算法具有较好的网页搜索排序,提升了网页搜索排序精度,避免网页搜索排序过程中的领域漂移现象。 展开更多
关键词 Softmax回归分类模型 网页搜索排序 文本预处理 TF-IDF算法 Okapi BM25算法
在线阅读 下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
6
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 TF-IDF(词频-逆文件频率)算法 格兰杰检验
在线阅读 下载PDF
Enhanced Topic-Aware Summarization Using Statistical Graph Neural Networks
7
作者 Ayesha Khaliq Salman Afsar Awan +2 位作者 Fahad Ahmad Muhammad Azam Zia Muhammad Zafar Iqbal 《Computers, Materials & Continua》 SCIE EI 2024年第8期3221-3242,共22页
The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Curr... The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Current approaches in Extractive Text Summarization(ETS)leverage the modeling of inter-sentence relationships,a task of paramount importance in producing coherent summaries.This study introduces an innovative model that integrates Graph Attention Networks(GATs)with Transformer-based Bidirectional Encoder Representa-tions from Transformers(BERT)and Latent Dirichlet Allocation(LDA),further enhanced by Term Frequency-Inverse Document Frequency(TF-IDF)values,to improve sentence selection by capturing comprehensive topical information.Our approach constructs a graph with nodes representing sentences,words,and topics,thereby elevating the interconnectivity and enabling a more refined understanding of text structures.This model is stretched to Multi-Document Summarization(MDS)from Single-Document Summarization,offering significant improvements over existing models such as THGS-GMM and Topic-GraphSum,as demonstrated by empirical evaluations on benchmark news datasets like Cable News Network(CNN)/Daily Mail(DM)and Multi-News.The results consistently demonstrate superior performance,showcasing the model’s robustness in handling complex summarization tasks across single and multi-document contexts.This research not only advances the integration of BERT and LDA within a GATs but also emphasizes our model’s capacity to effectively manage global information and adapt to diverse summarization challenges. 展开更多
关键词 SUMMARIZATION graph attention network bidirectional encoder representations from transformers Latent Dirichlet Allocation term frequency-inverse document frequency
在线阅读 下载PDF
基于词频统计的文本关键词提取方法 被引量:80
8
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
在线阅读 下载PDF
基于类别区分度的文本特征选择算法研究 被引量:4
9
作者 易军凯 田立康 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第B12期72-75,共4页
针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具... 针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法。通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具有较好的特征选择效果。 展开更多
关键词 文本分类 特征选择 词频反文档频率算法 类别区分度
在线阅读 下载PDF
基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量:20
10
作者 公冶小燕 林培光 +2 位作者 任威隆 张晨 张春云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页
信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词... 信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. 展开更多
关键词 共现词 互信息 语义分析(LSA) 奇异值分解(SVD) term frequency-inverse document frequency(TF-IDF)
在线阅读 下载PDF
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
11
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-逆文档频率(TF-IDF)算法 生成对抗网络(GAN) 类不平衡数据
在线阅读 下载PDF
关键词拍卖的选词与出价策略研究 被引量:2
12
作者 吴纪芸 陈志德 +1 位作者 汪磊 王孟 《计算机工程》 CAS CSCD 北大核心 2015年第7期310-316,共7页
在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度... 在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度计算方法,通过该方法选出的关键词不仅能提高网站的关联度,增加转化率,还能避免因使用过度普遍的关键词而增加竞争成本。在出价策略中,运用改进的粒子群优化算法,在若干约束条件限制下对每个关键词的出价做适当调整,以增加广告主所获利润。实验结果表明,采用拍卖策略选出的关键词组可增加网站的转化率,降低竞争成本,所获得的利润比传统人为投标所获得的利润高,并且在初期和中期呈现持续上升趋势,后期趋于稳定。 展开更多
关键词 拍卖 选词策略 关联度 出价策略 词频-反转文件频率算法 粒子群优化
在线阅读 下载PDF
结合TF-IDF的歌曲情感多标记分类 被引量:4
13
作者 孙向琨 邓伟 《计算机工程》 CAS CSCD 北大核心 2011年第19期189-190,197,共3页
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法... 提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。 展开更多
关键词 多标记分类 歌曲情感分类 多标记k近邻算法 词频-逆向文件频率
在线阅读 下载PDF
使用进化神经网络进行文本自动分类 被引量:1
14
作者 耿俊成 牛霜霞 张才俊 《计算机与现代化》 2011年第11期59-63,共5页
人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增... 人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增益算法选择特征项,使用特征项频率-倒排文档频率计算特征项权值;最后使用进化神经网络对中文文本进行自动分类。实验结果表明,与原BP神经网络相比,进化BP神经网络的分类效果更好。 展开更多
关键词 文本分类 信息增益 特征项频率-倒排文档频率 神经网络 粒子群优化算法
在线阅读 下载PDF
ISTC:A New Method for Clustering Search Results 被引量:2
15
作者 ZHANG Wei XU Baowen +1 位作者 ZHANG Weifeng XU Junling 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期501-504,共4页
A new common phrase scoring method is proposed according to term frequency-inverse document frequency(TFIDF)and independence of the phrase.Combining the two properties can help identify more reasonable common phrases,... A new common phrase scoring method is proposed according to term frequency-inverse document frequency(TFIDF)and independence of the phrase.Combining the two properties can help identify more reasonable common phrases,which improve the accuracy of clustering.Also,the equation to measure the in-dependence of a phrase is proposed in this paper.The new algorithm which improves suffix tree clustering algorithm(STC)is named as improved suffix tree clustering(ISTC).To validate the proposed algorithm,a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine.Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering. 展开更多
关键词 Web search results clustering suffix tree term frequency-inverse document frequency(TFIDF) independence of phrases
在线阅读 下载PDF
基于类别重要度的MIMLBoost改进算法
16
作者 郝宁 夏士雄 +1 位作者 牛强 赵志军 《计算机应用》 CSCD 北大核心 2015年第11期3122-3125,共4页
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以... 针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。 展开更多
关键词 多示例多标记 MIMIBoost算法 TF-IDF算法 聚类 类别不平衡
在线阅读 下载PDF
非编码碱基序列文献的挖掘
17
作者 安建福 孟丽莉 《上海交通大学学报(医学版)》 CAS CSCD 北大核心 2013年第10期1343-1347,共5页
目的应用神经网络算法提高非编码碱基序列文献的查全率和查准率。方法从PubMed数据库中选取样本。对样本处理后,应用词频(TF)×逆文档频率(IDF)方法选取特征项,建立基于后向传播(BP)神经网络算法的检索模型。结果在选取100个特征项... 目的应用神经网络算法提高非编码碱基序列文献的查全率和查准率。方法从PubMed数据库中选取样本。对样本处理后,应用词频(TF)×逆文档频率(IDF)方法选取特征项,建立基于后向传播(BP)神经网络算法的检索模型。结果在选取100个特征项时,查准率为91.49%,查全率为71.23%,受试者工作特征曲线下面积(ROC-AUC)为0.823,特异度为93.37%,灵敏度为71.23%,准确率为82.30%。结论该方法与常用的关键词、MeSH词等方法相比,不仅能够查准也能查全与主题相关的文献。 展开更多
关键词 非编码碱基序列 神经网络 后向传播算法 词频X逆文档频率 文献挖掘
在线阅读 下载PDF
融合标签的实值条件受限波尔兹曼机推荐算法 被引量:4
18
作者 张光荣 王宝亮 侯永宏 《计算机科学与探索》 CSCD 北大核心 2019年第1期138-146,共9页
针对推荐算法中数据的稀疏性难题,把用户标签融合至实值条件受限玻尔兹曼机(real-valued conditional restricted Boltzmann machine,R_CRBM)模型,利用R_CRBM强大的拟合任意离散分布的能力,预测出用户对未交互商品的评分缺失值。具体来... 针对推荐算法中数据的稀疏性难题,把用户标签融合至实值条件受限玻尔兹曼机(real-valued conditional restricted Boltzmann machine,R_CRBM)模型,利用R_CRBM强大的拟合任意离散分布的能力,预测出用户对未交互商品的评分缺失值。具体来说,首先提出显层单元为实值的R_CRBM模型,接着运用文本分类中的TF-IDF算法预测出用户对所应用过的标签的喜爱度,与标签基因数据相乘得到用户对商品的预测评分,融合至用户历史评分数据中。R_CRBM条件层在原有评分/未评分{0,1}向量中,融入用户标签/未标签{0,1}向量。通过真实数据集进行对比分析,实验结果表明提出的方法在一定程度上提升了推荐的准确性。 展开更多
关键词 推荐算法 用户标签 标签基因 TF-IDF 实值条件受限玻尔兹曼机(R_CRBM)
在线阅读 下载PDF
一种基于滑动窗口技术的邮件特征选择方法 被引量:3
19
作者 夏正新 《南京邮电大学学报(自然科学版)》 北大核心 2017年第6期103-110,共8页
在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法... 在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法分为两步,第一步通过基于相对文档-特征词频率差异的特征选择方法,生成正负相关的候选特征集合;第二步使用粒子群优化算法快速选择最好的特征子集,提高了垃圾邮件分类的效果。实验结果表明文中提出的方法要明显优于传统的方法。 展开更多
关键词 滑动窗口 文档-特征词频率差异 粒子群优化算法 特征选择 垃圾邮件
在线阅读 下载PDF
Web-Based Biomedical Literature Mining
20
作者 安建福 薛惠平 +2 位作者 陈瑛 吴建国 章鲁 《Journal of Shanghai Jiaotong university(Science)》 EI 2012年第4期494-499,共6页
With an upsurge in biomedical literature,using data-mining method to search new knowledge from literature has drawing more attention of scholars.In this study,taking the mining of non-coding gene literature from the n... With an upsurge in biomedical literature,using data-mining method to search new knowledge from literature has drawing more attention of scholars.In this study,taking the mining of non-coding gene literature from the network database of PubMed as an example,we first preprocessed the abstract data,next applied the term occurrence frequency(TF) and inverse document frequency(IDF)(TF-IDF) method to select features,and then established a biomedical literature data-mining model based on Bayesian algorithm.Finally,we assessed the model through area under the receiver operating characteristic curve(AUC),accuracy,specificity,sensitivity,precision rate and recall rate.When 1 000 features are selected,AUC,specificity,sensitivity,accuracy rate,precision rate and recall rate are 0.868 3,84.63%,89.02%,86.83%,89.02% and 98.14%,respectively.These results indicate that our method can identify the targeted literature related to a particular topic effectively. 展开更多
关键词 Bayesian algorithm term occurrence frequency(TF) and inverse document frequency(IDF)(TFIDF) DATA-MINING
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部