期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Nave Bayes分类器制导的专业网页爬取算法 被引量:3
1
作者 韩国辉 陈黎 +3 位作者 梁时木 唐小棚 王亚强 于中华 《中文信息学报》 CSCD 北大核心 2010年第4期32-38,62,共8页
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验... 从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 展开更多
关键词 计算机应用 中文信息处理 搜索引擎 专业爬虫 nave bayesian classifier 链接前后文
在线阅读 下载PDF
Roman Urdu News Headline Classification Empowered with Machine Learning 被引量:2
2
作者 Rizwan Ali Naqvi Muhammad Adnan Khan +3 位作者 Nauman Malik Shazia Saqib Tahir Alyas Dildar Hussain 《Computers, Materials & Continua》 SCIE EI 2020年第11期1221-1236,共16页
Roman Urdu has been used for text messaging over the Internet for years especially in Indo-Pak Subcontinent.Persons from the subcontinent may speak the same Urdu language but they might be using different scripts for ... Roman Urdu has been used for text messaging over the Internet for years especially in Indo-Pak Subcontinent.Persons from the subcontinent may speak the same Urdu language but they might be using different scripts for writing.The communication using the Roman characters,which are used in the script of Urdu language on social media,is now considered the most typical standard of communication in an Indian landmass that makes it an expensive information supply.English Text classification is a solved problem but there have been only a few efforts to examine the rich information supply of Roman Urdu in the past.This is due to the numerous complexities involved in the processing of Roman Urdu data.The complexities associated with Roman Urdu include the non-availability of the tagged corpus,lack of a set of rules,and lack of standardized spellings.A large amount of Roman Urdu news data is available on mainstream news websites and social media websites like Facebook,Twitter but meaningful information can only be extracted if data is in a structured format.We have developed a Roman Urdu news headline classifier,which will help to classify news into relevant categories on which further analysis and modeling can be done.The author of this research aims to develop the Roman Urdu news classifier,which will classify the news into five categories(health,business,technology,sports,international).First,we will develop the news dataset using scraping tools and then after preprocessing,we will compare the results of different machine learning algorithms like Logistic Regression(LR),Multinomial Naïve Bayes(MNB),Long short term memory(LSTM),and Convolutional Neural Network(CNN).After this,we will use a phonetic algorithm to control lexical variation and test news from different websites.The preliminary results suggest that a more accurate classification can be accomplished by monitoring noise inside data and by classifying the news.After applying above mentioned different machine learning algorithms,results have shown that Multinomial Naïve Bayes classifier is giving the best accuracy of 90.17%which is due to the noise lexical variation. 展开更多
关键词 Roman urdu news headline classification long short term memory recurrent neural network logistic regression multinomial naïve Bayes random forest k neighbor gradient boosting classifier
在线阅读 下载PDF
顾及障碍物的朴素贝叶斯分类法在城镇土地定级中的应用 被引量:11
3
作者 张文婷 王海军 +1 位作者 陈莹莹 戴兰 《资源科学》 CSSCI CSCD 北大核心 2013年第9期1871-1876,共6页
本文以潮州市建成区和近期规划区为研究区,采用训练样本获取先验概率建立朴素贝叶斯分类器,以栅格点为单位,将各栅格点的土地定级因素作用分值作为输入变量,利用朴素贝叶斯分类器进行土地定级。在作用分值确定方法上,采用障碍距离代替... 本文以潮州市建成区和近期规划区为研究区,采用训练样本获取先验概率建立朴素贝叶斯分类器,以栅格点为单位,将各栅格点的土地定级因素作用分值作为输入变量,利用朴素贝叶斯分类器进行土地定级。在作用分值确定方法上,采用障碍距离代替传统直线距离,以达到客观反映点、线等要素对城镇土地使用价值作用的程度。最后,对顾及障碍物的朴素贝叶斯定级结果分别与空间聚类结果及未顾及障碍物的定级结果进行比较,结果表明本文所提出的方法在土地定级研究中具有一定的优势,能更加真实地反映城镇土地使用价值的空间分布特征。 展开更多
关键词 障碍距离 城镇土地定级 朴素贝叶斯分类器
原文传递
文本分类系统SECTCS中若干技术问题的探讨 被引量:5
4
作者 唐焕玲 付克明 鲁明羽 《计算机工程与应用》 CSCD 北大核心 2003年第11期80-83,共4页
SECTCS是笔者在深入研究各种文本分类方法的基础上实现的一个中英文文本分类系统。它集成了质心分类、K近邻分类和朴素贝叶斯分类器等多种文本分类方法,在大规模文本分类实验中表现出良好的性能。该文结合以该系统作为测试平台所得到的... SECTCS是笔者在深入研究各种文本分类方法的基础上实现的一个中英文文本分类系统。它集成了质心分类、K近邻分类和朴素贝叶斯分类器等多种文本分类方法,在大规模文本分类实验中表现出良好的性能。该文结合以该系统作为测试平台所得到的各种实验结果,对系统中涉及的若干重要技术问题进行探讨和分析,力图得到一些有价值的结论,希望能够对相关研究工作提供可借鉴的依据。 展开更多
关键词 文本分类 VSM KNN naieve BAYES分类器
在线阅读 下载PDF
基于高斯混合模型的遥感影像连续型朴素贝叶斯网络分类器 被引量:10
5
作者 陶建斌 舒宁 沈照庆 《遥感信息》 CSCD 2010年第2期18-24,29,共8页
提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的... 提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的分布用高斯混合模型来模拟,用改进EM算法自动获取高斯混合模型的参数;高斯混合模型整体作为一个子节点嵌入朴素贝叶斯网络中,将其输出作为节点(特征)的中间类后验概率,在朴素贝叶斯网络的框架下进行融合获得最终的类后验概率。对多光谱和高光谱数据的分类实验结果表明,该方法较传统贝叶斯分类器分类效果要好,且有较强的鲁棒性。 展开更多
关键词 朴素贝叶斯分类器 高斯混合模型 EM算法 子高斯 遥感影像 分类
在线阅读 下载PDF
基于贝叶斯信念网的网络流量分类与识别研究 被引量:3
6
作者 杨彩虹 黄本雄 《计算机应用与软件》 CSCD 2011年第1期216-219,共4页
网络流量分类识别技术是许多网络研究和应用领域的基础,但随着动态端口、端口伪装和信息加密等技术的使用,传统的纯端口识别法已不再有效。提出一种基于贝叶斯信念网的网络流量分类方法,通过使用有向无环图和结点概率表,很好地解决了流... 网络流量分类识别技术是许多网络研究和应用领域的基础,但随着动态端口、端口伪装和信息加密等技术的使用,传统的纯端口识别法已不再有效。提出一种基于贝叶斯信念网的网络流量分类方法,通过使用有向无环图和结点概率表,很好地解决了流属性之间条件独立的问题。对真实网络流量数据的测试结果表明,这种方法具有稳定可靠的分类识别效果。 展开更多
关键词 网络流量分类与识别 机器学习 朴素贝叶斯分类器 贝叶斯信念网
在线阅读 下载PDF
聚焦爬行中网页爬行算法的改进 被引量:2
7
作者 谭骏珊 陈可钦 《电脑知识与技术》 2008年第12Z期2145-2146,2149,共3页
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思... 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思路和方法。该文针对聚焦爬虫这一研究热点,对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比,提出了一种改进的聚焦爬行算法。这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的"未来回报"页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善。 展开更多
关键词 baseline聚焦爬虫 朴素的贝叶斯分类器 未来回报率 基于规则的聚焦爬虫 通道
在线阅读 下载PDF
TAN贝叶斯网络模型在前列腺癌中的预测研究 被引量:6
8
作者 肖利洪 陈沛然 +4 位作者 李梅 勾忠平 向良成 李永忠 冯萍 《中华男科学杂志》 CAS CSCD 北大核心 2016年第6期506-510,共5页
目的:评价年龄、前列腺特异性抗原(PSA)以及经直肠前列腺超声影像特征构建的TAN贝叶斯网络(tree-augmented Nave Bayesian network)模型对前列腺癌的预测效果。方法:收集2008年1月至2011年9月行前列腺穿刺活检941例患者的临床数据,包... 目的:评价年龄、前列腺特异性抗原(PSA)以及经直肠前列腺超声影像特征构建的TAN贝叶斯网络(tree-augmented Nave Bayesian network)模型对前列腺癌的预测效果。方法:收集2008年1月至2011年9月行前列腺穿刺活检941例患者的临床数据,包括年龄、PSA、超声影像以及病理诊断,构建TAN贝叶斯网络,对前列腺癌进行预测,并与病理诊断"金标准"比较。结果:941例患者中,358例经活检证实为前列腺癌,583例为非前列腺癌性病变。TAN贝叶斯网络对前列腺癌预测的准确率为85.11%、灵敏度88.37%、特异性83.67%、阳性预测值70.37%、阴性预测值94.25%。结论:基于年龄、PSA以及经直肠前列腺超声影像构建的TAN贝叶斯网络模型对前列腺癌预测效果较好,可作为临床筛查或诊断前列腺癌的一种方法。 展开更多
关键词 TAN贝叶斯网络 前列腺癌 前列腺特异性抗原 经直肠前列腺超声 年龄
原文传递
一种基于粗糙集的特征加权朴素贝叶斯分类器 被引量:7
9
作者 王国才 张聪 《重庆理工大学学报(自然科学)》 CAS 2010年第7期86-90,105,共6页
朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,... 朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,加权参数直接从训练数据中学习得到,可以看作是计算某个后验概率时,某个特征对于该类别的影响程度。将该分类算法与朴素贝叶斯分类器(na ve bayesian classifier,NB)、贝叶斯网(bayes networks)和NBTree分类器进行实验比较。结果表明:在大多数数据集上,FWNB分类器在较小的计算代价下,具有较高的分类正确率。 展开更多
关键词 贝叶斯分类器 朴素贝叶斯分类器 特征加权 粗糙集
在线阅读 下载PDF
基于DPI和机器学习的网络流量分类方法 被引量:3
10
作者 李国平 王勇 陶晓玲 《桂林电子科技大学学报》 2012年第2期140-144,共5页
网络流量分类是实现网络管理的重要技术之一,但是单一的基于DPI或是机器学习的分类方法分类精确度低。提出了一种基于DPI和机器学习相结合的网络流量分类方法。该方法采用DPI检测已知特征的网络流量,利用机器学习方法辅助分析未知特征... 网络流量分类是实现网络管理的重要技术之一,但是单一的基于DPI或是机器学习的分类方法分类精确度低。提出了一种基于DPI和机器学习相结合的网络流量分类方法。该方法采用DPI检测已知特征的网络流量,利用机器学习方法辅助分析未知特征以及加密的网络流。实验表明该方法能够提高网络流量分类的精确度。 展开更多
关键词 流量分类 深度包检测 机器学习 朴素贝叶斯
在线阅读 下载PDF
动态朴素贝叶斯网络分类器的特征子集选择 被引量:1
11
作者 余民杰 王双成 杜瑞杰 《计算机应用与软件》 CSCD 北大核心 2012年第2期57-59,共3页
分类准确性是分类器最重要的性能指标,特征子集选择是提高分类器分类准确性的一种有效方法。现有的特征子集选择方法主要针对静态分类器,缺少动态分类器特征子集选择方面的研究。首先给出具有连续属性的动态朴素贝叶斯网络分类器和动态... 分类准确性是分类器最重要的性能指标,特征子集选择是提高分类器分类准确性的一种有效方法。现有的特征子集选择方法主要针对静态分类器,缺少动态分类器特征子集选择方面的研究。首先给出具有连续属性的动态朴素贝叶斯网络分类器和动态分类准确性评价标准,在此基础上建立动态朴素贝叶斯网络分类器的特征子集选择方法,并使用真实宏观经济时序数据进行实验与分析。 展开更多
关键词 动态朴素贝叶斯网络 分类器 特征子集选择 高斯核函数
在线阅读 下载PDF
GIS-based landslide susceptibility modeling:A comparison between fuzzy multi-criteria and machine learning algorithms 被引量:10
12
作者 Sk Ajim Ali Farhana Parvin +7 位作者 Jana Vojteková Romulus Costache Nguyen Thi Thuy Linh Quoc Bao Pham Matej Vojtek Ljubomir Gigović Ateeque Ahmad Mohammad Ali Ghorbani 《Geoscience Frontiers》 SCIE CAS CSCD 2021年第2期857-876,共20页
Hazards and disasters have always negative impacts on the way of life.Landslide is an overwhelming natural as well as man-made disaster that causes loss of natural resources and human properties throughout theworld.Th... Hazards and disasters have always negative impacts on the way of life.Landslide is an overwhelming natural as well as man-made disaster that causes loss of natural resources and human properties throughout theworld.The present study aimed to assess and compare the prediction efficiency of different models in landslide susceptibility in the Kysuca river basin,Slovakia.In this regard,the fuzzy decision-making trial and evaluation laboratory combining with the analytic network process(FDEMATEL-ANP),Naïve Bayes(NB)classifier,and random forest(RF)classifier were considered.Initially,a landslide inventory map was produced with 2000 landslide and nonlandslide points by randomly dividedwith a ratio of 70%:30%for training and testing,respectively.The geospatial database for assessing the landslide susceptibility was generated with the help of 16 landslide conditioning factors by allowing for topographical,hydrological,lithological,and land cover factors.The ReliefF methodwas considered for determining the significance of selected conditioning factors and inclusion in the model building.Consequently,the landslide susceptibility maps(LSMs)were generated using the FDEMATEL-ANP,Naïve Bayes(NB)classifier,and random forest(RF)classifier models.Finally,the area under curve(AUC)and different arithmetic evaluation were used for validating and comparing the results and models.The results revealed that random forest(RF)classifier is a promising and optimum model for landslide susceptibility in the study area with a very high value of area under curve(AUC=0.954),lower value of mean absolute error(MAE=0.1238)and root mean square error(RMSE=0.2555),and higher value of Kappa index(K=0.8435)and overall accuracy(OAC=92.2%). 展开更多
关键词 Landslide susceptibility modeling Geographic information system Fuzzy DEMATEL Analytic network process naïve Bayes classifier Random forest classifier
在线阅读 下载PDF
融合标准知识的事故灾难领域词典构建 被引量:4
13
作者 伊然 张甜 +3 位作者 邢心羽 马雯雯 张鲲洋 刘文玲 《中国标准化》 2022年第15期88-94,117,共8页
现阶段我国正处于事故灾难的频发时期,目前国内针对这一领域的专业化词典相对欠缺。本文以有关事故灾难领域的国家应急标准及网络数据为语料库,首先对语料库进行预处理,其次利用TF-IDF算法筛选出种子词集合,同时借助深度学习中的Word2Ve... 现阶段我国正处于事故灾难的频发时期,目前国内针对这一领域的专业化词典相对欠缺。本文以有关事故灾难领域的国家应急标准及网络数据为语料库,首先对语料库进行预处理,其次利用TF-IDF算法筛选出种子词集合,同时借助深度学习中的Word2Vec模型进行词向量训练,然后利用相似度计算的方式确定出领域候选词,最后融合应急标准术语完成事故灾难领域词典的构建。经SVM分类器与朴素贝叶斯分类器验证,将本文所构建的领域词典加入到结巴自定义词典后,分类器在准确率、召回率与F1值上分别提高了11%、11%、12%以及5%、8%、6%,表明本文构建的领域词典质量较好。 展开更多
关键词 事故灾难 TF-IDF算法 Word2vec模型 SVM分类器 朴素贝叶斯分类器
在线阅读 下载PDF
一种基于朴素贝叶斯分类法的空间分类算法 被引量:1
14
作者 赵秦怡 王丽珍 周丽华 《云南大学学报(自然科学版)》 CAS CSCD 2004年第4期297-300,共4页
空间分类是空间数据挖掘的重要分支,寻找高效的空间分类算法是空间分类研究的重要方向.在空间对象的邻接图及朴素贝叶斯分类法的基础上提出一个新的空间分类算法,该算法对空间对象进行分类时,既考虑了待分类对象的属性对分类的影响,又... 空间分类是空间数据挖掘的重要分支,寻找高效的空间分类算法是空间分类研究的重要方向.在空间对象的邻接图及朴素贝叶斯分类法的基础上提出一个新的空间分类算法,该算法对空间对象进行分类时,既考虑了待分类对象的属性对分类的影响,又考虑了其空间邻接对象对它分类的影响.该算法的计算复杂度不高,分类的正确性好. 展开更多
关键词 空间分类 空间邻接关系 贝叶斯分类 空间数据挖掘 邻接图 邻接关系
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部