期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
民航主题Hidden-Web爬虫的设计与实现 被引量:1
1
作者 张校慧 徐彬 +1 位作者 陈国强 陈珊 《计算机应用与软件》 CSCD 北大核心 2008年第7期187-189,共3页
分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对F... 分析了现今搜索引擎技术在民航主题Hidden-Web获取方面的缺陷,以此为鉴设计并实现了一个民航主题Hidden-Web爬虫。此爬虫使用主题分类等相关技术发现并抓取民航主题Hidden-Web所对应的前台Form,生成相应的Form库,然后利用启发式规则对Form库中的Form进行填写并搜集含有匹配结果的页面集。实验证明此爬虫的性能令人满意且对其它Hidden-Web的应用研究具有借鉴意义。 展开更多
关键词 hidden-web FORM 民航 爬虫
在线阅读 下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
2
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP Web 隐式Web 数据库分类 内容文本抽取 语义分类
在线阅读 下载PDF
使用分类器自动发现特定领域的深度网入口(英文) 被引量:14
3
作者 王辉 刘艳威 左万利 《软件学报》 EI CSCD 北大核心 2008年第2期246-256,共11页
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提... 在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口. 展开更多
关键词 深度网 深度网 表层网 深度网入口 搜索表单
在线阅读 下载PDF
基于标记树对象抽取技术的Hidden Web获取研究 被引量:9
4
作者 宋晖 张岭 +1 位作者 叶允明 马范援 《计算机工程与应用》 CSCD 北大核心 2002年第23期9-12,24,共5页
目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该... 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。 展开更多
关键词 标记树 对象抽取 HiddenWeb 互联网 搜索引擎 信息检索 结构化查询 数据库
在线阅读 下载PDF
基于隐马尔可夫模型的兴趣迁移模式发现 被引量:22
5
作者 王实 高文 +1 位作者 李锦涛 黄铁军 《计算机学报》 EI CSCD 北大核心 2001年第2期152-157,共6页
Web挖掘的一个重要研究方向是发现用户的迁移模式 .一般来说 ,用户的迁移具有某种目的性 .这种目的性表现为用户对某种概念的兴趣 .文中提出基于隐马尔可夫模型的兴趣迁移模式发现方法 ,用于发现这种带有某种兴趣的用户迁移模式 .这种... Web挖掘的一个重要研究方向是发现用户的迁移模式 .一般来说 ,用户的迁移具有某种目的性 .这种目的性表现为用户对某种概念的兴趣 .文中提出基于隐马尔可夫模型的兴趣迁移模式发现方法 ,用于发现这种带有某种兴趣的用户迁移模式 .这种模式实质上是一种特殊的关联规则 .在这种方法中 ,作者首先根据用户的访问记录定义一个隐马尔可夫模型 ,然后提出一种新的增量发现算法 Increase- R用于发现兴趣迁移模式 ,同时给出了证明以说明该算法可以发现所有的兴趣迁移模式 . 展开更多
关键词 数据挖掘 隐马尔可夫模型 关联规则 数据库 兴趣迁移模式
在线阅读 下载PDF
基于启发式查询词选择算法的Hidden Web获取研究 被引量:1
6
作者 姚全珠 杨增辉 +1 位作者 张楠 田元 《计算机工程与应用》 CSCD 北大核心 2007年第34期174-176,203,共4页
Hidden Web因为其隐蔽性而难以直接抓取,因此成为信息检索研究的一个新领域。提出了一种获取Hidden Web信息的方法,讨论了实现的关键技术。通过设计提出的启发式查询词选择算法,提高了抓取的效率。实验证明了该模型和算法的有效性。
关键词 信息检索 Hidden WEB 爬虫 启发式算法
在线阅读 下载PDF
埋藏的web财宝——隐形网络的搜索利用 被引量:12
7
作者 陈红勤 《现代情报》 北大核心 2005年第7期157-159,共3页
隐形网络蕴藏着丰富的、高质量的信息资源,但却难以获得。本文介绍了隐形网络的概念、类型和形成原因,分析了隐形网络的内容,指出了查找隐形网络的途径和工具。
关键词 隐形网络 隐蔽网络 深网 看不见的网络
在线阅读 下载PDF
基于独立分量分析的隐蔽Web领域聚类 被引量:1
8
作者 王晓斌 温春 石昭祥 《计算机工程》 CAS CSCD 北大核心 2009年第7期175-176,179,共3页
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过... 针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法。对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息。利用LSI的词共现分析和文本降噪能力提高聚类准确率。实验表明聚类平均准确率达到90%以上。 展开更多
关键词 隐蔽Web 潜在语义 独立分量分析 文本聚类
在线阅读 下载PDF
Web信息系统的安全隐患与网络管理员对策 被引量:15
9
作者 贺红 徐宝文 《计算机工程与应用》 CSCD 北大核心 2005年第18期151-153,223,共4页
基于Web的信息系统安全性体系大致分为网络系统、操作系统、Web服务器及应用程序和Web数据库等多个层次,该文分别阐述了造成各层次安全隐患的主要原因,以及从网络管理员的角度出发,在各安全层次上消除和减少安全隐患的实用性安全对策。
关键词 WEB系统 安全隐患 管理员 实用对策
在线阅读 下载PDF
基于改进的PSO和HMM的Web信息抽取算法 被引量:3
10
作者 王川 段德全 王晓东 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期65-68,共4页
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群... 针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 展开更多
关键词 PSO HMM WEB信息抽取
在线阅读 下载PDF
深度搜索中下一页链接获取策略的研究 被引量:2
11
作者 李哲 陈鹏 李涛 《微计算机信息》 北大核心 2007年第33期183-184,176,共3页
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。... 高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。 展开更多
关键词 下一页 深度搜索
在线阅读 下载PDF
混合遗传算法和隐马尔可夫模型的Web信息抽取 被引量:4
12
作者 肖基毅 邹腊梅 李传琦 《计算机工程与应用》 CSCD 北大核心 2008年第18期132-135,共4页
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welc... 传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。 展开更多
关键词 遗传算法 隐马尔可夫模型 WEB信息抽取 Baum—Welch算法 最大似然算法
在线阅读 下载PDF
基于半监督聚类的Web流量分类 被引量:3
13
作者 陆伟宙 余顺争 《计算机科学》 CSCD 北大核心 2009年第2期90-94,共5页
提出了一种基于半监督学习的方法对Web流量进行聚类分析,使用隐马尔可夫模型对用户流量进行描述和聚类分析。该方法通过对少量数据进行人工标识,利用已标识数据对无监督聚类结果进行调整,以得到与人工分类匹配的聚类结果。使用真实的We... 提出了一种基于半监督学习的方法对Web流量进行聚类分析,使用隐马尔可夫模型对用户流量进行描述和聚类分析。该方法通过对少量数据进行人工标识,利用已标识数据对无监督聚类结果进行调整,以得到与人工分类匹配的聚类结果。使用真实的Web流量对提出的方法进行验证,实验结果表明该方法能有效地对Web流量进行分类,并得到相应的描述模型。 展开更多
关键词 半监督聚类 隐马尔可夫模型 WEB流量
在线阅读 下载PDF
面向新药研发的垂直搜索引擎研究与设计 被引量:1
14
作者 赵鸿萍 蒋宏民 《医学信息学杂志》 CAS 2013年第10期38-42,66,共6页
为提高搜索引擎的主题倾向性和准确率,在开源Nutch搜索引擎基础上搭建面向新药研发的垂直搜索引擎,详细阐述系统体系结构、工作流程和关键技术,包括URL种子确定、暗网抓取、主题相关性判定等方面。
关键词 NUTCH 暗网抓取 URL种子 新药研发 垂直搜索引擎
在线阅读 下载PDF
隐马尔可夫模型解决信息抽取问题的仿真研究 被引量:5
15
作者 史西兵 王浩鸣 《计算机仿真》 CSCD 北大核心 2010年第5期132-135,共4页
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔... 研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 极大似然 机器学习
在线阅读 下载PDF
匿名网络的安全监管隐患与信息获取技术研究 被引量:3
16
作者 裘玥 《信息网络安全》 2015年第9期106-108,共3页
随着网络技术的快速发展,大量的常规方式不可监管、不可搜索的信息大肆传播,对网络内容安全构成了严重威胁。文章从网络安全监管的形势、现状以及实际需要出发,分析了匿名网络的技术内涵、指出了安全监管隐患,并对未来的匿名网络信息发... 随着网络技术的快速发展,大量的常规方式不可监管、不可搜索的信息大肆传播,对网络内容安全构成了严重威胁。文章从网络安全监管的形势、现状以及实际需要出发,分析了匿名网络的技术内涵、指出了安全监管隐患,并对未来的匿名网络信息发现、应用技术的发展进行了初步的分析。 展开更多
关键词 匿名网络 开源数据 特征提取 追踪溯源
在线阅读 下载PDF
基于混合隐Markov链浏览模型的WEB用户聚类与个性化推荐 被引量:3
17
作者 林文龙 刘业政 +1 位作者 朱庆生 奚冬芹 《情报学报》 CSSCI 北大核心 2009年第4期557-564,共8页
针对传统的Markov链模型不能有效的表征长串访问序列所蕴含的丰富的用户行为特征(用户类别特征、访问兴趣迁移特征)的缺点,提出混合隐Markov链浏览模型。混合隐Markov链模型使用多个不同的模型来区分不同类别用户的浏览特征,并为每个... 针对传统的Markov链模型不能有效的表征长串访问序列所蕴含的丰富的用户行为特征(用户类别特征、访问兴趣迁移特征)的缺点,提出混合隐Markov链浏览模型。混合隐Markov链模型使用多个不同的模型来区分不同类别用户的浏览特征,并为每个类别的用户设置了能跟踪捕捉其访问兴趣变化的类隐Markov链模型,能更好地对WWW长串访问序列的复杂特征进行建模,在真实WWW站点访问日志数据上的用户聚类实验与个性化推荐实验的结果表明,混合隐Markov链模型与传统的Markov链模型相比,具有更理想的聚类性能和推荐性能。 展开更多
关键词 WEB使用挖掘 隐Markov链模型 用户聚类 个性化推荐
在线阅读 下载PDF
基于混合模拟退火-遗传算法和HMM的Web挖掘 被引量:2
18
作者 邹腊梅 龚向坚 《计算机技术与发展》 2012年第3期106-109,共4页
隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,... 隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,但会随机漫游,全局搜索能力欠缺。综合考虑遗传算法和模拟退火算法的特点,提出混合模拟退火-遗传算法SGA,优化HMM初始参数,弥补Baum-Welch算法对初始参数敏感的缺陷,Web挖掘的实验结果表明五个域提取的REC和PRE都有明显的提高。 展开更多
关键词 模拟退火算法 遗传算法 隐马尔可夫模型 WEB挖掘
在线阅读 下载PDF
隐形网页资源产生原因与开发利用 被引量:4
19
作者 刘新周 《农业图书情报学刊》 2006年第2期28-31,共4页
隐形网页资源是因特网上重要的信息资源,充分高效地利用这些资源是广大网络用户非常重视和急需解决的问题。文章对隐形网页的现状、隐形网页产生的原因、研究隐形网页重要性等方面进行了多角度、全方位的论述。最后重点探讨了隐形网页... 隐形网页资源是因特网上重要的信息资源,充分高效地利用这些资源是广大网络用户非常重视和急需解决的问题。文章对隐形网页的现状、隐形网页产生的原因、研究隐形网页重要性等方面进行了多角度、全方位的论述。最后重点探讨了隐形网页资源开发利用的措施和途径。 展开更多
关键词 隐形网页 搜索引擎 信息检索 资源开发
在线阅读 下载PDF
基于改进HMM模型的组合服务故障诊断方法 被引量:1
20
作者 印莹 李明 +1 位作者 赵宇海 张斌 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期655-658,共4页
针对现有组合Web服务诊断模型故障诊断准确率普遍不高的问题,提出一种新颖的基于改进隐马尔可夫模型(Improved-HMM)的故障诊断方法.首先,从组合服务监测数据中提取多维特征序列训练HMM模型.训练过程中,考虑到基于BW的方法仅在某观测条... 针对现有组合Web服务诊断模型故障诊断准确率普遍不高的问题,提出一种新颖的基于改进隐马尔可夫模型(Improved-HMM)的故障诊断方法.首先,从组合服务监测数据中提取多维特征序列训练HMM模型.训练过程中,考虑到基于BW的方法仅在某观测条件下进行参数评估,获得的参数准确度不高,提出基于贝叶斯估计的学习方法,得到更客观的参数;进一步,基于改进的HMM模型计算当前特征序列对应的各类故障类型发生概率,推断最有可能的故障类型.实验结果表明,提出的方法具有较高的诊断率和较低的漏报率,适合在网络环境中进行实时故障检测. 展开更多
关键词 隐马尔科夫模型 组合WEB服务 故障诊断 贝叶斯估计 特征序列
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部