期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
一种Deep Web查询结果的实体抽取方法 被引量:4
1
作者 赵海霞 李道申 +1 位作者 刘勇 赵嘉诚 《计算机工程与应用》 CSCD 2012年第36期160-163,共4页
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结... Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。 展开更多
关键词 深度网 数据抽取 文件对象模型(DOM)树 索引 相似度
在线阅读 下载PDF
基于结构相似网页聚类的正文提取算法研究 被引量:2
2
作者 王海涌 冯兆旭 +1 位作者 杨海波 张津栋 《计算机工程与应用》 CSCD 北大核心 2018年第11期122-127,139,共7页
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘... 针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。 展开更多
关键词 正文提取 相似性 文档对象模型(DOM)树 层次聚类
在线阅读 下载PDF
文件系统增量备份策略的形式化描述及实现 被引量:2
3
作者 肖克辉 倪德明 《计算机工程与设计》 CSCD 北大核心 2007年第10期2455-2457,共3页
文件系统备份和恢复过程中,需根据当前备份资源树和历史备份资源树进行合并等操作,这种操作在物理上表现为对目录树和资源树的处理。特别是增量备份时,它指明备份资源。恢复过程中,用户可以利用该策略根据时间点进行完全恢复和部分恢复... 文件系统备份和恢复过程中,需根据当前备份资源树和历史备份资源树进行合并等操作,这种操作在物理上表现为对目录树和资源树的处理。特别是增量备份时,它指明备份资源。恢复过程中,用户可以利用该策略根据时间点进行完全恢复和部分恢复。给出一种对备份资源树的解析算法,并进行分析,在算法的基础上对备份资源树进行了形式化描述。 展开更多
关键词 文件系统 增量备份 备份资源树 目录树 文档对象模型
在线阅读 下载PDF
基于B/S架构的Web网页结构检测应用研究 被引量:2
4
作者 陈圣俭 孙明涛 《现代电子技术》 2009年第2期135-138,共4页
随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Mar... 随着互联网的普及,大型的跨国公司要求公司对内对外的所有网站都遵循统一的框架结构,因此为了判断网页结构是否符合标准,需要对网页结构进行检测。Web结构分析是指从Web文档中自动分析网页结构的过程,检测不符合标准的网页。依据W3C Markup Validation Service的设计理念,基于DOM结构树和正则表达式的操作,以分析Web网页结构为基础,提出了Web页面结构检测的设计思想。在解析Html和CSS代码的基础上,网页结构检测正确率达到80%以上。 展开更多
关键词 正则表达式 网页结构树 检测 文档对象模型 属性元素
在线阅读 下载PDF
Deep Web接口的自动识别技术研究
5
作者 杨永红 高磊 +1 位作者 余航 徐欣辰 《计算机工程与应用》 CSCD 北大核心 2017年第7期109-114,共6页
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息... 获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。 展开更多
关键词 DeepWeb接口 文档对象化模型树 接口块 多类分类
在线阅读 下载PDF
支持局部更新的双向内容适配策略
6
作者 吕红亮 王劲林 邓峰 《计算机工程与应用》 CSCD 北大核心 2010年第33期6-8,共3页
内容适配旨在解决融合环境下多种终端兼容问题,现有的内容适配策略在用户通过受限终端进行更新时会造成信息丢失。提出一种支持局部更新的双向内容适配策略,该策略基于DOM树建立统一的存储模型对元数据和适配实例进行存储,当受限终端发... 内容适配旨在解决融合环境下多种终端兼容问题,现有的内容适配策略在用户通过受限终端进行更新时会造成信息丢失。提出一种支持局部更新的双向内容适配策略,该策略基于DOM树建立统一的存储模型对元数据和适配实例进行存储,当受限终端发起更新时,通过比较DOM树中的节点对元数据进行局部更新。实验结果表明,相比现有策略,支持局部更新的内容适配策略在大部分情况下可以减少60%以上的信息丢失。 展开更多
关键词 融合环境 双向内容适配 局部更新 元数据 文档对象模型(DOM)树
在线阅读 下载PDF
基于Web挖掘和文档对象模型树的XML网页分类方法
7
作者 马勇 郑翔 +1 位作者 鲜敏 黎远松 《微型电脑应用》 2016年第7期47-49,52,共4页
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利... Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利用DOM树结构进行标签提取,创建知识库。最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页。实验结果表明,提出的方法在各种XML网页下获得了97%的整体准确度。 展开更多
关键词 XML网页分类 WEB挖掘 文档对象模型树 标签匹配
在线阅读 下载PDF
基于词共现模型与DOM的石油主题采集策略
8
作者 李村合 李晗 《微计算机应用》 2008年第2期28-31,共4页
提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化... 提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化词共现模型的特点。实验证明该策略使采集和分类的性能都有了一定的提高。 展开更多
关键词 词共现模型 DOM树 文本分类 主题采集 向量空间模型
在线阅读 下载PDF
正则表达式在网络蜘蛛抽取问答系统信息中的应用
9
作者 汪材印 《宿州学院学报》 2012年第5期32-35,共4页
问答系统是信息检索系统的一种高级形式,为了提高网络蜘蛛在抽取问答系统信息时的爬行效率,从问答系统所特有的布局结构特点出发,结合正则表达式,设计了一个针对问答系统的网络蜘蛛爬行策略。实验证明,该爬行策略提高了网络蜘蛛爬行效率... 问答系统是信息检索系统的一种高级形式,为了提高网络蜘蛛在抽取问答系统信息时的爬行效率,从问答系统所特有的布局结构特点出发,结合正则表达式,设计了一个针对问答系统的网络蜘蛛爬行策略。实验证明,该爬行策略提高了网络蜘蛛爬行效率,节省了网络带宽和本地存储空间,有效地提高了答案抽取的精度和效率。 展开更多
关键词 正则表达式 网络蜘蛛 问答系统)DOM树
在线阅读 下载PDF
高效图像资源管理器的设计与实现
10
作者 张贤莉 翟正军 冯萍 《航空计算技术》 2011年第2期96-99,共4页
针对数据存储量大引起的访问广域网服务器速度慢、不能对访问的客户进行细粒度的权限控制问题,研究了B/S模式下基于.NET平台的图像资源管理器的设计和实现技术。系统综合采用权限管理模型、动态加载、文档对象模型(DOM)等技术以及非点... 针对数据存储量大引起的访问广域网服务器速度慢、不能对访问的客户进行细粒度的权限控制问题,研究了B/S模式下基于.NET平台的图像资源管理器的设计和实现技术。系统综合采用权限管理模型、动态加载、文档对象模型(DOM)等技术以及非点击无刷新伸缩控制方法,实现了图像资源管理器的分权限控制、高速访问以及无刷新高效联动等操作。实验验证了方法的可行性。 展开更多
关键词 动态树 文档对象模型 无刷新联动 伸缩 权限管理
在线阅读 下载PDF
基于网页DOM树比对的SQL注入漏洞检测 被引量:5
11
作者 张晨 汪永益 +1 位作者 王雄 施凡 《计算机工程》 CAS CSCD 2012年第18期111-115,共5页
针对传统SQL注入漏洞检测方法准确率不高的问题,提出一种基于网页文档对象模型(DOM)树比对结果的检测方法。通过简化基于节点序列的网页比对方法,减少节点比对次数,加快检测效率,并设计实现一个SQL注入漏洞检测原型系统。实验结果表明,... 针对传统SQL注入漏洞检测方法准确率不高的问题,提出一种基于网页文档对象模型(DOM)树比对结果的检测方法。通过简化基于节点序列的网页比对方法,减少节点比对次数,加快检测效率,并设计实现一个SQL注入漏洞检测原型系统。实验结果表明,该系统具有较高的SQL注入漏洞检测效率和准确率。 展开更多
关键词 网页比对 SQL注入 注入漏洞检测 文档对象模型树 DOM树快速比对
在线阅读 下载PDF
基于DOM树和视觉特征的网页信息自动抽取 被引量:6
12
作者 黄武冠 朱明 尹文科 《计算机工程》 CAS CSCD 2013年第10期309-312,共4页
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从... 针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。 展开更多
关键词 文档对象模型树 视觉特征 自动抽取 数据记录 数据区域 挖掘算法
在线阅读 下载PDF
基于XML的嵌入式图形界面自动生成技术 被引量:1
13
作者 娄宇 王琼 《计算机应用》 CSCD 北大核心 2009年第B06期285-287,295,共4页
在嵌入式图形系统ClearX上开发了图形界面开发工具DevelopGUI,它为用户提供了良好的操作界面,实现了基于控件库ClearWidget的界面可视化设计。利用XML文档作为图形界面的中间表示形式,一方面可以解析XML文档生成图形界面,便于修改图形界... 在嵌入式图形系统ClearX上开发了图形界面开发工具DevelopGUI,它为用户提供了良好的操作界面,实现了基于控件库ClearWidget的界面可视化设计。利用XML文档作为图形界面的中间表示形式,一方面可以解析XML文档生成图形界面,便于修改图形界面;另一方面便于生成应用程序代码。DevelopGUI提供一个代码生成器,其功能是把存储图形界面信息的XML文档解析成符合ClearX程序风格的应用程序代码。 展开更多
关键词 控件 可视化 文档对象树 代码自动生成
在线阅读 下载PDF
基于文档对象模型和远程脚本技术的动态目录树设计
14
作者 白勇 《重庆电力高等专科学校学报》 2003年第1期42-46,41,共6页
本文应用成熟的 RS 技术和 ASP 技术,结合 Microsoft 的 DOM 模型,介绍了 B/S 环境下目录树的一种实现方法和具体设计,这种方法具有数据交互能力强、网络负载低的特点。
关键词 目录树 文档对象棋型 远程脚本 ASP 计算机网络
在线阅读 下载PDF
网络蜘蛛在网络论坛领域的研究与设计
15
作者 滕召生 胡德敏 《计算机应用研究》 CSCD 北大核心 2011年第2期492-494,520,共4页
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构... 为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。 展开更多
关键词 网络蜘蛛 文档对象模型树 页面重复区域 爬行策略 重复模板
在线阅读 下载PDF
基于DOM规范的网页分析技术研究 被引量:2
16
作者 林昌平 郑皎凌 《成都信息工程学院学报》 2007年第z1期113-117,共5页
基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明... 基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明,提出的这种方法能够很好地分析Web页面标记的嵌套结构,并能准确地与转化成DOM树之后的嵌套结构相匹配,从而达到了精确的网页分析和网页节点定位的目的。 展开更多
关键词 页面结构分析 DOM 深度优先遍历 树型结构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部