期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
基于网络爬虫及双词主题模型的4个主流在线平台帕金森病患者健康信息需求分析 被引量:1
1
作者 朱傲雪 毛惠娜 +2 位作者 谢惠玲 王梅 邓绮兰 《护理学报》 2025年第11期20-27,共8页
目的探索主流在线平台帕金森病患者的健康信息需求,为护理人员开展针对性健康信息服务提供依据。方法抓取4个主流在线平台的帕金森病交流文本,应用Python软件和双词主题模型(Biterm Topic Model,BTM),挖掘帕金森病患者健康信息需求并进... 目的探索主流在线平台帕金森病患者的健康信息需求,为护理人员开展针对性健康信息服务提供依据。方法抓取4个主流在线平台的帕金森病交流文本,应用Python软件和双词主题模型(Biterm Topic Model,BTM),挖掘帕金森病患者健康信息需求并进行主题划分,使用Gephi软件绘制各主题的关键词共现图。结果各主流在线平台的主题分析显示:知乎、贴吧、小红书、好大夫平台分别析出3、4、5、5个主题;对上述4个平台汇总的32852条文本进行分析,析出6类帕金森病健康信息需求:症状管理(“睡眠-疼痛-乏力”症状群加重疾病负担)、药物治疗(存在错误用药认知及不规范调药行为)、居家管理(饮食与运动管理缺乏可操作性指导)、家属照护(替代搜寻存在信息简化与报告失真风险)、手术治疗(术前适应证评估与术后药物-程控协同不明确)、疾病诊断(基层难以确诊患者在线求助专家)。结论帕金森病患者的健康信息需求以内容多维性和“患者-家属”双主体为特征,为护士实施多方联动、精准全面的健康信息服务提供新的证据支持。 展开更多
关键词 帕金森病 健康信息需求 网络爬虫 双词主题模型 主流在线平台
暂未订购
智能专题化信息搜集Crawler 被引量:4
2
作者 钱榕 徐新华 +1 位作者 郑莹 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑... 介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 展开更多
关键词 专题化爬行 WEB挖掘 神经网络 加强学习
在线阅读 下载PDF
基于互联网新闻的地缘事件数据获取与解析技术
3
作者 郝晨光 汪菲菲 +2 位作者 魏勇 张晓松 付学良 《网络安全与数据治理》 2025年第S1期167-173,共7页
为解决地缘事件数据量化分析中如何从多个不同网站中下载各类地缘事件相关新闻报道页面和如何从非结构化网页中识别并转换为结构化地缘事件数据等问题,在研究互联网新闻特点和结构的基础上,研究了基于主题爬虫的地缘事件获取技术、支持... 为解决地缘事件数据量化分析中如何从多个不同网站中下载各类地缘事件相关新闻报道页面和如何从非结构化网页中识别并转换为结构化地缘事件数据等问题,在研究互联网新闻特点和结构的基础上,研究了基于主题爬虫的地缘事件获取技术、支持向量机的地缘时间类型解析技术和基于语义角色的地缘事件元素匹配技术。通过主题爬虫和事件识别匹配将互联网中非结构化的新闻网页转换为结构化的地缘事件数据,为基于地缘环境研究中地缘事件数据量化分析提供了数据基础。 展开更多
关键词 地缘事件 主题爬虫 事件识别
在线阅读 下载PDF
一种在线训练的自决策主题爬虫算法
4
作者 熊观野 杨百龙 《北京航空航天大学学报》 北大核心 2025年第2期602-615,共14页
隧道穿越问题是主题爬虫发展过程中无法回避的一个问题,为解决隧道穿越问题,提出一种基于博伊德环的自决策主题爬虫(FCIDOL)算法。该算法以博伊德环为基本框架,按照“观察-评估-决策-行动”形成闭环,根据爬虫已完成的工作——记忆,对观... 隧道穿越问题是主题爬虫发展过程中无法回避的一个问题,为解决隧道穿越问题,提出一种基于博伊德环的自决策主题爬虫(FCIDOL)算法。该算法以博伊德环为基本框架,按照“观察-评估-决策-行动”形成闭环,根据爬虫已完成的工作——记忆,对观察到的当前状态进行评估,产生激进或保守策略的决策,引导爬虫执行寻找新的主题相关网页团,或专注于短期收益的行动,记忆的作用在于为评估网络提供训练材料,实现对网络的在线训练满足爬虫的冷启动。实验表明:所提算法相较于多种主题爬虫算法在不同主题环境下收获率提升了7.8%以上,重复链接次数减少了15.6%以上。 展开更多
关键词 主题爬虫 隧道穿越 自决策 在线学习 冷启动
原文传递
面向主题Crawler的设计与实现 被引量:1
5
作者 苗长芬 冯伟华 《平原大学学报》 2005年第3期110-112,共3页
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础.
关键词 crawler 主题搜索引擎 相关度
在线阅读 下载PDF
On-line topical importance estimation:an effective focused crawling algorithm combining link and content analysis 被引量:7
6
作者 Can WANG Zi-yu GUAN +3 位作者 Chun CHEN Jia-jun BU Jun-feng WANG Huai-zhong LIN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2009年第8期1114-1124,共11页
Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling o... Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling on relevant pages.Traditional focused crawlers mainly rely on content analysis.Link-based techniques are not effectively exploited despite their usefulness.In this paper,we propose a new frontier prioritizing algorithm,namely the on-line topical importance estimation(OTIE) algorithm.OTIE combines link-and content-based analysis to evaluate the priority of an uncrawled URL in the frontier.We performed real crawling experiments over 30 topics selected from the Open Directory Project(ODP) and compared harvest rate and target recall of the four crawling algorithms:breadth-first,link-context-prediction,on-line page importance computation(OPIC) and our OTIE.Experimental results showed that OTIE significantly outperforms the other three algorithms on the average target recall while maintaining an acceptable harvest rate.Moreover,OTIE is much faster than the traditional focused crawling algorithm. 展开更多
关键词 Focused crawlers topical crawlers PAGERANK Classifiers On-line topical importance estimation (OTIE) algorithm
原文传递
基于VSM与HITS融合的扩展主题型爬虫
7
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
在线阅读 下载PDF
融合BTM与TextCNN的文本语义增强主题爬虫研究 被引量:2
8
作者 艾芳菊 尹虓寅 《软件导刊》 2024年第3期21-26,共6页
在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全... 在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全率。对此,提出融合BTM与TextCNN模型的主题爬虫,将内容主题判别模块当作文本分类问题研究,通过融合BTM得到的文本主题向量与Word2vec词向量以增强文本语义信息,利用卷积神经网络提升判别模块的精确度,弥补了传统卷积神经网络分类模型中文本特征表示不充分的问题。实验结果表明,在开源新闻文本分类数据集(THUCNews)和自定义爬取的真实论文数据集中,融合BTM与TextCNN模型在测试集中的平均分类精准率分别为93.7%和91.3%,比只采用TextCNN的平均分类精确率分别提升了0.6、1.3个百分点。 展开更多
关键词 主题爬虫 主题相似度 TextCNN BTM Word2vec
在线阅读 下载PDF
基于分布式爬虫的微博舆情监督与情感分析系统设计 被引量:6
9
作者 何西远 张岳 张秉文 《现代信息科技》 2024年第5期111-114,119,共5页
互联网的兴起使微博等自媒体平台成为网民表达意见的主要途径。同时,网络舆情的迅速传播使得网民舆论管理成为一个难题。针对传统方法在微博舆情管理上的局限性,文章设计一种基于分布式爬虫的微博舆情监测与情感分析系统,并借助情感分析... 互联网的兴起使微博等自媒体平台成为网民表达意见的主要途径。同时,网络舆情的迅速传播使得网民舆论管理成为一个难题。针对传统方法在微博舆情管理上的局限性,文章设计一种基于分布式爬虫的微博舆情监测与情感分析系统,并借助情感分析和LDA主题提取技术,对热点事件进行分析,帮助政府和企业更好地把握舆情发展动态,捍卫其社会公信力。 展开更多
关键词 网络舆情 分布式爬虫 情感分析 LDA主题提取
在线阅读 下载PDF
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
10
作者 方世敏 《信息技术》 2024年第11期63-68,76,共7页
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用Tex... 信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取关键词并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。 展开更多
关键词 CHAMELEON Web开源情报 主题挖掘 网络爬虫
在线阅读 下载PDF
基于数据挖掘技术的数据类岗位招聘信息分析与研究
11
作者 王姣姣 姚华平 《现代信息科技》 2024年第2期13-16,20,共5页
通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式... 通过对招聘网站信息的挖掘分析了解岗位的需求分布和发展趋势,能够为求职者提供重要的指导。首先采用爬虫技术获取“拉勾网”和“前程无忧”招聘网站的数据类岗位相关信息,经过数据预处理,采用jieba分词进行数据特征分析,以可视化形式展示数据类岗位数据分布特点,并得到福利待遇和公司类型的词云图;然后采用TF-IDF算法对五类数据类岗位的岗位要求提取关键词,使得求职者能够根据职位画像选择最佳岗位;最后基于LDA主题模型确定最优主题数,进而挖掘得到岗位要求。 展开更多
关键词 岗位需求分析 爬虫技术 数据挖掘 可视化技术 LDA主题模型
在线阅读 下载PDF
区域煤矿瓦斯灾害风险预警数据采集技术研究 被引量:18
12
作者 李明建 赵旭生 +2 位作者 谈国文 宋志强 廖成 《工矿自动化》 北大核心 2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦... 以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。 展开更多
关键词 区域煤矿 瓦斯灾害风险预警 数据采集 跨平台Web API 主题网络爬虫
在线阅读 下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
13
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
在线阅读 下载PDF
一种基于超链接引导的主题搜索的主题敏感爬行方法 被引量:9
14
作者 蒋宗礼 徐学可 李帅 《计算机应用》 CSCD 北大核心 2008年第4期942-944,950,共4页
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目... 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。 展开更多
关键词 主题爬虫 超链接引导的主题搜索 主题模型
在线阅读 下载PDF
主题网络爬虫研究综述 被引量:132
15
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 WEB挖掘
在线阅读 下载PDF
一种基于语义分析的主题爬虫算法 被引量:7
16
作者 蒋宗礼 田晓燕 赵旭 《计算机工程与科学》 CSCD 北大核心 2010年第9期145-147,151,共4页
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用... 海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。 展开更多
关键词 主题爬虫 子空间 语义分析 支持向量机
在线阅读 下载PDF
基于Shark-Search和Hits算法的主题爬虫研究 被引量:18
17
作者 罗林波 陈绮 吴清秀 《计算机技术与发展》 2010年第11期76-79,共4页
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于... 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。 展开更多
关键词 主题爬虫 爬行策略 垂直搜索引擎
在线阅读 下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
18
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
在线阅读 下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
19
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
20
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 Web信息搜集
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部