期刊文献+
共找到264篇文章
< 1 2 14 >
每页显示 20 50 100
On-line topical importance estimation:an effective focused crawling algorithm combining link and content analysis 被引量:7
1
作者 Can WANG Zi-yu GUAN +3 位作者 Chun CHEN Jia-jun BU Jun-feng WANG Huai-zhong LIN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2009年第8期1114-1124,共11页
Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling o... Focused crawling is an important technique for topical resource discovery on the Web.The key issue in focused crawling is to prioritize uncrawled uniform resource locators(URLs) in the frontier to focus the crawling on relevant pages.Traditional focused crawlers mainly rely on content analysis.Link-based techniques are not effectively exploited despite their usefulness.In this paper,we propose a new frontier prioritizing algorithm,namely the on-line topical importance estimation(OTIE) algorithm.OTIE combines link-and content-based analysis to evaluate the priority of an uncrawled URL in the frontier.We performed real crawling experiments over 30 topics selected from the Open Directory Project(ODP) and compared harvest rate and target recall of the four crawling algorithms:breadth-first,link-context-prediction,on-line page importance computation(OPIC) and our OTIE.Experimental results showed that OTIE significantly outperforms the other three algorithms on the average target recall while maintaining an acceptable harvest rate.Moreover,OTIE is much faster than the traditional focused crawling algorithm. 展开更多
关键词 Focused crawlers topical crawlers PAGERANK Classifiers On-line topical importance estimation (OTIE) algorithm
原文传递
Network Hot Topic Discovery of Fuzzy Clustering Based on Improved Firefly Algorithm
2
作者 Zhenpeng Liu Jing Dong +2 位作者 Bin Zhang Mengjie He Jianmin Xu 《Journal of Computer and Communications》 2018年第8期1-14,共14页
The existing fuzzy clustering algorithm (FCM) is sensitive to the initial center point. And simple clustering of distance can neither discovery hot topics on the Network accurately nor solve the problem of semantic di... The existing fuzzy clustering algorithm (FCM) is sensitive to the initial center point. And simple clustering of distance can neither discovery hot topics on the Network accurately nor solve the problem of semantic diversity in Chinese. Aiming at these problems, an improved fuzzy clustering method based on dynamic adaptive step firefly algorithm (FA) was proposed. The clustering center was optimized by improved FA, and the FCM was used to complete the final clustering. First, the step length was adjusted adaptively in the current iteration, and the relationship between fireflies was established according to text similarity, then the topic influence value was applied to fuzzy clustering algorithm to improve fitness function optimization. In this process the topic was categorized into the closest class to the cluster center, which can reduce the impact of topic variation. Finally, according to the level of influence value got hot topics. By collecting real data from Sina micro-blog, the effectiveness of the algorithm was verified by experiments, and the accuracy of topic discovery was improved greatly. 展开更多
关键词 topic DISCOVERY FIREFLY algorithm Dynamic Adaptive STEP SIZE FCM Micro-Blog
暂未订购
基于改进贝叶斯算法的主题爬虫方法与实现
3
作者 李光荣 薛翔 曹远国 《计算机应用与软件》 北大核心 2026年第3期239-244,313,共7页
为了解决主题爬虫中存在主题度判别不足的问题,在PageRank算法和Bayes算法结合的爬行策略方法的基础上,提出一种改进贝叶斯分类算法并融合TextRank算法的主题度判别方法PTB。引用熵值法对朴素贝叶斯分类算法进行加权处理,融合TextRank... 为了解决主题爬虫中存在主题度判别不足的问题,在PageRank算法和Bayes算法结合的爬行策略方法的基础上,提出一种改进贝叶斯分类算法并融合TextRank算法的主题度判别方法PTB。引用熵值法对朴素贝叶斯分类算法进行加权处理,融合TextRank算法实现关键词提取,再结合链接分析的PageRank算法完成主题度判别模型。通过4种主题爬虫方法进行实验对比,发现PTB方法拥有最优的准确率、召回率、F值,证明该方法提高了主题相关度判别的精度。 展开更多
关键词 改进的贝叶斯分类算法 PTB主题度判别方法 主题爬虫 关键词提取
在线阅读 下载PDF
基于无监督文本特征的隐含主题自动抽取方法
4
作者 包永红 《现代电子技术》 北大核心 2026年第4期42-46,共5页
文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取... 文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取方法。利用双向最大匹配法对文本进行分词后,去除其中的停用词,完成文本预处理工作;采用无监督TF-IDF算法提取预处理后文本的特征,再将文本数据转换为数值型特征向量,构建词特征向量集;引入LDA模型自动抽取隐含主题,即构建词特征向量中词汇对应隐含主题的概率分布模型,并利用Gibbs快速抽样法获取模型超参数,得到隐含主题概率分布,进而依据该分布结果实现文本隐含主题的自动抽取。实验结果表明,所提方法在应用过程中的F1值高于0.93,困惑度低于0.6,能够精准地抽取文本中的隐含主题。 展开更多
关键词 隐含主题 自动抽取 文本特征 无监督TF-IDF算法 LDA模型 Gibbs快速抽样法
在线阅读 下载PDF
基于索引结构和人工蜂群算法的数据库查询方法
5
作者 沈益 《微型电脑应用》 2026年第2期256-261,共6页
数据库海量数据包含特定主题或信息,但存在样本分配方案冗余的问题,进而导致关键主题提取精度较低,连接查询效率较差,对此,提出一种基于索引结构和人工蜂群算法的数据库查询方法。对数据库主题进行自相关程度分析和待查询数据特征聚类,... 数据库海量数据包含特定主题或信息,但存在样本分配方案冗余的问题,进而导致关键主题提取精度较低,连接查询效率较差,对此,提出一种基于索引结构和人工蜂群算法的数据库查询方法。对数据库主题进行自相关程度分析和待查询数据特征聚类,结合人工蜂群算法得到最佳模糊核聚类算法的聚类中心,优化索引结构,提高查询优化软件的检索精度,优化连接查询性能,完成数据库连接查询优化软件的设计。通过在Hyperledger Fabric平台上进行实验,模拟真实数据库环境并与现有方法进行比较,验证所提出的方法在索引结构排序效率和聚类中心生成代价方面的有效性。实验结果表明,应用所提出的方法后,索引结构排序效率较高,聚类中心生成代价始终较低,提升了关键主题提取精度,减少了执行开销,增加了连接查询效率,适用于数据库连接查询优化。 展开更多
关键词 数据库 索引结构 人工蜂群算法 主题树特征匹配算法 模糊核聚类算法
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
6
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
基于BERTopic算法的引文主题实证分析——以一篇高被引诺贝尔生理学或医学奖论文为例 被引量:4
7
作者 郭倩影 赵丹群 《情报理论与实践》 CSSCI 北大核心 2024年第10期183-189,182,共8页
[目的/意义]引文主题识别/分析(CTR/CTA)是引文内容分析(CCA)的一项重要研究议题,通过对引文语料中蕴涵主题信息的识别和提取,可望为论文学术贡献评价、知识扩散及演化分析等问题的解决提供新的研究思路。[过程/方法]以一篇高被引诺贝... [目的/意义]引文主题识别/分析(CTR/CTA)是引文内容分析(CCA)的一项重要研究议题,通过对引文语料中蕴涵主题信息的识别和提取,可望为论文学术贡献评价、知识扩散及演化分析等问题的解决提供新的研究思路。[过程/方法]以一篇高被引诺贝尔生理学或医学获奖关键论文为例,采用BERTopic算法对其引文句语料进行主题识别,并对识别出的引文主题展开多个维度的分析与讨论。[结果/结论]对高被引论文开展引文主题识别分析,有助于更全面细致地揭示其学术贡献内容及演化趋势;BERTopic算法能较好识别案例文献的多个引文主题,且不同引文主题的施引文献特征分布不尽相同;对引文主题重要性、演化趋势及其与原文主题差异性的分析,能多维度刻画研究同行对案例文献学术贡献的认识,表明CTR/CTA研究对学术论文评价具有深入探索价值。 展开更多
关键词 BERtopic算法 引文主题识别 引文主题分析 引文内容分析 学术论文评价
原文传递
基于改进标签传播算法的舆情社交网络社区发现 被引量:1
8
作者 钱晓东 王卓 《计算机应用研究》 北大核心 2025年第1期48-55,共8页
通过改进的标签传播算法研究了舆情社交网络中的社交主题发现。针对传统算法容易陷入局部最优的问题,依据节点间相似度选择标签传播时的邻居节点;针对传统算法标签更新时的随机性问题,通过结合舆论动力学模型HK的观点交互过程,依据节点... 通过改进的标签传播算法研究了舆情社交网络中的社交主题发现。针对传统算法容易陷入局部最优的问题,依据节点间相似度选择标签传播时的邻居节点;针对传统算法标签更新时的随机性问题,通过结合舆论动力学模型HK的观点交互过程,依据节点影响力的大小更新标签。实验结果表明,该方法在最好情况下(k=0.9)相较于原算法,在稳定性和模块度指标两方面分别提高了31%和78%,并且优于其他几种改进算法。由此可见,该算法相较于原算法及其他改进算法在舆情社交网络的主题社区发现中表现更好。 展开更多
关键词 标签传播算法 舆情社交网络 HK模型 主题社区发现
在线阅读 下载PDF
情报学领域典型文本主题聚类算法比较研究 被引量:4
9
作者 崔文波 张涛 许鑫 《情报理论与实践》 北大核心 2025年第7期199-207,共9页
[目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题... [目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题语义连贯、可解释和主题结构质量层面构建主题聚类算法评估框架;最后,基于评估框架选择经过验证的政策、媒体和学术论文三类数据集进行实证分析。[结果/结论](1)K-means、NMF、BERTopic、BERT-HDBSCAN和LDA是适用于强调语义连贯性、可解释性较高的聚类研究,但LDA在媒体类数据集中表现较差,且融合语义嵌入后表现不佳。(2)LDA2Vec是适用于强调主题结构质量的聚类研究。(3)Sentence-BERT-K-means和BERT-K-means是适用于强调平衡主题可解释性和主题结构质量的聚类研究,特别是Sentence-BERT-K-means能提供较好的主题聚类效果。 展开更多
关键词 情报学 主题聚类 主题聚类算法 LDA模型 BERtopic 比较分析
原文传递
基于博弈赋权法的电网线损异常检测与优化研究
10
作者 沈媛晨 王伟 《电工技术》 2025年第11期68-70,73,共4页
针对目前的线损治理效果存在指标选取不全面、指标权重设置不合理等问题,提出了基于博弈赋权法的电网线损异常检测与优化方法。对实际工程中的项目开展数据检测并判断,从4个维度构建了线损评估指标体系,采用博弈赋权法确定组合权重,并采... 针对目前的线损治理效果存在指标选取不全面、指标权重设置不合理等问题,提出了基于博弈赋权法的电网线损异常检测与优化方法。对实际工程中的项目开展数据检测并判断,从4个维度构建了线损评估指标体系,采用博弈赋权法确定组合权重,并采用TOPIC法计算综合得分。实际算例结果表明,采用所提方法能得到线损评估得分。最后,针对线损高的工程提出相应的优化措施,为配电节能提供相应参考。 展开更多
关键词 线损异常检测 评估指标 博弈赋权法 组合权重 topic算法
在线阅读 下载PDF
基于概率主题语义分析的协同过滤算法
11
作者 唐启桂 张熙若 高铁梁 《新乡学院学报》 2025年第12期54-58,63,共6页
传统推荐算法通常将用户和物品直接联系,忽视了用户的潜在兴趣也决定他们的评分和浏览行为。本文在基于主题模型的基础上,提出一个基于概率语义分析的协同过滤推荐算法。首先通过概率主题模型抽取用户的兴趣,使相似兴趣的用户聚类在一... 传统推荐算法通常将用户和物品直接联系,忽视了用户的潜在兴趣也决定他们的评分和浏览行为。本文在基于主题模型的基础上,提出一个基于概率语义分析的协同过滤推荐算法。首先通过概率主题模型抽取用户的兴趣,使相似兴趣的用户聚类在一个子群中,其次在子群中使用改进的欧式距离来度量用户的相似度,最后使用评分聚合算法预测用户尚未评分的项目。在为用户推荐的时候,此算法可以为用户推荐符合用户兴趣并且评分高的项目。在MovieLens数据集上进行了大量实验,此方法和传统的协同过滤相比,不仅降低了时空消耗,而且具有更高的推荐性能和更低的评分误差。 展开更多
关键词 推荐算法 欧式距离 MovieLens 主题模型
在线阅读 下载PDF
生成式人工智能赋能出版选题策划的价值、挑战及优化路径
12
作者 江毓君 《惠州学院学报》 2025年第6期99-105,共7页
传统出版选题策划通常存在调研不足、主观倾向性等问题。在出版业数字化转型背景下,如何利用生成式人工智能(GAI)优化出版选题策划过程,已成为出版界的研究热点。系统探讨GAI赋能选题策划的价值及其在策划理念、策划主体、策划过程、策... 传统出版选题策划通常存在调研不足、主观倾向性等问题。在出版业数字化转型背景下,如何利用生成式人工智能(GAI)优化出版选题策划过程,已成为出版界的研究热点。系统探讨GAI赋能选题策划的价值及其在策划理念、策划主体、策划过程、策划结果以及策划伦理等方面面临的挑战,并在此基础上提出“以人为本—人机分工—透明决策—多元互证—多方协同”的优化路径。研究旨在平衡人文主导与技术赋能选题间的关系,推动出版选题策划向数据驱动、科学决策的智慧化模式演进。 展开更多
关键词 生成式人工智能 选题策划 人机协同 算法透明度
在线阅读 下载PDF
基于主题相似度模型的TS-PageRank算法 被引量:23
13
作者 黄德才 戚华春 钱能 《小型微型计算机系统》 CSCD 北大核心 2007年第3期510-514,共5页
PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRan... PageRank算法是著名搜索引擎Google的核心算法,但存在主题漂移的问题,致使搜索结果中存在过多与查询主题无关的网页.在分析PageRank算法及其有关改进算法的基础上,提出了基于虚拟文档的主题相似度模型和基于主题相似度模型的TS-PageRank算法框架.只要选择不同的相似度计算模型,就可以得到不同的TS-PageRank算法,形成一个网页排序算法簇.理论分析和数值仿真实验表明,该算法在不需要额外文本信息,也不增加算法时空复杂度的情况下,就能极大地减少主题漂移现象,从而提高查询效率和质量. 展开更多
关键词 链接分析 主题相似度 PAGERANK算法
在线阅读 下载PDF
面向多源知识融合的扩展主题图相似性算法 被引量:11
14
作者 鲁慧民 冯博琴 李旭 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第2期20-24,共5页
针对基于元数据或传统主题图的知识组织模式没有实现知识的多层次多粒度表示,以及知识融合过程中相似性算法准确性不高而影响融合质量的问题,结合全信息理论与扩展主题图结构特点及语义信息,提出了面向多源知识融合的扩展主题图相似... 针对基于元数据或传统主题图的知识组织模式没有实现知识的多层次多粒度表示,以及知识融合过程中相似性算法准确性不高而影响融合质量的问题,结合全信息理论与扩展主题图结构特点及语义信息,提出了面向多源知识融合的扩展主题图相似性算法(ETMSC)和阈值选取的相关性、层次对应和实验确定三原则.该算法综合了语法、语义和语用的相似性,扩展了主题图元素间组成结构上的相似性,同时充分考虑了涵义及所处语境的相似性.主题图相似性的判别准则与阈值有关,阈值的确定与数据集相关.实验结果表明,ETMSC算法与单纯基于语法或语义的相似性算法相比,准确性提高了9.2%~11.1%. 展开更多
关键词 知识融合 主题图 相似性算法
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
15
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 Web信息搜集
在线阅读 下载PDF
我国情报学学科主题结构分析 被引量:12
16
作者 刘非凡 李长玲 魏绪秋 《情报理论与实践》 CSSCI 北大核心 2015年第2期121-126,共6页
文章以2003—2012年情报学的研究文献为样本,运用TF*IDF方法识别情报学近10年来持续研究的经典关键词和能代表历年不同阶段研究特点的特征关键词;使用聚类效果更好的Linkcomm边聚类算法,对经典关键词与特征关键词的共词网络进行聚类,以... 文章以2003—2012年情报学的研究文献为样本,运用TF*IDF方法识别情报学近10年来持续研究的经典关键词和能代表历年不同阶段研究特点的特征关键词;使用聚类效果更好的Linkcomm边聚类算法,对经典关键词与特征关键词的共词网络进行聚类,以分析情报学学科主题的层次性与重叠性结构,并分析得出结论。为探索学科结构的静态特征研究提供新的思路与方法。 展开更多
关键词 情报学 研究主题 聚类算法 结构分析
原文传递
一种K-Means改进算法在图书馆主题挖掘中的应用研究 被引量:5
17
作者 宋楚平 李少芹 《情报理论与实践》 CSSCI 北大核心 2014年第11期120-123,共4页
在现有图书借阅数据的基础上,对图书馆进行主题挖掘,来应对主动服务读者的要求。为减少主观因素对数据分析的影响,提高分析质量,采用传统K均值算法对图书馆主题挖掘是一种常用方法,但该算法本身存在一些固有的缺陷。为了改善图书馆主题... 在现有图书借阅数据的基础上,对图书馆进行主题挖掘,来应对主动服务读者的要求。为减少主观因素对数据分析的影响,提高分析质量,采用传统K均值算法对图书馆主题挖掘是一种常用方法,但该算法本身存在一些固有的缺陷。为了改善图书馆主题挖掘效果,提出了一种基于K均值的改进算法。文章采用南通纺织职业技术学院1年的图书借阅数据对该算法和K均值算法进行了主题挖掘实验。结果表明,该算法在聚类准确度和收敛速度方面,相比K均值算法效果更好,聚类结果也更为合理。 展开更多
关键词 K均值算法 主题挖掘 遗传算法 读者分类
原文传递
一种基于社会性标注的网页排序算法 被引量:19
18
作者 刘凯鹏 方滨兴 《计算机学报》 EI CSCD 北大核心 2010年第6期1014-1023,共10页
社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关... 社会性标注作为一种新的资源管理和共享方式,吸引为数众多的用户参与其中,由此产生的大量社会性标注数据成为网页质量评价的一个新维度.文中研究如何利用社会性标注改进网页检索性能,提出一种有机结合网页和用户的查询相关性与互增强关系的网页排序算法.首先利用统计主题模型,使用相关标签为网页和用户建模,并计算查询相关性.然后利用二部图模型刻画网页和用户间的互增强关系,并使用相关标签与用户兴趣和网页内容的匹配度为互增强关系赋予权重.最后结合查询相关性和互增强关系,以迭代方式同时计算网页和用户的评分.实验结果表明,文中提出的检索模型和互增强模型能够有效地提高排序算法的性能.与目前的代表性算法相比,该算法在检索性能上有明显提高. 展开更多
关键词 社会性标注 网页检索 网页质量 排序算法 主题模型
在线阅读 下载PDF
轨道列车时刻表问题研究综述 被引量:18
19
作者 牛惠民 《交通运输系统工程与信息》 EI CSCD 北大核心 2021年第5期114-124,共11页
广泛的实践应用和复杂的计算挑战,使得轨道列车时刻表优化问题,多年来一直是交通运输及运筹管理学界的热点研究问题。作为轨道交通运营规划的一个子阶段,列车时刻表向上与线路规划(或开行方案)、向下与动车组调度融合,可以得到多个延伸... 广泛的实践应用和复杂的计算挑战,使得轨道列车时刻表优化问题,多年来一直是交通运输及运筹管理学界的热点研究问题。作为轨道交通运营规划的一个子阶段,列车时刻表向上与线路规划(或开行方案)、向下与动车组调度融合,可以得到多个延伸的研究选题。在特定的时空网络中,列车时刻表设计就是为每个列车确定一条无冲突的运行路径,使基于用户的度量指标如乘客候车时间,或企业的度量指标如运营费用达到最优。对于没有列车越行和停站模式给定的情况,通过整数变量可以完整地刻画列车时刻表模型,但如果考虑列车越行或列车停站决策,则需要引入列车在车站出发顺序或停车决策的0-1变量。一般而言,列车时刻表问题的数学模型是一类典型的大规模、多目标、强耦合的NP完全问题。算法设计是列车时刻表问题最为重要和困难的部分。对于问题较简单或规模较小的情况,常用方法是对原有复杂问题进行适当简化和(或)对难处理表达式进行合理修改,然后使用先进的计算架构和商用优化软件求解更新后模型。当然,分支定界和动态规划这两类直接分解算法,是求解列车时刻表问题的重要方法。对于问题复杂和规模庞大的情况,以拉格朗日和列生成为代表的对偶分解算法,则是求解列车时刻表问题的最佳选择。未来,探讨列车时刻表与各种现实需要(如设施维修),以及时变票价和客票分配等因素之间的深度融合,是一个有价值的研究方向;其次,研究网络环境下列车时刻表问题,将是一个非常有意义的研究选题;最后,应进一步设计集成了问题特点与现代优化技术的各类求解算法,开发能够完全应用于实际运营的商用软件。 展开更多
关键词 铁路运输 列车时刻表 选题 构模 算法
在线阅读 下载PDF
基于改进K-means聚类的在线新闻评论主题抽取 被引量:18
20
作者 夏火松 李保国 杨培 《情报学报》 CSSCI 北大核心 2016年第1期55-65,共11页
新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先... 新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-means改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,抽取新闻评论主题的效果明显。 展开更多
关键词 在线新闻评论 K—means聚类改进 主题抽取 同义词替换 分词领域词典
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部