期刊文献+
共找到269篇文章
< 1 2 14 >
每页显示 20 50 100
The Research of an Incremental Conceptive Clustering Algorithm and Its Application in Detecting Money Laundering
1
作者 CHEN Yunkai LU Zhengding LI Ruixuan LI Yuhua SUN Xiaolin 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1076-1080,共5页
Considering the constantly increasing of data in large databases such as wire transfer database, incremental clustering algorithms play a more and more important role in Data Mining (DM). However, Few of the traditi... Considering the constantly increasing of data in large databases such as wire transfer database, incremental clustering algorithms play a more and more important role in Data Mining (DM). However, Few of the traditional clustering algorithms can not only handle the categorical data, but also explain its output clearly. Based on the idea of dynamic clustering, an incremental conceptive clustering algorithm is proposed in this paper. Which introduces the Semantic Core Tree (SCT) to deal with large volume of categorical wire transfer data for the detecting money laundering. In addition, the rule generation algorithm is presented here to express the clustering result by the format of knowledge. When we apply this idea in financial data mining, the efficiency of searching the characters of money laundering data will be improved. 展开更多
关键词 CATEGORICAL DM incremental conceptive clustering SCT money laundering
在线阅读 下载PDF
Concept Association and Hierarchical Hamming Clustering Model in Text Classification
2
作者 SuGui-yang LiJian-hua MaYing-hua LiSheng-hong YinZhong-hang 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第3期339-342,共4页
We propose two models in this paper. The concept of association model is put forward to obtain the co-occurrence relationships among keywords in the documents and the hierarchical Hamming clustering model is used to r... We propose two models in this paper. The concept of association model is put forward to obtain the co-occurrence relationships among keywords in the documents and the hierarchical Hamming clustering model is used to reduce the dimensionality of the category feature vector space which can solve the problem of the extremely high dimensionality of the documents' feature space. The results of experiment indicate that it can obtain the co-occurrence relations among key-words in the documents which promote the recall of classification system effectively. The hierarchical Hamming clustering model can reduce the dimensionality of the category feature vector efficiently, the size of the vector space is only about 10% of the primary dimensionality. Key words text classification - concept association - hierarchical clustering - hamming clustering CLC number TN 915. 08 Foundation item: Supporteded by the National 863 Project of China (2001AA142160, 2002AA145090)Biography: Su Gui-yang (1974-), male, Ph. D candidate, research direction: information filter and text classification. 展开更多
关键词 text classification concept association hierarchical clustering hamming clustering
在线阅读 下载PDF
一般信息系统的PoClustering与概念格 被引量:1
3
作者 吴强 《绍兴文理学院学报》 2008年第9期12-18,33,共8页
传统聚类方法生成的子集,一般来说都是不相交的.而严格的不相交分类结构,不能充分表现象本体这样的事物间丰富的类关系.在基因本体中,类与子类既不是简单的树也不是格结构,而是一个有向非循环图,其任何子女都可能有多个父结点.PoCluster... 传统聚类方法生成的子集,一般来说都是不相交的.而严格的不相交分类结构,不能充分表现象本体这样的事物间丰富的类关系.在基因本体中,类与子类既不是简单的树也不是格结构,而是一个有向非循环图,其任何子女都可能有多个父结点.PoClustering是相异数据的一种无损聚类方法,概念格则反映了数据的对象和属性的对应关系.采用了PoClustering方法,在保持尽量多的信息的前提下建立一般数据集(信息系统)的属性确定下的概念化分类,讨论了它的算法,从概念格的角度研究了这种类的结构特征. 展开更多
关键词 偏序集 聚类 概念格
在线阅读 下载PDF
Identification and Prediction of Interdisciplinary Research Topics: A Study Based on the Concept Lattice Theory 被引量:4
4
作者 Haiyun Xu Chao Wang +1 位作者 Kun Dong Zenghui Yue 《Journal of Data and Information Science》 CSCD 2019年第1期60-88,共29页
Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodolo... Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodology/approach: We introduced the theory and applications of FCA and CLT, and then proposed a method for interdisciplinary knowledge discovery based on CLT. As an example of empirical analysis, interdisciplinary research(IDR) topics in Information & Library Science(LIS) and Medical Informatics, and in LIS and Geography-Physical, were utilized as empirical fields. Subsequently, we carried out a comparative analysis with two other IDR topic recognition methods.Findings: The CLT approach is suitable for IDR topic identification and predictions.Research limitations: IDR topic recognition based on the CLT is not sensitive to the interdisciplinarity of topic terms, since the data can only reflect whether there is a relationship between the discipline and the topic terms. Moreover, the CLT cannot clearly represent a large amounts of concepts.Practical implications: A deeper understanding of the IDR topics was obtained as the structural and hierarchical relationships between them were identified, which can help to get more precise identification and prediction to IDR topics.Originality/value: IDR topics identification based on CLT have performed well and this theory has several advantages for identifying and predicting IDR topics. First, in a concept lattice, there is a partial order relation between interconnected nodes, and consequently, a complete concept lattice can present hierarchical properties. Second, clustering analysis of IDR topics based on concept lattices can yield clusters that highlight the essential knowledge features and help display the semantic relationship between different IDR topics. Furthermore, the Hasse diagram automatically displays all the IDR topics associated with the different disciplines, thus forming clusters of specific concepts and visually retaining and presenting the associations of IDR topics through multiple inheritance relationships between the concepts. 展开更多
关键词 INTERDISCIPLINARY research IDR TOPICS concept lattice FORMAL ANALYSIS cluster ANALYSIS
在线阅读 下载PDF
基于词语表示密度估计和语义理解的社交媒体子话题挖掘
5
作者 曹中华 帅军军 +1 位作者 龚俊 周强强 《情报杂志》 北大核心 2025年第11期180-187,17,共9页
[研究目的]解决热点舆情事件中子话题精确识别难题,实现全面多角度揭示事件的话题内容构成。[研究方法]提出基于词语表示密度估计和语义理解的子话题挖掘方法。在词语表示和K-means聚类基础上,先用核密度估计方法识别簇内局部密集子簇,... [研究目的]解决热点舆情事件中子话题精确识别难题,实现全面多角度揭示事件的话题内容构成。[研究方法]提出基于词语表示密度估计和语义理解的子话题挖掘方法。在词语表示和K-means聚类基础上,先用核密度估计方法识别簇内局部密集子簇,然后使用大语言模型理解局部密集子簇语义,实现密集子簇内容扩展优化,最后结合局部密集子簇的时序词频和语义信息筛选出子话题簇,展示子话题内容。[研究结果/结论]以“胖猫”事件数据为例进行验证,结果显示挖掘得到的7个子话题能够明确地反映事件的核心内容,且获得更为出色的话题评估指标值,这表明本研究提出的方法能够有效识别舆情事件中的子话题,实现对舆情事件的多角度、深层次分析。 展开更多
关键词 网络舆情 社交媒体 密集子簇 子话题 大语言模型 概念词
在线阅读 下载PDF
循证理念下标准集束护理在重症患者中的应用效果
6
作者 尚晋 《中国民康医学》 2025年第14期190-193,共4页
目的:观察循证理念下标准集束护理在重症患者中的应用效果。方法:选取2023年5月至2024年1月该院收治的124例重症患者进行前瞻性研究,按照随机数字表法将其分为研究组和对照组各62例。对照组给予常规护理,研究组给予循证理念下标准集束... 目的:观察循证理念下标准集束护理在重症患者中的应用效果。方法:选取2023年5月至2024年1月该院收治的124例重症患者进行前瞻性研究,按照随机数字表法将其分为研究组和对照组各62例。对照组给予常规护理,研究组给予循证理念下标准集束护理。比较两组护理前后负性情绪[抑郁自评量表(SDS)、焦虑自评量表(SAS)],并发症发生率、护理满意度[重症护理质量评估量表(C-CQQ)]。结果:护理后,两组SDS、SAS评分均低于护理前,且研究组低于对照组,差异有统计学意义(P<0.05);研究组并发症发生率为3.23%(2/62),低于对照组的30.65%(19/62),差异有统计学意义(P<0.05);研究组护理态度、护理技术、健康教育、心理干预、舒适度等C-CQQ评分均高于对照组,差异有统计学意义(P<0.05)。结论:循证理念下标准集束护理应用于重症患者可提高护理满意度评分,以及降低负性情绪评分和并发症发生率,效果优于常规护理。 展开更多
关键词 循证理念 标准集束护理 重症 心理情绪 并发症 护理满意度
暂未订购
概念演化数据流主动学习方法
7
作者 李艳红 杜江涛 +2 位作者 王素格 白鹤翔 李德玉 《计算机技术与发展》 2025年第8期36-44,共9页
数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。... 数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。为此,该文提出了一种概念演化数据流主动学习方法(Active Learning Method for Concept Evolution Data Stream,ALM-CEDS)。定义基于样本标准差的基分类器重要性度量,提出基于加权预测概率的样本预测方法,提升分类器的分类性能;提出基于混合标签查询策略的分类器更新方法,使用难区分和代表当前数据分布的样本更新分类器;提出基于微簇q-近邻轮廓系数的新类检测方法,在数据流中快速识别新类。在4个真实数据流与5个合成数据流上的对比实验表明,该概念演化数据流主动学习方法在分类性能上优于已有的6种数据流学习方法。 展开更多
关键词 数据流分类 概念演化 主动学习 新类检测 聚类
在线阅读 下载PDF
一种适用数据流概念漂移检测与适应的增量密度聚类算法
8
作者 陆昊阳 范玉雷 +1 位作者 高楠 杨良怀 《电子学报》 北大核心 2025年第6期2050-2062,共13页
为处理随时间不断演化、非平稳数据流中的概念漂移问题,本文提出一种适用数据流概念漂移检测和适应的增量密度聚类算法(InCremental Density-based Clustering algorithm,ICDC).ICDC改进了1次遍历聚类框架,采用惰性方式处理离群点,由新... 为处理随时间不断演化、非平稳数据流中的概念漂移问题,本文提出一种适用数据流概念漂移检测和适应的增量密度聚类算法(InCremental Density-based Clustering algorithm,ICDC).ICDC改进了1次遍历聚类框架,采用惰性方式处理离群点,由新达数据触发离群点评估,以区分潜在微簇和噪声;聚类过程中要求数据点和微簇满足特征依赖及时序依赖的条件,有效去除离群点集中的异常值,克服了现有离群点处理方式中因异常点的加入导致类簇结构以不可逆转方式持续恶化的情形;设计了一种离群点生命周期调节机制,有效控制缓存大小的增长;以类簇结构变化作为概念漂移指示器,设计了相应检测算法,提升了增量密度聚类算法对数据流演变过程中局部模式和全局模式变化的敏感性.在多个真实和合成数据集上对数据流聚类质量及聚类性能、概念漂移检测和适应、算法的内存开销和计算开销等方面开展实验,结果表明,该算法在大多数数据集上的聚类结果都优于现有算法,同时能够有效检测概念漂移. 展开更多
关键词 概念漂移 增量聚类 密度聚类 数据流
在线阅读 下载PDF
基于构建资源簇群理念的福建小三线厂遗址价值重生策略 被引量:1
9
作者 刘鹏圣 《福建理工大学学报》 2025年第2期181-187,204,共8页
福建小三线厂遗址是我们身边的“工业遗产”“活态遗产”“家园遗产”,具有丰富多样的文化内涵和较高的历史文化遗产保护价值与再生利用价值。因福建小三线厂遗址所包含的自然与历史人文信息的特殊性,传统的以单个遗址为工作对象的保护... 福建小三线厂遗址是我们身边的“工业遗产”“活态遗产”“家园遗产”,具有丰富多样的文化内涵和较高的历史文化遗产保护价值与再生利用价值。因福建小三线厂遗址所包含的自然与历史人文信息的特殊性,传统的以单个遗址为工作对象的保护利用模式并不能完全适用于福建小三线厂遗址的价值重生。当前福建小三线厂遗址部分得到保护利用,但大多数因城市变迁和缺乏有效管理与规划,亟待修缮、保护和再利用。基于此,以价值生成为导向,形塑福建小三线厂遗址的生态资源体系、人文资源体系和硬件设施体系,结合在地资源构建文商旅资源簇群,是推动福建小三线厂遗址人文资源与自然生态资源复合共生、进而实现价值重生的重要路径。 展开更多
关键词 福建小三线 遗址 资源簇族理念 价值重生
在线阅读 下载PDF
融合词先验知识的MOOCs课程概念抽取
10
作者 聂凡 刘德喜 +3 位作者 张子靖 刘喜平 廖国琼 万常选 《中文信息学报》 北大核心 2025年第1期101-111,120,共12页
针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型... 针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型首先通过BERT以及字符嵌入的方式获得包含上下文和词性信息的字符表示,再利用词典匹配当前字符所在窗口的字符串,构建当前字符的4个词汇集群(当前字符在词的开头、中间、结尾,以及当前字符单独成词),并通过词性规则控制每个词的贡献权重。此外,考虑到课程概念在MOOCs中有一定的重复性,WPK-MCC模型利用当前句子所在视频字幕的上下文信息,提升课程概念抽取的效果。在MoocData数据集上的实验结果表明,WPK-MCC模型对课程概念实体抽取的F_(1)值达到89.42%,优于SoftLexicon等先进的模型。消融实验显示,词性、规则和词典等词先验知识以及上下文全局信息对WPK-MCC模型的帮助较大,去除词先验知识和上下文全局信息后,WPK-MCC的F_(1)值下降了1.13%。 展开更多
关键词 课程概念抽取 词先验知识 词汇集群 全局信息
在线阅读 下载PDF
基于循证理念的集束化护理对于ICU老年重症患者末梢循环障碍的改善效果
11
作者 蒋翠兰 陈龙 +1 位作者 储开成 李红 《生命科学仪器》 2025年第1期223-225,共3页
目的 观察基于循证理念的集束化护理对ICU老年重症患者末梢循环障碍的改善效果。方法 选择2023年2-10月南通大学附属医院如皋分院(如皋博爱医院)ICU收治的90例老年重症患者,以入院先后顺序分为对照组和观察组,每组45例。对照组采用常规... 目的 观察基于循证理念的集束化护理对ICU老年重症患者末梢循环障碍的改善效果。方法 选择2023年2-10月南通大学附属医院如皋分院(如皋博爱医院)ICU收治的90例老年重症患者,以入院先后顺序分为对照组和观察组,每组45例。对照组采用常规护理,观察组在此基础上采用基于循证理念的集束化护理。对比两组护理结果。结果 对比两组干预后双手、双足皮肤温度差绝对值、VAS评分与SpO_(2),前三项指标均较对照组低,SpO_(2)较对照组高,P<0.05。对比两组末梢循环障碍与并发症发生情况,观察组均较对照组更低,P<0.05。对比两组护理总满意度,观察组更高,P<0.05。结论 基于循证理念的集束化护理能显著改善ICU老年重症患者末梢循环情况,降低末梢循环障碍及并发症发生风险,缓解疼痛,提高护理满意度。 展开更多
关键词 循证理念 集束化护理 ICU 老年重症 末梢循环障碍
暂未订购
基于循证理念的集束化干预在肺癌合并肺炎患者中的应用效果
12
作者 李艳艳 白玉玲 +2 位作者 冯巧梅 刘莹莹 白莉莉 《癌症进展》 2025年第8期989-992,共4页
目的探讨基于循证理念的集束化干预在肺癌合并肺炎患者中的应用效果。方法根据干预方法的不同将140例肺癌合并肺炎患者分为对照组(n=69)和观察组(n=71),对照组患者采取常规干预,观察组患者在对照组的基础上采取基于循证理念的集束化干... 目的探讨基于循证理念的集束化干预在肺癌合并肺炎患者中的应用效果。方法根据干预方法的不同将140例肺癌合并肺炎患者分为对照组(n=69)和观察组(n=71),对照组患者采取常规干预,观察组患者在对照组的基础上采取基于循证理念的集束化干预。比较两组患者的临床症状及体征改善时间、心理状态[焦虑自评量表(SAS)、抑郁自评量表(SDS)]、自我效能[中文版癌症自我管理效能感量表(C-SUPPH)]、生活质量[健康调查简表(SF-36)]、并发症发生情况及满意度。结果观察组患者肺部啰音消失时间、感染控制窗出现时间、肺部炎症吸收时间均明显短于对照组,差异均有统计学意义(P﹤0.01)。干预后,两组患者SAS、SDS评分均低于本组干预前,C-SUPPH、SF-36评分均高于本组干预前,观察组患者SAS、SDS评分均低于对照组,C-SUPPH、SF-36评分均高于对照组,差异均有统计学意义(P﹤0.05)。观察组患者的并发症总发生率低于对照组,总满意度高于对照组,差异均有统计学意义(P﹤0.05)。结论基于循证理念的集束化干预可改善肺癌合并肺炎患者的心理状况,提高自我效能、生活质量及满意度,降低并发症发生率,促进疾病康复。 展开更多
关键词 肺癌 肺炎 循证理念 集束化干预 心理状况 自我效能 生活质量 并发症
暂未订购
基于可扩展子空间学习的数据流聚类方法
13
作者 尹宏伟 倪钰洲 胡文军 《电讯技术》 北大核心 2025年第11期1836-1843,共8页
传统数据流聚类方法缺乏对高维数据的在线降维能力,导致其聚类性能受限。为解决此问题,提出了一种基于可扩展子空间学习的数据流聚类方法(Scalable Subspace Learning for Clustering Data Streams,S2LCStream)。首先,通过可扩展子空间... 传统数据流聚类方法缺乏对高维数据的在线降维能力,导致其聚类性能受限。为解决此问题,提出了一种基于可扩展子空间学习的数据流聚类方法(Scalable Subspace Learning for Clustering Data Streams,S2LCStream)。首先,通过可扩展子空间学习建立历史数据与新增数据之间的投影关系,将新增数据投影至历史数据张成的子空间中,以实时获取其聚类划分。其次,为保持不同时刻聚类划分的准确性,对持续到达的数据流进行数据分布的一致性检测,捕获其中存在的概念漂移,并结合回溯机制对聚类划分进行调整以适应动态变化的数据分布。最后,通过在多个真实数据集上进行测试,验证了所提方法在处理高维数据流的效能。所提方法在保持较高聚类性能的同时,能够高效处理数据流中的概念漂移。 展开更多
关键词 数据流聚类 子空间学习 可扩展子空间学习 概念漂移检测
在线阅读 下载PDF
模块功能独立和空间规划集群理念下的学校建筑设计分析
14
作者 蔡信男 《住宅产业》 2025年第4期40-42,共3页
在现代学校建筑设计中,模块化功能和空间规划集群理念正逐渐成为主流趋势。这种设计方法不仅满足了多功能、灵活性和高效使用空间的需求,还能够促进教育环境的现代化和多元化发展。本文主要分析了模块化功能独立和空间规划集群理念在学... 在现代学校建筑设计中,模块化功能和空间规划集群理念正逐渐成为主流趋势。这种设计方法不仅满足了多功能、灵活性和高效使用空间的需求,还能够促进教育环境的现代化和多元化发展。本文主要分析了模块化功能独立和空间规划集群理念在学校建筑设计中的具体应用情况,并结合学校建筑设计具体案例论述该设计趋势的综合效益,以补充原有理论研究并为现代社会学校公建项目的创新设计提供参考。 展开更多
关键词 学校建筑 设计 独立性 集群理念 效益
在线阅读 下载PDF
CPDGA:基于一致性传播的DGA域名主动检测算法
15
作者 刘双双 王志 +1 位作者 董伊萌 李万鹏 《通信学报》 北大核心 2025年第6期18-31,共14页
攻击者通过域名生成算法(DGA)动态注册域名以支持恶意软件活动,恶意域名不断演化导致概念漂移现象,使得现有依赖可持续性学习模型的检测技术时效性不足。针对这一威胁,结合一致性预测与一致性聚类方法,提出了一种基于一致性传播的DGA域... 攻击者通过域名生成算法(DGA)动态注册域名以支持恶意软件活动,恶意域名不断演化导致概念漂移现象,使得现有依赖可持续性学习模型的检测技术时效性不足。针对这一威胁,结合一致性预测与一致性聚类方法,提出了一种基于一致性传播的DGA域名主动检测算法(CPDGA)。通过对2019—2023年恶意与良性域名数据集进行实验,证明CPDGA能够有效缓解概念漂移对机器学习检测模型性能的影响,并使检测准确率提升20.4%。此外,CPDGA在检测13种最新对抗模型生成域名时取得了96.42%的准确率,展现了强大的鲁棒性与适应性。 展开更多
关键词 域名生成算法 概念漂移 一致性预测 一致性聚类 对抗模型
在线阅读 下载PDF
基于加速康复外科(ERAS)理念的集束化护理策略在原发性肝癌患者中的应用效果
16
作者 陈玫玫 《中国医药指南》 2025年第27期168-171,共4页
目的探讨基于加速康复外科(ERAS)理念的集束化护理策略在原发性肝癌患者中的临床效果。方法本研究聚焦于福建省莆田市第一医院收治的80例罹患原发性肝癌的患者,样本筛选跨度自2023年1月至2024年12月,依据入院时间的差异,将这些参与者均... 目的探讨基于加速康复外科(ERAS)理念的集束化护理策略在原发性肝癌患者中的临床效果。方法本研究聚焦于福建省莆田市第一医院收治的80例罹患原发性肝癌的患者,样本筛选跨度自2023年1月至2024年12月,依据入院时间的差异,将这些参与者均衡地划分为两组,具体而言,首群组——命名为对照组,囊括了2023年全年(即1月至12月)入院的40例患者,并接受常规护理;第二群组——命名为观察组,则包括2024年全年(即1月至12月)入院的40例患者,此组实施基于ERAS理念的集束化护理策略。对比两组的术后疼痛程度及术前术后的日常生活能力。结果相较于对照组,观察组术后24 h、术后48 h的视觉模拟评分更低(P<0.05);相较于对照组,观察组术后72 h的Barthel指数更高(P<0.05)。结论对于原发性肝癌患者而言,实施基于ERAS理念的集束化护理策略不仅可以有效减轻其术后的疼痛程度,还可以提高其术后的日常生活能力。 展开更多
关键词 原发性肝癌 加速康复外科理念 集束化护理
暂未订购
数字图书馆个性化服务用户模型研究 被引量:45
17
作者 宋丽哲 牛振东 +2 位作者 宋瀚涛 余正涛 师雪霖 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第1期58-62,共5页
提出了一种数字图书馆个性化服务用户模型构架,并对实现过程中的几个关键问题,包括用户模型表示方法,用户模型的建立以及更新算法进行了详细论述.提出了基于本体论的空间向量用户模型表示方法,建立了简单的数字图书馆领域本体,以空间向... 提出了一种数字图书馆个性化服务用户模型构架,并对实现过程中的几个关键问题,包括用户模型表示方法,用户模型的建立以及更新算法进行了详细论述.提出了基于本体论的空间向量用户模型表示方法,建立了简单的数字图书馆领域本体,以空间向量表示用户模型,以本体概念作为向量的特征项;采用支持向量机分类算法和无监督聚类算法相结合提取用户兴趣;在用户模型更新方法上,采用渐进遗忘和滑动窗口相结合的方法实现用户兴趣概念的漂移. 展开更多
关键词 用户模型 个性化服务 本体 聚类 概念漂移
在线阅读 下载PDF
一种基于语义内积空间模型的文本聚类算法 被引量:45
18
作者 彭京 杨冬青 +2 位作者 唐世渭 付艳 蒋汉奎 《计算机学报》 EI CSCD 北大核心 2007年第8期1354-1363,共10页
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的... 现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 展开更多
关键词 内积空间 文本聚类 概念相似度 相似计算 数据挖掘
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部