期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
基于LDA-Word2vec的冷链物流政策的央地协同量化分析
1
作者 甘卫华 凌耀琛 +1 位作者 吴素浓 熊奥诗 《兰州交通大学学报》 2025年第4期9-20,共12页
自2008年以来,为推动冷链物流健康快速发展,国家及各省市出台了一系列冷链物流政策,这些政策的效果直接影响各地冷链物流的投资热度和运营质量。基于政策工具理论,以中央和地方(下文简称“央地”)出台的冷链物流政策作为研究对象,引入LD... 自2008年以来,为推动冷链物流健康快速发展,国家及各省市出台了一系列冷链物流政策,这些政策的效果直接影响各地冷链物流的投资热度和运营质量。基于政策工具理论,以中央和地方(下文简称“央地”)出台的冷链物流政策作为研究对象,引入LDA主题模型和Word2vec词嵌入算法,进行政策文本的主题归纳分析、地域性差异分析、时序差异分析和央地协同性分析。研究结果表明:1) 2008-2023年研究期内,冷链物流政策主要聚焦“冷链物流行业的标准化”、“专项支持资金打造农产品冷链物流体系”、“多策并举落地冷链物流项目”、“构建绿色高效冷链供应链新模式”等四个主题;2)研究期内,冷链物流规范性政策文本具有时序阶段性特征,可分为萌芽期、增长期和稳健期,且各阶段主题强度不同,保证冷链物流的均衡发展;3)冷链物流规范性政策文本具有区域多样性,各地区对冷链侧重点存在差异,因地制宜制定冷链物流政策;4)华东城市群的冷链物流政策的央地协同性高于其他地区,且政策主题较为丰富,不仅响应中央政策要求,也适应各地区发展。 展开更多
关键词 冷链物流 政策协同 lda主题模型 Word2vec词嵌入算法
在线阅读 下载PDF
基于LDA2vec的数字图书馆信息资源共享研究
2
作者 王芳 《长江信息通信》 2025年第8期123-125,共3页
数字图书馆信息资源自身主题构成多元,导致直接匹配共享请求时,反馈准确性低。对此,开展基于LDA2vec的数字图书馆信息资源共享研究。利用word2vec词向量在特定窗口大小训练原始数字图书馆信息资源文档,输出文本字符串形式信息资源;利用... 数字图书馆信息资源自身主题构成多元,导致直接匹配共享请求时,反馈准确性低。对此,开展基于LDA2vec的数字图书馆信息资源共享研究。利用word2vec词向量在特定窗口大小训练原始数字图书馆信息资源文档,输出文本字符串形式信息资源;利用LDA输出包含主题document向量,求和计算得到转化后的信息资源。在数据共享请求的属性集中搜索与转化资源包含主题一致的属性,利用拉格朗日插值算法计算满足条件共享请求属性拟合阈值信息,输出多项式形式共享请求反馈结果。在结果中,设计方法在对测试样本信息资源向量化转化基础上,对共享请求反馈输出结果完整性高于88.0%,准确性在高于92.0%。 展开更多
关键词 lda2vec 数字图书馆 信息资源共享 word2vec lda 拉格朗日插值算法
在线阅读 下载PDF
基于LDA主题模型的协同过滤推荐算法 被引量:1
3
作者 张宇 吴静 《智能计算机与应用》 2024年第2期190-194,共5页
传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent... 传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent Dirichlet Allocation model-LDA-Collaborative Filtering),在传统的协同过滤算法基础上,通过LDA模型对评论文本中的主题进行分类,从各个主题层面挖掘用户的情感偏好,计算用户之间的相似度,进而向目标用户推荐商品。对京东平台牙膏的评论数据集的实验结果表明,该算法不仅可以缓解由于评分数据较少造成的稀疏性问题,推荐的精确度也有所提高。 展开更多
关键词 协同过滤 推荐算法 lda 评论文本
在线阅读 下载PDF
基于标幺化三阈值事件检测与LDA分类器的工商业负荷辨识方法
4
作者 陈霄 马云龙 +3 位作者 李新家 方磊 严永辉 喻伟 《电力需求侧管理》 2024年第3期112-118,共7页
非侵入式负荷辨识技术能够低成本的获取用户各类设备使用情况,实现电力负荷的在线监测与分析,对支撑负荷预测、需求响应等应用开展有着重要意义。针对一般工商业用户类型多样、负荷种类繁多、设备运行特性复杂的特点,提出了一种基于标... 非侵入式负荷辨识技术能够低成本的获取用户各类设备使用情况,实现电力负荷的在线监测与分析,对支撑负荷预测、需求响应等应用开展有着重要意义。针对一般工商业用户类型多样、负荷种类繁多、设备运行特性复杂的特点,提出了一种基于标幺化三阈值事件检测与LDA分类器的工商业负荷辨识方案。首先针对不同能耗级别、不同启停特性的设备设计了参数可调的统一负荷事件检测框架,提升了缓变型、分段型、震荡型负荷事件的检出准确度。随后提出了基于多元特征与LDA线性判别的设备类型判断算法,在兼顾边缘端计算效率的同时取得了与随机森林等非线性分类器相同的辨识性能。 展开更多
关键词 非侵入式负荷辨识 一般工商业用户 事件检测 改进三阈值算法 lda线性判别
在线阅读 下载PDF
基于LDA和TF-IDF的关键词提取算法研究 被引量:8
5
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 lda主题模型 TFIDF算法 关键词提取
在线阅读 下载PDF
改进LDA模型在影视作品推荐中的应用研究 被引量:1
6
作者 申菲 《微型电脑应用》 2024年第6期61-64,共4页
为了解决影视资源推荐精度问题,引入隐含狄利克雷分布(LDA)完成对影视作品影评数据分析。考虑LDA无法体现各特征词重要性,将注意力机制嵌入网络,提高模型精度。结果显示,在推荐准确率测试中,以MoviesLens-1M数据进行测试,所提出模型准... 为了解决影视资源推荐精度问题,引入隐含狄利克雷分布(LDA)完成对影视作品影评数据分析。考虑LDA无法体现各特征词重要性,将注意力机制嵌入网络,提高模型精度。结果显示,在推荐准确率测试中,以MoviesLens-1M数据进行测试,所提出模型准确率为0.936,相对同类推荐技术精度最好。由此可见,所提出推荐模型在系统稳定性、推荐效果上均有出色效果。 展开更多
关键词 推荐算法 影视作品 lda 注意力机制
在线阅读 下载PDF
融合LDA⁃LSTM算法的微博档案关注度和情感分析
7
作者 孙思怡 王家强 罗子江 《现代计算机》 2024年第7期70-75,共6页
为了解析《档案法》实施三年后社会公众对档案的关注度与情感态度,利用Python工具和LDA模型对数据进行提取和主题聚类,获得不同时间下档案热点主题;采用LSTM模型得到各档案主题的情感倾向,分析用户产生不同情感倾向的原因。根据各主题... 为了解析《档案法》实施三年后社会公众对档案的关注度与情感态度,利用Python工具和LDA模型对数据进行提取和主题聚类,获得不同时间下档案热点主题;采用LSTM模型得到各档案主题的情感倾向,分析用户产生不同情感倾向的原因。根据各主题间的联系,得到档案项目、影视娱乐档案、学生-学校档案以及专项档案四类主题。各类档案主题具有较高的积极倾向,说明公众对档案事业的发展比较支持和理解,对于消极倾向较高的学生-学校档案类别,有关部门应加强档案宣传教育,从根本上保障公众利用档案的权利,增强全社会的档案意识。 展开更多
关键词 档案关注度 lda⁃LSTM算法 情感分析 新浪微博
在线阅读 下载PDF
基于学情分析的单片机课程学生画像构建研究
8
作者 吴叶兰 于宛莹 张跃 《电脑与信息技术》 2025年第1期59-62,共4页
规模化教育环境下,识别学生个性和实施针对性的教学策略成为一项挑战。以单片机课程学情数据为研究对象,运用k-means聚类算法进行特征聚类,采用线性判别分析(Linear Discriminant Analysis,LDA)法对聚类结果实现学生群体分类,揭示学生... 规模化教育环境下,识别学生个性和实施针对性的教学策略成为一项挑战。以单片机课程学情数据为研究对象,运用k-means聚类算法进行特征聚类,采用线性判别分析(Linear Discriminant Analysis,LDA)法对聚类结果实现学生群体分类,揭示学生特征与学生能力之间的关联关系,构建了群体与个体学生画像。实施成效表明,依据学情数据构建的学生画像为精准教学和个性化教育奠定了基础。 展开更多
关键词 智慧教育 学情分析 K-MEANS聚类算法 lda 学生画像
在线阅读 下载PDF
基于粒子群算法的LDA实现方法研究 被引量:8
9
作者 钟伟 黄元亮 +1 位作者 郝真真 姜甜甜 《计算机工程与应用》 CSCD 北大核心 2017年第1期39-43,共5页
针对传统线性判别分析方法存在的问题,在研究现有理论成果的基础上,提出一种新的LDA实现方法。该方法首先对原有的Fisher准则进行修正,然后通过迭代搜寻最佳鉴别矢量,最后对获取的鉴别矢量进行比较分析。在标准的JAFFE人脸库上的表情识... 针对传统线性判别分析方法存在的问题,在研究现有理论成果的基础上,提出一种新的LDA实现方法。该方法首先对原有的Fisher准则进行修正,然后通过迭代搜寻最佳鉴别矢量,最后对获取的鉴别矢量进行比较分析。在标准的JAFFE人脸库上的表情识别和地区综合消费水平的评价中的实验结果表明,此算法不仅具有良好的识别效果而且还可以突破样本维数的限制;与其他LDA算法相比,该算法更具灵活性且更易于实现。 展开更多
关键词 线性判别式分析 投影矢量 离散度矩阵 粒子群算法 PSO-lda算法
在线阅读 下载PDF
PCA-LDA算法在性别鉴别中的应用 被引量:19
10
作者 何国辉 甘俊英 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期208-210,213,共4页
结合主元分析(Principal Components Analysis,PCA)与线性鉴别分析(Linear Discriminant Analysis,LDA)的特点,提出用于性别鉴别的PCA-LDA算法。该算法通过PCA算法求得训练样本的特征子空间,并在此基础上计算LDA算法的特征子空间。将PC... 结合主元分析(Principal Components Analysis,PCA)与线性鉴别分析(Linear Discriminant Analysis,LDA)的特点,提出用于性别鉴别的PCA-LDA算法。该算法通过PCA算法求得训练样本的特征子空间,并在此基础上计算LDA算法的特征子空间。将PCA算法与LDA算法的特征子空间进行融合,获得PCA-LDA算法的融合特征空间。训练样本与测试样本分别朝融合特征空间投影,从而得到识别特征。利用最近邻准则即可完成性别鉴别。基于ORL(Olivetti Research Laboratory)人脸数据库的实验结果表明,PCA-LDA算法比PCA算法识别性能好,在性别鉴别中是一种有效的方法。 展开更多
关键词 性别鉴别 PCA-lda算法 融合算法
在线阅读 下载PDF
基于词加权LDA算法的无监督情感分类 被引量:5
11
作者 郝洁 谢珺 +2 位作者 苏婧琼 续欣莹 韩晓霞 《智能系统学报》 CSCD 北大核心 2016年第4期539-545,共7页
主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题/情感分析方法主题间区分度较低的问题提出了一种词加权LDA算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实现无监督的主题提取和... 主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题/情感分析方法主题间区分度较低的问题提出了一种词加权LDA算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实现无监督的主题提取和情感分析。通过计算语料中词汇与情感种子词的距离,在吉布斯采样中对不同词汇赋予不同权重,利用每个主题下的关键词判断主题的情感倾向,进而得到每篇文档的情感分布。这种方法增强了具有情感倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。实验表明,与JST(Joint Sentiment/Topic model)模型相比,WLDA不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。 展开更多
关键词 情感分类 主题情感混合模型 主题模型 lda 加权算法
在线阅读 下载PDF
网络食品安全问题话题发现的LDA-K-means算法 被引量:8
12
作者 刘金硕 彭映月 +2 位作者 章岚昕 陈煜森 邓娟 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2017年第2期307-310,共4页
提出一种基于LDA模型的K-means聚类的话题发现,并在网络食品安全问题中进行效果验证.该算法中使用LDA模型对文档空间建模,并选取文档对主题的概率分布作为每篇文档的向量,利用K-means算法对这些向量进行聚类处理,最终得到话题发现的结果... 提出一种基于LDA模型的K-means聚类的话题发现,并在网络食品安全问题中进行效果验证.该算法中使用LDA模型对文档空间建模,并选取文档对主题的概率分布作为每篇文档的向量,利用K-means算法对这些向量进行聚类处理,最终得到话题发现的结果.为了验证试验的效果,还进行了1组使用传统的VSM模型下的Kmeans算法的实验作为对照组.通过在涵盖43个食品安全分类的1 920条新闻报道和腾讯微博的数据上的实验,记录了6个不同迭代次数下的结果并得到平均值,实验结果表明该方法在3个评估指标P、R、F上都比传统方法提高了20%. 展开更多
关键词 食品安全 话题发现 lda K-MEANS
原文传递
基于LDA的煤矿安全隐患主题发现研究 被引量:20
13
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
原文传递
基于LDA-SVM分类算法的技术融合测度研究 被引量:13
14
作者 苗红 赵润博 +1 位作者 黄鲁成 娄岩 《科学学与科学技术管理》 CSSCI CSCD 北大核心 2018年第10期13-29,共17页
技术融合是实现技术创新的主要途径之一。技术融合测度可以识别融合过程中发挥关键作用的技术,对于引导创新主体确立研发路径起着重要作用。针对大数据背景下研究效率不高、粒度较粗以及精准性差的问题,引入机器学习领域的LDA—SVM分类... 技术融合是实现技术创新的主要途径之一。技术融合测度可以识别融合过程中发挥关键作用的技术,对于引导创新主体确立研发路径起着重要作用。针对大数据背景下研究效率不高、粒度较粗以及精准性差的问题,引入机器学习领域的LDA—SVM分类算法,通过LDA从专利中提取主题特征,并结合SVM分类器进行技术分类,筛选出融合特征较强的专利子数据集;在此基础上,选用融合度指标和中介中心性指标进行测算专利子集中技术的融合程度和识别融合过程中的关键技术。以智能手机为例,选取电池、微处理器、相机和触屏4类技术,运用LDA-SVM算法筛选出具有多类技术特征的专利数据,并通过2个指标的测算,识别出智能手机领域的W01-C01G8(功能电话和智能手机)与W01-C01P2(个人数字助理)融合度最高;微处理器技术中W01-C01Q6A(图形和显示处理技术)、相机技术的W01-C01P6C(数码相机)、W04-M01B1(电子静态相机)和电池技术中的W01-C01E5B(电池省电供电技术)等均是融合过程中的关键技术。 展开更多
关键词 技术融合 lda-SVM分类算法 机器学习 中介中心性 专利共类分析
原文传递
情报学领域典型文本主题聚类算法比较研究
15
作者 崔文波 张涛 许鑫 《情报理论与实践》 北大核心 2025年第7期199-207,共9页
[目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题... [目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题语义连贯、可解释和主题结构质量层面构建主题聚类算法评估框架;最后,基于评估框架选择经过验证的政策、媒体和学术论文三类数据集进行实证分析。[结果/结论](1)K-means、NMF、BERTopic、BERT-HDBSCAN和LDA是适用于强调语义连贯性、可解释性较高的聚类研究,但LDA在媒体类数据集中表现较差,且融合语义嵌入后表现不佳。(2)LDA2Vec是适用于强调主题结构质量的聚类研究。(3)Sentence-BERT-K-means和BERT-K-means是适用于强调平衡主题可解释性和主题结构质量的聚类研究,特别是Sentence-BERT-K-means能提供较好的主题聚类效果。 展开更多
关键词 情报学 主题聚类 主题聚类算法 lda模型 BERTopic 比较分析
原文传递
基于LDA模型的多角度个性化微博推荐算法 被引量:11
16
作者 孙玉洁 秦永彬 《计算机工程》 CAS CSCD 北大核心 2017年第4期177-182,共6页
通过基于概率的主题挖掘模型隐含狄利克雷分布(LDA)挖掘用户兴趣主题,是目前最常用的用户兴趣主题挖掘方法。为进一步改善用户体验,推荐其感兴趣且质量好、新鲜度高的微博,提出一种新的多角度个性化微博推荐算法。通过微博发布时间、转... 通过基于概率的主题挖掘模型隐含狄利克雷分布(LDA)挖掘用户兴趣主题,是目前最常用的用户兴趣主题挖掘方法。为进一步改善用户体验,推荐其感兴趣且质量好、新鲜度高的微博,提出一种新的多角度个性化微博推荐算法。通过微博发布时间、转发数、评论数等特征计算微博重要度,利用LDA模型生成的用户-主题矩阵以及主题-词汇矩阵计算用户对微博的兴趣度,综合考虑微博本身的重要度以及用户对微博的兴趣度对微博进行评分,根据评分结果推荐微博。实验结果表明,该算法与主题模型相结合可有效够提高微博推荐的精准度。 展开更多
关键词 微博 个性化推荐 隐含狄利克雷分布模型 推荐算法 评分预测 Top-N推荐
在线阅读 下载PDF
基于LDA与混沌粒子群算法的车道线识别方法研究 被引量:4
17
作者 黄新 刘璋 《液晶与显示》 CAS CSCD 北大核心 2017年第6期491-498,共8页
与传统的车道线检测算法不同,本文采用LDA算法对道路图像进行针对性灰度化处理。加大车道线与道路的差异,然后使用抛物线模型对车道线进行拟合,采用混沌粒子群算法对抛物线参数进行优化,以车道线的灰度特征和梯度特征作为混沌粒子群的... 与传统的车道线检测算法不同,本文采用LDA算法对道路图像进行针对性灰度化处理。加大车道线与道路的差异,然后使用抛物线模型对车道线进行拟合,采用混沌粒子群算法对抛物线参数进行优化,以车道线的灰度特征和梯度特征作为混沌粒子群的适应度函数,经过多次的迭代得到抛物线拟合车道线的参数最优值,进而识别出车道线。实验结果表明,本文算法能在复杂环境下识别出车道线,对视频帧序列中的车道线连续追踪具有良好效果。 展开更多
关键词 车道线检测 lda 混沌粒子群算法 抛物线拟合
在线阅读 下载PDF
基于LDA模型和AP聚类的主题演化分析 被引量:7
18
作者 倪丽萍 刘小军 马驰宇 《计算机技术与发展》 2016年第12期6-11,共6页
随着互联网的高速发展,网络信息呈现爆炸性增长态势,主题演化分析能够帮助人们从海量的互联网数据中获取更有价值的信息。分析主题的演化发展轨迹有利于人们了解主题事件发生的前因后果,并对主题事件发展趋势进行更好地预测,进而辅助管... 随着互联网的高速发展,网络信息呈现爆炸性增长态势,主题演化分析能够帮助人们从海量的互联网数据中获取更有价值的信息。分析主题的演化发展轨迹有利于人们了解主题事件发生的前因后果,并对主题事件发展趋势进行更好地预测,进而辅助管控。针对单个主题演化分析方法中阈值设定和主题漂移的问题,提出一种LDA-AP主题演化模型。该方法利用LDA模型对不同时间窗口内的新闻文本分别进行建模,得到相应的主题。利用AP聚类算法对不同时间窗口内的多个主题进行聚类,其中计算主题相似度采用加入时间衰减因子的JS散度来度量。最后对多个主题内容进行演化分析。通过相关的实验分析和对比,结果表明该方法可以改善主题演化的性能,并能较好地分析多个新闻主题事件随时间的演化趋势。 展开更多
关键词 多主题演化 时间窗口 lda模型 AP聚类算法 JS散度
在线阅读 下载PDF
一种新的基于LDA-MURE模型的音乐个性化推荐算法 被引量:4
19
作者 李艳 李葆华 王金环 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第2期371-375,共5页
针对基于音乐作品信息的音乐作品个性化推荐及协同过滤方法的不足,通过分析音乐作品需求者的音乐试听数据及下载数据,并结合LDA(latent Dirichlet allocation)主题挖掘模型,提出一种基于LDA-MURE模型的推荐算法.实验结果表明,与基于音... 针对基于音乐作品信息的音乐作品个性化推荐及协同过滤方法的不足,通过分析音乐作品需求者的音乐试听数据及下载数据,并结合LDA(latent Dirichlet allocation)主题挖掘模型,提出一种基于LDA-MURE模型的推荐算法.实验结果表明,与基于音乐作品需求者的协同过滤算法和基于音乐属性项目的协同过滤算法相比,LDA-MURE算法可更高效地向音乐作品需求者推荐感兴趣的音乐作品. 展开更多
关键词 协同过滤 lda模型 GIBBS抽样 lda-MURE模型 推荐算法
在线阅读 下载PDF
基于改进LDA和K-means算法的主题句聚类 被引量:4
20
作者 刘子平 李学明 《计算机应用》 CSCD 北大核心 2016年第A02期239-241,250,共4页
针对隐含狄利克雷分布(LDA)主题个数的随机选定和传统K-means算法初始聚类中心选择的随机性等缺陷,提出一种新颖启发式的主题句聚类方法。该方法利用文档集聚类簇数与拆分为句子集中隐藏的主题数目一致特点,先通过层次聚类分析出文档集... 针对隐含狄利克雷分布(LDA)主题个数的随机选定和传统K-means算法初始聚类中心选择的随机性等缺陷,提出一种新颖启发式的主题句聚类方法。该方法利用文档集聚类簇数与拆分为句子集中隐藏的主题数目一致特点,先通过层次聚类分析出文档集聚类簇,采用最小描述长度(MDL)剪枝算法来确定最佳聚类数n个,然后将n作为隐含狄利克雷分布的主题数目的先验参数,计算n个主题所在维度上的重要句子作为初始聚类中心,最终完成隐含主题句聚类。实验结果表明改进后聚类算法克服了噪声数据的干扰,避免了主题数的经验误差,聚类结果更精确。 展开更多
关键词 潜在狄立克雷分布 K-MEANS算法 最小描述长度算法 句子聚类
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部