期刊文献+
共找到302篇文章
< 1 2 16 >
每页显示 20 50 100
一种新的目标检测方法:Latent Dirichlet classification 被引量:3
1
作者 丁轶 郭乔进 李宁 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期214-220,共7页
图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共... 图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共生关系来进行目标检测.LDC模型将latentDirichlet allocation(LDA)生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器进行集成分类.实验结果表明利用LDC模型能有效提高检测精度. 展开更多
关键词 潜在迪利克雷分布 目标检测 变分推理 主题模型
在线阅读 下载PDF
结核分枝杆菌潜伏感染中医辨证分型及治法方药专家共识
2
作者 中国中医科学院中医临床基础医学研究所 浙江中医药大学附属丽水中医院 +7 位作者 中国防痨协会 《中国防痨杂志》编辑委员会 马艳 张尊敬 范逸品 蔡秋杰 成诗明 张华敏 《中国防痨杂志》 北大核心 2026年第1期1-8,共8页
开展结核分枝杆菌潜伏感染(latent tuberculosis infection,LTBI)的预防性治疗,是终结结核病流行策略的关键环节。然而,现代医学在结核病预防性治疗方面存在不良反应多、患者依从性差等挑战。相比之下,中医药基于治未病理念与疫病伏邪... 开展结核分枝杆菌潜伏感染(latent tuberculosis infection,LTBI)的预防性治疗,是终结结核病流行策略的关键环节。然而,现代医学在结核病预防性治疗方面存在不良反应多、患者依从性差等挑战。相比之下,中医药基于治未病理念与疫病伏邪理论在LTBI预防性干预方面展现出独特优势,对实现LTBI精准诊疗至关重要。为明确LTBI中医辨证分型及相应治法方药,中国中医科学院中医临床基础医学研究所、浙江中医药大学附属丽水中医院、中国防痨协会与《中国防痨杂志》编辑委员会共同组织国内结核病防治多领域专家,包括中医理论、中医临床、流行病学及基础研究等专家,撰写了《结核分枝杆菌潜伏感染中医辨证分型及治法方药专家共识》(以下简称“共识”)。本共识系统阐述了LTBI的中医病因病机、辨证分型的核心要素,以及特殊人群的辨证要点。同时,明确了中医辨证分型的类别与关键特征,并针对各证型推荐了相应的治法与方药,旨在为LTBI的精准诊治提供参考依据。 展开更多
关键词 结核潜伏感染 医学 中国传统 中医辨证分型 伏邪 总结性报告(主题)
暂未订购
Self-Adaptive Topic Model: A Solution to the Problem of "Rich Topics Get Richer" 被引量:1
3
作者 FANG Ying 《China Communications》 SCIE CSCD 2014年第12期35-43,共9页
The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet... The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet Allocation) model,each word in all the documents has the same statistical ability.In fact,the words have different impact towards different topics.Under the guidance of this thought,we extend ILDA(Infinite LDA) by considering the bias role of words to divide the topics.We propose a self-adaptive topic model to overcome the RTGR problem specifically.The model proposed in this paper is adapted to three questions:(1) the topic number is changeable with the collection of the documents,which is suitable for the dynamic data;(2) the words have discriminating attributes to topic distribution;(3) a selfadaptive method is used to realize the automatic re-sampling.To verify our model,we design a topic evolution analysis system which can realize the following functions:the topic classification in each cycle,the topic correlation in the adjacent cycles and the strength calculation of the sub topics in the order.The experiment both on NIPS corpus and our self-built news collections showed that the system could meet the given demand,the result was feasible. 展开更多
关键词 topic model infinite latent Dirichlet Allocation Dirichlet process topic evolution
在线阅读 下载PDF
Unsupervised Feature Selection for Latent Dirichlet Allocation 被引量:1
4
作者 徐蔚然 杜刚 +2 位作者 陈光 郭军 杨洁 《China Communications》 SCIE CSCD 2011年第5期54-62,共9页
As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability throug... As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability through unsupervised feature selection.Theoretical analysis shows that the discrimination capability of a topic is limited by the discrimination capability of its representative words.The discrimination capability of a word is approximated by the Information Gain of the word for topics,which is used to distinguish between "general word" and "special word" in LDA topics.Therefore,we add a constraint to the LDA objective function to let the "general words" only happen in "general topics" other than "special topics".Then a heuristic algorithm is presented to get the solution.Experiments show that this method can not only improve the information gain of topics,but also make the topics easier to understand by human. 展开更多
关键词 pattern recognition unsupervised feature selection latent Dirichlet Allocation general topic special topic
在线阅读 下载PDF
融合LDA-BN的船舶碰撞事故致因分析 被引量:1
5
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
原文传递
民航管制运行风险主题发现及演化趋势
6
作者 张洪海 戴一鸣 +2 位作者 刘文泉 石宗北 李一可 《科学技术与工程》 北大核心 2025年第17期7417-7429,共13页
空中交通管制运行安全正面临多元风险致因导致潜在危害的问题。为解决多元风险引发的管制不安全运行问题,基于对管制不安全运行事件报告的全面分析,对管制运行安全风险信息和潜在规则进行挖掘;通过对隐含狄利克雷分布(latent Dirichlet ... 空中交通管制运行安全正面临多元风险致因导致潜在危害的问题。为解决多元风险引发的管制不安全运行问题,基于对管制不安全运行事件报告的全面分析,对管制运行安全风险信息和潜在规则进行挖掘;通过对隐含狄利克雷分布(latent Dirichlet allocation,LDA)风险主题发现模型挖掘的风险主题和关键词进行分析,明确管制运行风险主题及不同风险主题间相互演化规律;针对风险主题关键词,构建了民航管制运行领域的基于BERT(bidirectional encoder representation from Transformers)模型的语义网络,分析风险主题相互关联的风险特征,得出风险主题间潜在关系,可为关键词间关联度的量化提供一定理论依据;促进民航管制运行安全风险的数字化呈现的发展,挖掘管制不安全信息,为准确感知管制运行风险奠定基础。 展开更多
关键词 空中交通管理 管制运行安全 风险管理 LDA主题模型 语义网络
在线阅读 下载PDF
基于专利文本的产品隐性技术特征识别与排序
7
作者 吕挺 梁郁庆 +1 位作者 姜少飞 景立挺 《计算机集成制造系统》 北大核心 2025年第7期2339-2350,共12页
隐性技术特征(TC)是隐藏于设计需求以非结构化表达的技术目标,对隐性TC的识别结果是排序是快速响应技术创新需求并确保产品设计价值的关键。然而,隐性TC的识别依赖于设计经验,影响TC识别结果的客观性和广泛性。此外,传统TC排序过程忽略... 隐性技术特征(TC)是隐藏于设计需求以非结构化表达的技术目标,对隐性TC的识别结果是排序是快速响应技术创新需求并确保产品设计价值的关键。然而,隐性TC的识别依赖于设计经验,影响TC识别结果的客观性和广泛性。此外,传统TC排序过程忽略了技术发展的潜在创新价值。为此,提出基于专利文本的产品隐性TC识别与排序模型。首先,基于专利文本,利用隐含狄利克雷分布(LDA)主题模型和词向量挖掘关联设计需求的TC词。其次,构建TC词的频次时间矩阵,利用马尔科夫链推理出核心隐性TC词。基于新颖度和技术成熟度求解TC的潜在价值并综合排序。最后,以蒸汽烤箱设计为实例验证该模型的有效性,开发辅助隐性TC识别与排序的原型系统来提升设计效率。 展开更多
关键词 技术特征 专利文本 LDA主题模型 概念设计 马尔科夫链
在线阅读 下载PDF
我国省级基层中医药服务能力提升政策体系分析
8
作者 张家乐 付谦 +2 位作者 赵锐 金信妍 郭香 《中国卫生经济》 北大核心 2025年第9期16-20,共5页
目的:分析我国当前省级基层中医药服务能力提升政策体系的重点、不足与各地典型做法,为政策优化提供参考。方法:检索“十四五”时期各省份基层中医药服务能力提升工程相关顶层设计文件,利用隐含狄利克雷分布主题模型进行政策文本主题挖... 目的:分析我国当前省级基层中医药服务能力提升政策体系的重点、不足与各地典型做法,为政策优化提供参考。方法:检索“十四五”时期各省份基层中医药服务能力提升工程相关顶层设计文件,利用隐含狄利克雷分布主题模型进行政策文本主题挖掘,构建政策建模一致性(PMC)指数模型,分析政策共性问题。结果:共纳入相关政策18项,PMC指数均值为5.52,有10项完美政策,6项优秀政策,2项良好政策,无不良政策。政策对象、政策目标和政策工具3项指标表现优秀,主要存在缺乏监管、部门协同不足和政策内容还有盲点3方面的问题。结论:“十五五”阶段应以中医医联体建设为主体,促进优质中医医疗资源扩容下沉;重视发挥中医药在基层维护群众全生命周期健康的优势效能;增强内外部政策协同,形成政策合力,推动基层中医药高质量发展。 展开更多
关键词 基层 中医药服务能力 政策评价 隐含狄利克雷分布主题模型 政策建模一致性指数模型
原文传递
医学人文研究的热点与结构演化——基于《新华文摘》文献计量分析
9
作者 吕玉文 《医学与哲学》 北大核心 2025年第18期33-38,共6页
以2015—2025年《新华文摘》转载的5种医学人文核心期刊为样本,系统分析学科传播格局、合作网络与主题演化。结果显示:《医学与哲学》杂志在转载量上居于绝对优势,体现其学术影响力与议题主导力;合作网络由头部机构、重点课题与核心作... 以2015—2025年《新华文摘》转载的5种医学人文核心期刊为样本,系统分析学科传播格局、合作网络与主题演化。结果显示:《医学与哲学》杂志在转载量上居于绝对优势,体现其学术影响力与议题主导力;合作网络由头部机构、重点课题与核心作者主导,协作紧密且中心性突出;狄利克雷分配模型识别出10个高频主题,其中“人工智能与数字医疗伦理”与“叙事医学与临床决策伦理”成为主要热点。研究揭示了医学人文学科在新时代的知识结构演化,为未来相关研究与政策制定提供了实证参考。 展开更多
关键词 医学人文 《新华文摘》 文献计量分析 狄利克雷分配主题建模
暂未订购
民航安全政策主题挖掘与成效评估分析
10
作者 程明 杨迪木 《安全》 2025年第3期88-96,共9页
为分析现阶段民航安全政策体系的治理效能,基于2016—2023年民航局发布的86份民航安全类政策文件,利用隐含狄利克雷分布(LDA)主题模型挖掘政策文本主题,从共现网络视角探究政策文本主题及关键词之间的关系;采用斯皮尔曼相关系数分析法,... 为分析现阶段民航安全政策体系的治理效能,基于2016—2023年民航局发布的86份民航安全类政策文件,利用隐含狄利克雷分布(LDA)主题模型挖掘政策文本主题,从共现网络视角探究政策文本主题及关键词之间的关系;采用斯皮尔曼相关系数分析法,系统分析民航安全政策与运输航空征候原因之间的相关性。结果表明:当主题困惑度值为4时,民航安全类政策划分为应急管理、地面运行、风险管理和飞行运行4个政策文本主题,涵盖民航安全运行重点关注的领域;共现网络显示安全政策以跑道和安全隐患为双核心网络;结合2016—2023年运输航空征候数据评估安全政策的效能,发现4类政策在应对因天气意外、空管和机械原因所致征候时效果明显,但在因机务、地面保障、机组、航务和管理原因所致征候时作用相对较小。可见,民航安全类政策文本主题挖掘模型可为民航安全政策制定和态势分析提供量化支持。 展开更多
关键词 主题挖掘 安全类政策 隐含狄利克雷分布(LDA)主题模型 共现网络
在线阅读 下载PDF
智慧高速公路系统本质安全化评价指标体系
11
作者 ZOU Patrick X W 梁琨昊 《中国安全科学学报》 北大核心 2025年第9期28-35,共8页
为提升智慧高速公路本质安全水平,提出一种基于潜在狄利克雷分布(LDA)主题模型的智慧高速公路本质安全评价指标识别方法。界定智慧高速公路本质安全内涵,基于我国15个省市智慧高速公路建设指南文本,应用词频-逆文档频率(TF-IDF)算法和LD... 为提升智慧高速公路本质安全水平,提出一种基于潜在狄利克雷分布(LDA)主题模型的智慧高速公路本质安全评价指标识别方法。界定智慧高速公路本质安全内涵,基于我国15个省市智慧高速公路建设指南文本,应用词频-逆文档频率(TF-IDF)算法和LDA主题模型提取语料主题及关键词,结合相关文献规范及专家访谈和评价,构建智慧高速公路本质安全评价指标体系,该体系涵盖安全感知与监测能力、交通运行安全保障能力、安全决策支持能力、系统与设备可靠性4个一级指标及15个二级指标,并阐释各二级指标内涵;应用网络层次分析法(ANP)揭示智慧高速公路本质安全评价指标间的交互关系,运用Super Decision软件确定各级评价指标的权重。研究结果表明:数据传输可靠性、机电设备运行可靠性、安全风险预测与评估能力等指标对智慧高速公路本质安全水平的影响最为显著。所构建的方法能够高效地从文本中挖掘出有效数据信息,提升本质安全评价的客观性与准确性,从而为智慧高速公路本质安全设计与管理提供指导。 展开更多
关键词 智慧高速公路 本质安全 评价指标体系 潜在狄利克雷分布(LDA)主题模型 网络层次分析法(ANP)
原文传递
基于机器学习的自然灾害下地铁运营事故致因挖掘与应对策略研究
12
作者 汤洪霞 郑静萱 +1 位作者 李梦笛 邵志国 《安全与环境工程》 北大核心 2025年第4期165-173,共9页
作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视... 作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视总台新闻新媒体的网络新闻文本,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型、词向量(word to vector,Word2Vec)模型及主成分分析(principal component analysis,PCA)降维,挖掘事故致因并归纳自然灾害下地铁运营“事故致因-主要影响-风险应对”的管理策略。结果表明:自然灾害下地铁运营事故致因主要有暴雨灾害、台风灾害、暴雪灾害、地震灾害、城市管网建设不协调和应急管理体系不完善等6个方面;暴雨灾害和台风灾害之间相关性较强,城市管网建设不协调与4类自然灾害关系密切,应急管理体系不完善则相对独立。研究结果可为地铁运营相关单位的防灾减灾工作提供理论支撑,有效提高地铁系统抵御自然灾害的能力和运营安全水平。 展开更多
关键词 地铁运营事故 事故致因挖掘 自然灾害 机器学习 隐含狄利克雷分布(LDA)主题模型 文本挖掘
在线阅读 下载PDF
高校图书馆未来学习中心研究热点、趋势与展望——基于CNKI数据库
13
作者 付志伟 林珏含 +1 位作者 孙瑜 周吉彬 《科技和产业》 2025年第3期327-334,共8页
未来学习中心是下一代学习新范式。在科技快速发展和教育改革的背景下高校图书馆纷纷向未来学习中心模式转型以更好地适应时代变革。基于CiteSpace和LDA(潜在狄利克雷分配)主题模型对中国知网(CNKI)数据库中有关高校图书馆未来学习中心... 未来学习中心是下一代学习新范式。在科技快速发展和教育改革的背景下高校图书馆纷纷向未来学习中心模式转型以更好地适应时代变革。基于CiteSpace和LDA(潜在狄利克雷分配)主题模型对中国知网(CNKI)数据库中有关高校图书馆未来学习中心研究的160篇文献进行深入分析,揭示国内高校图书馆对未来学习中心研究的现状、热点问题和发展趋势,为高校图书馆未来学习中心的建设提出统一标准、加强宣传、突出特色、人员培养和共建共享的参考建议。 展开更多
关键词 高校图书馆 未来学习中心 CITESPACE LDA(潜在狄利克雷分配)主题模型
在线阅读 下载PDF
一种基于改进加权LDA模型的敏感词识别模型
14
作者 曾玲 林天余 +2 位作者 何秋霞 陈莹 胡娟娟 《兵工自动化》 北大核心 2025年第6期28-32,共5页
针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗... 针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗粒度文本分类;通过加权模型,提高共现频率低但敏感特征明显的词的分布权重,从而可以发现更多具有低频隐式关系的词;以主流新闻网站爬取的数据为例,对所提模型进行验证。结果表明:该模型可识别和提取每个类别的文本更详细的敏感信息主题,该模型有效且准确。 展开更多
关键词 主题识别 敏感词 自然语言处理 潜在狄利克雷分配
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
15
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
基于闭合式非相关知识发现的潜在跨学科合作研究主题识别——以情报学与计算机科学为例 被引量:26
16
作者 刘小慧 李长玲 +1 位作者 崔斌 刘婷 《情报理论与实践》 CSSCI 北大核心 2017年第9期71-76,共6页
[目的/意义]在跨学科现象日趋明显的背景下,为促进学科融合发展,为跨学科合作研究提供新思路,文章运用闭合式非相关知识发现方法,对两学科的潜在跨学科合作研究主题进行识别,并发现潜在主题的关联过程。[方法/过程]基于跨学科关键词共... [目的/意义]在跨学科现象日趋明显的背景下,为促进学科融合发展,为跨学科合作研究提供新思路,文章运用闭合式非相关知识发现方法,对两学科的潜在跨学科合作研究主题进行识别,并发现潜在主题的关联过程。[方法/过程]基于跨学科关键词共现网络,综合运用Ucinet和VBA,筛选距离矩阵中距离为2的关键词对作为潜在跨学科合作研究主题;定义主题跨学科合作潜力指数(TICPI)及其计算公式,计算主题的跨学科合作潜力;定义联系路径的可行性强度(PV)寻找合作主题的最佳联系路径。[结果/结论]在以情报学与计算机科学为例的实证研究中,发现两个学科存在间接联系的非相关跨学科合作主题及其最佳联系路径。 展开更多
关键词 潜在主题 跨学科研究 知识发现 主题识别
原文传递
一种基于LDA主题模型的评论文本情感分类方法 被引量:8
17
作者 王伟 周咏梅 +2 位作者 阳爱民 周剑峰 林江豪 《数据采集与处理》 CSCD 北大核心 2017年第3期629-635,共7页
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信... 针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。 展开更多
关键词 评论文本 情感单元 潜在主题 情感分析 机器学习
在线阅读 下载PDF
基于LDA的社会化标签综合聚类方法 被引量:14
18
作者 李慧宗 胡学钢 +2 位作者 杨恒宇 林耀进 何伟 《情报学报》 CSSCI 北大核心 2015年第2期146-155,共10页
社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资... 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。 展开更多
关键词 社会化标注系统 标签聚类 潜在语义 主题模型
在线阅读 下载PDF
主题模型LDA的多文档自动文摘 被引量:24
19
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
在线阅读 下载PDF
基于信息论的潜在概念获取与文本聚类 被引量:7
20
作者 李晓光 于戈 +1 位作者 王大玲 鲍玉斌 《软件学报》 EI CSCD 北大核心 2008年第9期2276-2284,共9页
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用... 针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 展开更多
关键词 潜在概念 主题 文本聚类 信息论
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部