期刊文献+
共找到212篇文章
< 1 2 11 >
每页显示 20 50 100
Self-Adaptive Topic Model: A Solution to the Problem of "Rich Topics Get Richer" 被引量:1
1
作者 FANG Ying 《China Communications》 SCIE CSCD 2014年第12期35-43,共9页
The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet... The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet Allocation) model,each word in all the documents has the same statistical ability.In fact,the words have different impact towards different topics.Under the guidance of this thought,we extend ILDA(Infinite LDA) by considering the bias role of words to divide the topics.We propose a self-adaptive topic model to overcome the RTGR problem specifically.The model proposed in this paper is adapted to three questions:(1) the topic number is changeable with the collection of the documents,which is suitable for the dynamic data;(2) the words have discriminating attributes to topic distribution;(3) a selfadaptive method is used to realize the automatic re-sampling.To verify our model,we design a topic evolution analysis system which can realize the following functions:the topic classification in each cycle,the topic correlation in the adjacent cycles and the strength calculation of the sub topics in the order.The experiment both on NIPS corpus and our self-built news collections showed that the system could meet the given demand,the result was feasible. 展开更多
关键词 topic model infinite latent Dirichlet Allocation Dirichlet process topic evolution
在线阅读 下载PDF
一种新的目标检测方法:Latent Dirichlet classification 被引量:3
2
作者 丁轶 郭乔进 李宁 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期214-220,共7页
图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共... 图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共生关系来进行目标检测.LDC模型将latentDirichlet allocation(LDA)生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器进行集成分类.实验结果表明利用LDC模型能有效提高检测精度. 展开更多
关键词 潜在迪利克雷分布 目标检测 变分推理 主题模型
在线阅读 下载PDF
我国网络直播治理政策特征及主题演进分析
3
作者 方迪 《情报探索》 2026年第1期60-67,共8页
[目的/意义]旨在深化中国特色网络治理理论认知,为监管部门优化政策供给,提升治理效能提供数据支撑。[方法/过程]聚焦于党的十八大以来颁布的网络直播治理核心政策文本,运用LDA主题模型与DTM模型,深入剖析政策特征及主题演进。[结果/结... [目的/意义]旨在深化中国特色网络治理理论认知,为监管部门优化政策供给,提升治理效能提供数据支撑。[方法/过程]聚焦于党的十八大以来颁布的网络直播治理核心政策文本,运用LDA主题模型与DTM模型,深入剖析政策特征及主题演进。[结果/结论]网络直播治理政策主题涵盖互联网信息服务与直播管理等七个关键领域,且各主题强度差异显著。政策主题演化经历了从初步探索到逐步推进,再到深化细化的过程,呈现出从单一规范向多元治理拓展、从行业管理向产业融合深化、从被动监管向主动引导转变的显著特点。基于研究结果,提出完善制度体系,构建智能化监管体系,规范行业自律机制等建议,以推动网络直播行业的健康有序发展。 展开更多
关键词 网络直播治理 LDA主题模型 DTM模型 政策特征 主题演进
在线阅读 下载PDF
融合LDA-BN的船舶碰撞事故致因分析 被引量:1
4
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
原文传递
民航管制运行风险主题发现及演化趋势
5
作者 张洪海 戴一鸣 +2 位作者 刘文泉 石宗北 李一可 《科学技术与工程》 北大核心 2025年第17期7417-7429,共13页
空中交通管制运行安全正面临多元风险致因导致潜在危害的问题。为解决多元风险引发的管制不安全运行问题,基于对管制不安全运行事件报告的全面分析,对管制运行安全风险信息和潜在规则进行挖掘;通过对隐含狄利克雷分布(latent Dirichlet ... 空中交通管制运行安全正面临多元风险致因导致潜在危害的问题。为解决多元风险引发的管制不安全运行问题,基于对管制不安全运行事件报告的全面分析,对管制运行安全风险信息和潜在规则进行挖掘;通过对隐含狄利克雷分布(latent Dirichlet allocation,LDA)风险主题发现模型挖掘的风险主题和关键词进行分析,明确管制运行风险主题及不同风险主题间相互演化规律;针对风险主题关键词,构建了民航管制运行领域的基于BERT(bidirectional encoder representation from Transformers)模型的语义网络,分析风险主题相互关联的风险特征,得出风险主题间潜在关系,可为关键词间关联度的量化提供一定理论依据;促进民航管制运行安全风险的数字化呈现的发展,挖掘管制不安全信息,为准确感知管制运行风险奠定基础。 展开更多
关键词 空中交通管理 管制运行安全 风险管理 LDA主题模型 语义网络
在线阅读 下载PDF
基于专利文本的产品隐性技术特征识别与排序
6
作者 吕挺 梁郁庆 +1 位作者 姜少飞 景立挺 《计算机集成制造系统》 北大核心 2025年第7期2339-2350,共12页
隐性技术特征(TC)是隐藏于设计需求以非结构化表达的技术目标,对隐性TC的识别结果是排序是快速响应技术创新需求并确保产品设计价值的关键。然而,隐性TC的识别依赖于设计经验,影响TC识别结果的客观性和广泛性。此外,传统TC排序过程忽略... 隐性技术特征(TC)是隐藏于设计需求以非结构化表达的技术目标,对隐性TC的识别结果是排序是快速响应技术创新需求并确保产品设计价值的关键。然而,隐性TC的识别依赖于设计经验,影响TC识别结果的客观性和广泛性。此外,传统TC排序过程忽略了技术发展的潜在创新价值。为此,提出基于专利文本的产品隐性TC识别与排序模型。首先,基于专利文本,利用隐含狄利克雷分布(LDA)主题模型和词向量挖掘关联设计需求的TC词。其次,构建TC词的频次时间矩阵,利用马尔科夫链推理出核心隐性TC词。基于新颖度和技术成熟度求解TC的潜在价值并综合排序。最后,以蒸汽烤箱设计为实例验证该模型的有效性,开发辅助隐性TC识别与排序的原型系统来提升设计效率。 展开更多
关键词 技术特征 专利文本 LDA主题模型 概念设计 马尔科夫链
在线阅读 下载PDF
我国省级基层中医药服务能力提升政策体系分析
7
作者 张家乐 付谦 +2 位作者 赵锐 金信妍 郭香 《中国卫生经济》 北大核心 2025年第9期16-20,共5页
目的:分析我国当前省级基层中医药服务能力提升政策体系的重点、不足与各地典型做法,为政策优化提供参考。方法:检索“十四五”时期各省份基层中医药服务能力提升工程相关顶层设计文件,利用隐含狄利克雷分布主题模型进行政策文本主题挖... 目的:分析我国当前省级基层中医药服务能力提升政策体系的重点、不足与各地典型做法,为政策优化提供参考。方法:检索“十四五”时期各省份基层中医药服务能力提升工程相关顶层设计文件,利用隐含狄利克雷分布主题模型进行政策文本主题挖掘,构建政策建模一致性(PMC)指数模型,分析政策共性问题。结果:共纳入相关政策18项,PMC指数均值为5.52,有10项完美政策,6项优秀政策,2项良好政策,无不良政策。政策对象、政策目标和政策工具3项指标表现优秀,主要存在缺乏监管、部门协同不足和政策内容还有盲点3方面的问题。结论:“十五五”阶段应以中医医联体建设为主体,促进优质中医医疗资源扩容下沉;重视发挥中医药在基层维护群众全生命周期健康的优势效能;增强内外部政策协同,形成政策合力,推动基层中医药高质量发展。 展开更多
关键词 基层 中医药服务能力 政策评价 隐含狄利克雷分布主题模型 政策建模一致性指数模型
原文传递
医学人文研究的热点与结构演化——基于《新华文摘》文献计量分析
8
作者 吕玉文 《医学与哲学》 北大核心 2025年第18期33-38,共6页
以2015—2025年《新华文摘》转载的5种医学人文核心期刊为样本,系统分析学科传播格局、合作网络与主题演化。结果显示:《医学与哲学》杂志在转载量上居于绝对优势,体现其学术影响力与议题主导力;合作网络由头部机构、重点课题与核心作... 以2015—2025年《新华文摘》转载的5种医学人文核心期刊为样本,系统分析学科传播格局、合作网络与主题演化。结果显示:《医学与哲学》杂志在转载量上居于绝对优势,体现其学术影响力与议题主导力;合作网络由头部机构、重点课题与核心作者主导,协作紧密且中心性突出;狄利克雷分配模型识别出10个高频主题,其中“人工智能与数字医疗伦理”与“叙事医学与临床决策伦理”成为主要热点。研究揭示了医学人文学科在新时代的知识结构演化,为未来相关研究与政策制定提供了实证参考。 展开更多
关键词 医学人文 《新华文摘》 文献计量分析 狄利克雷分配主题建模
暂未订购
智慧高速公路系统本质安全化评价指标体系
9
作者 ZOU Patrick X W 梁琨昊 《中国安全科学学报》 北大核心 2025年第9期28-35,共8页
为提升智慧高速公路本质安全水平,提出一种基于潜在狄利克雷分布(LDA)主题模型的智慧高速公路本质安全评价指标识别方法。界定智慧高速公路本质安全内涵,基于我国15个省市智慧高速公路建设指南文本,应用词频-逆文档频率(TF-IDF)算法和LD... 为提升智慧高速公路本质安全水平,提出一种基于潜在狄利克雷分布(LDA)主题模型的智慧高速公路本质安全评价指标识别方法。界定智慧高速公路本质安全内涵,基于我国15个省市智慧高速公路建设指南文本,应用词频-逆文档频率(TF-IDF)算法和LDA主题模型提取语料主题及关键词,结合相关文献规范及专家访谈和评价,构建智慧高速公路本质安全评价指标体系,该体系涵盖安全感知与监测能力、交通运行安全保障能力、安全决策支持能力、系统与设备可靠性4个一级指标及15个二级指标,并阐释各二级指标内涵;应用网络层次分析法(ANP)揭示智慧高速公路本质安全评价指标间的交互关系,运用Super Decision软件确定各级评价指标的权重。研究结果表明:数据传输可靠性、机电设备运行可靠性、安全风险预测与评估能力等指标对智慧高速公路本质安全水平的影响最为显著。所构建的方法能够高效地从文本中挖掘出有效数据信息,提升本质安全评价的客观性与准确性,从而为智慧高速公路本质安全设计与管理提供指导。 展开更多
关键词 智慧高速公路 本质安全 评价指标体系 潜在狄利克雷分布(LDA)主题模型 网络层次分析法(ANP)
原文传递
基于机器学习的自然灾害下地铁运营事故致因挖掘与应对策略研究
10
作者 汤洪霞 郑静萱 +1 位作者 李梦笛 邵志国 《安全与环境工程》 北大核心 2025年第4期165-173,共9页
作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视... 作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视总台新闻新媒体的网络新闻文本,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型、词向量(word to vector,Word2Vec)模型及主成分分析(principal component analysis,PCA)降维,挖掘事故致因并归纳自然灾害下地铁运营“事故致因-主要影响-风险应对”的管理策略。结果表明:自然灾害下地铁运营事故致因主要有暴雨灾害、台风灾害、暴雪灾害、地震灾害、城市管网建设不协调和应急管理体系不完善等6个方面;暴雨灾害和台风灾害之间相关性较强,城市管网建设不协调与4类自然灾害关系密切,应急管理体系不完善则相对独立。研究结果可为地铁运营相关单位的防灾减灾工作提供理论支撑,有效提高地铁系统抵御自然灾害的能力和运营安全水平。 展开更多
关键词 地铁运营事故 事故致因挖掘 自然灾害 机器学习 隐含狄利克雷分布(LDA)主题模型 文本挖掘
在线阅读 下载PDF
民航安全政策主题挖掘与成效评估分析
11
作者 程明 杨迪木 《安全》 2025年第3期88-96,共9页
为分析现阶段民航安全政策体系的治理效能,基于2016—2023年民航局发布的86份民航安全类政策文件,利用隐含狄利克雷分布(LDA)主题模型挖掘政策文本主题,从共现网络视角探究政策文本主题及关键词之间的关系;采用斯皮尔曼相关系数分析法,... 为分析现阶段民航安全政策体系的治理效能,基于2016—2023年民航局发布的86份民航安全类政策文件,利用隐含狄利克雷分布(LDA)主题模型挖掘政策文本主题,从共现网络视角探究政策文本主题及关键词之间的关系;采用斯皮尔曼相关系数分析法,系统分析民航安全政策与运输航空征候原因之间的相关性。结果表明:当主题困惑度值为4时,民航安全类政策划分为应急管理、地面运行、风险管理和飞行运行4个政策文本主题,涵盖民航安全运行重点关注的领域;共现网络显示安全政策以跑道和安全隐患为双核心网络;结合2016—2023年运输航空征候数据评估安全政策的效能,发现4类政策在应对因天气意外、空管和机械原因所致征候时效果明显,但在因机务、地面保障、机组、航务和管理原因所致征候时作用相对较小。可见,民航安全类政策文本主题挖掘模型可为民航安全政策制定和态势分析提供量化支持。 展开更多
关键词 主题挖掘 安全类政策 隐含狄利克雷分布(LDA)主题模型 共现网络
在线阅读 下载PDF
高校图书馆未来学习中心研究热点、趋势与展望——基于CNKI数据库
12
作者 付志伟 林珏含 +1 位作者 孙瑜 周吉彬 《科技和产业》 2025年第3期327-334,共8页
未来学习中心是下一代学习新范式。在科技快速发展和教育改革的背景下高校图书馆纷纷向未来学习中心模式转型以更好地适应时代变革。基于CiteSpace和LDA(潜在狄利克雷分配)主题模型对中国知网(CNKI)数据库中有关高校图书馆未来学习中心... 未来学习中心是下一代学习新范式。在科技快速发展和教育改革的背景下高校图书馆纷纷向未来学习中心模式转型以更好地适应时代变革。基于CiteSpace和LDA(潜在狄利克雷分配)主题模型对中国知网(CNKI)数据库中有关高校图书馆未来学习中心研究的160篇文献进行深入分析,揭示国内高校图书馆对未来学习中心研究的现状、热点问题和发展趋势,为高校图书馆未来学习中心的建设提出统一标准、加强宣传、突出特色、人员培养和共建共享的参考建议。 展开更多
关键词 高校图书馆 未来学习中心 CITESPACE LDA(潜在狄利克雷分配)主题模型
在线阅读 下载PDF
基于LDA主题模型对北京市朝阳区卫生健康监督投诉数据的分析与变化趋势研究
13
作者 隋建坤 张建永 +1 位作者 朱学军 石春兰 《中国公共卫生管理》 2025年第5期668-672,共5页
目的挖掘卫生健康监督系统数据价值,提升公共卫生管理效率与服务响应能力。方法以2013—2023年北京市朝阳区卫生健康监督系统“接诉即办”工单数据为基础,采用潜在狄利克雷分配(latent Dirichlet allocation,LDA)主题模型,对16217条公... 目的挖掘卫生健康监督系统数据价值,提升公共卫生管理效率与服务响应能力。方法以2013—2023年北京市朝阳区卫生健康监督系统“接诉即办”工单数据为基础,采用潜在狄利克雷分配(latent Dirichlet allocation,LDA)主题模型,对16217条公众投诉文本进行聚类分析,构建投诉关注点识别与趋势预测模型,系统分析投诉热点的分布特征、时间规律与演变趋势。结果LDA主题模型将投诉内容归纳为5个主题:公共场所卫生健康监督、控烟管理、资质监管、执业行为监管及水质管理,基本覆盖当前卫生健康监督的核心领域。公众对资质合规、维权退费等问题的关注尤为突出;各主题投诉量呈现出明显的季节性与周期性波动;公众卫生诉求日趋精细化和多样化。结论当前卫生健康监督工作面临日益复杂的管理挑战,监督机构需加强对公众卫生诉求的动态识别与快速响应,并应针对具有周期规律的投诉类型提前部署预防性干预措施。 展开更多
关键词 卫生健康监督 投诉数据分析 LDA主题模型 数据治理 精准施策
原文传递
面向多标签隐性知识的文本数据挖掘算法
14
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
基于LDA的社会化标签综合聚类方法 被引量:14
15
作者 李慧宗 胡学钢 +2 位作者 杨恒宇 林耀进 何伟 《情报学报》 CSSCI 北大核心 2015年第2期146-155,共10页
社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资... 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。 展开更多
关键词 社会化标注系统 标签聚类 潜在语义 主题模型
在线阅读 下载PDF
主题模型LDA的多文档自动文摘 被引量:24
16
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
在线阅读 下载PDF
融合主题与语言模型的个性化标签推荐方法研究 被引量:3
17
作者 李慧 马小平 +1 位作者 胡云 施珺 《计算机科学》 CSCD 北大核心 2015年第8期70-74,共5页
随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,... 随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,标签推荐算法应运而生。提出了一种个性化标签推荐方法,该方法综合了用户的资源标签与标签概率模型。该模型利用了简单语言模型和隐含狄利克雷分配模型,并针对现实世界的大型数据集进行了大量实验。实验表明,该个性化方法改进了标签推荐算法,推荐结果优于传统方法。 展开更多
关键词 标签 推荐 主题 潜在主题模型 个性化
在线阅读 下载PDF
基于LDA话题演化研究方法综述 被引量:91
18
作者 单斌 李芳 《中文信息学报》 CSCD 北大核心 2010年第6期43-49,68,共8页
现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应... 现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面:内容演化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不同方式将目前的研究方法分为三类:将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比,并且简要描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。 展开更多
关键词 话题模型 话题演化 latent DIRICHLET ALLOCATION
在线阅读 下载PDF
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
19
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
在线阅读 下载PDF
基于主题情感混合模型的无监督文本情感分析 被引量:57
20
作者 孙艳 周学广 付伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期102-108,共7页
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各... 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。 展开更多
关键词 主题模型 LDA 情感分析 混合模型
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部