期刊文献+
共找到200篇文章
< 1 2 10 >
每页显示 20 50 100
“强度-内容”视域下我国公共数字文化政策主题演化研究
1
作者 侯艳辉 赵文静 王家坤 《山东科技大学学报(社会科学版)》 2025年第4期81-92,共12页
为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强... 为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强度表征模型,分析主题强度演化情况;利用Word2Vec模型获取主题关键词最相似词集合,分析主题内容演化情况。研究发现,我国公共数字文化政策主要有三大惠民工程建设、均等化配置、建设与保障管理和数字文化产业发展四大主题,主题演化呈现阶段性变化、科学技术驱动、聚焦发展问题等特点。基于主题演化分析结果,未来公共数字文化建设应紧密围绕国家战略导向,加强科技创新与人才培养;积极响应公众数字文化需求,促进共建共享合作模式;聚焦发展问题与矛盾,缩小不同区域与群体间发展差距。 展开更多
关键词 公共数字文化 主题强度 多特征融合 主题内容 主题演化
在线阅读 下载PDF
基于账号主题模型和多维度特征交互的影响者推荐研究
2
作者 宋金宝 张星宇 +2 位作者 陈达 许诺 蒋雅婷 《信息传播研究》 2025年第4期2-17,共16页
社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96... 社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96倍);2)构建多维度特征体系,整合主题(SMATM)、视觉(ResNeXt WSL)、行业(12类标签)及情感(NRCVAD+Emoji)特征;3)MFI-IR算法采用双通道架构(交叉网络+深度网络)与双任务优化,在Brand-Influencer数据集上取得显著提升:AUC 0.9371(+6.0%)、MAP 0.9079(+380%)、P@10 0.2088(+32.7%)。实验验证了模型在解决主题漂移、增强特征交互和提升可解释性方面的优势,为品牌营销提供数据驱动的决策支持。 展开更多
关键词 影响者推荐 多模态主题模型 特征交互 推荐系统 社交媒体营销
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法 被引量:1
3
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
林业复杂场景下“双碳”颠覆性技术主题识别
4
作者 安欣 杨禄鑫 +1 位作者 徐硕 刘迪航 《北京林业大学学报》 北大核心 2025年第12期12-25,共14页
【目的】颠覆性技术是“双碳”战略下林业自主控碳范式构建、绿色技术主导权竞争的关键变量,其识别与培育对推动传统林业向自主控碳转型具有重要现实价值与深远战略意义。本文以精准识别“双碳”领域颠覆性技术为目标,构建系统化识别体... 【目的】颠覆性技术是“双碳”战略下林业自主控碳范式构建、绿色技术主导权竞争的关键变量,其识别与培育对推动传统林业向自主控碳转型具有重要现实价值与深远战略意义。本文以精准识别“双碳”领域颠覆性技术为目标,构建系统化识别体系,比较分析单源数据与多源异构数据在技术主题抽取中的适用性,旨在为林业自主控碳等复杂场景下的关键技术挖掘提供可复制、可推广的方法框架,为自主控碳技术清单构建提供支撑。【方法】围绕颠覆性技术特征改进现有测度指标体系,采用兼顾单源数据与多源异构数据的TNG模型抽取技术主题,计算主题颠覆性指数。结合支撑“双碳”目标的林业(以下简称“林业双碳”)领域知识背景,按“源头减排”“末端治理”两大技术路径,对识别出的颠覆性技术进行分类解读与深入分析。【结果】经第三方资料对比验证,本文构建的方法识别效果良好,且多源异构数据融合的识别效果显著优于单源数据。在林业双碳领域,成功识别出核心技术主题——源头减排类(综合能源系统、智能配电网、生物质能减排)、末端治理类(森林土壤固碳技术、热反应二氧化碳捕获、离子液体−碳吸附、复合材料电催化剂制备),覆盖碳减排−碳捕集−碳利用−碳固存全链条,支撑自主控碳林业技术体系构建。【结论】本文提出的识别体系在颠覆性技术挖掘中表现出良好的适用性和稳定性,不仅为林业双碳领域“自主控碳转型”提供了精准的技术识别路径与核心技术清单,也为该方法在其他复杂领域的迁移应用提供了理论基础与实践依据。 展开更多
关键词 主题识别 颠覆性技术 多源异构数据 TNG模型 颠覆性指数 “双碳” 自主控碳
在线阅读 下载PDF
基于潜在影响力预测和多源信息融合的新兴技术识别方法 被引量:1
5
作者 张甜 陈进东 +2 位作者 周晓纪 孙胜凯 张永伟 《情报杂志》 北大核心 2025年第9期134-142,133,共10页
[研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力... [研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力预测方法,识别未来短期、中期、长期具有高影响力的论文和专利;其次,利用LDA模型提取研究主题,聚类合并科学主题和技术主题,并基于主题演化网络和主题共现网络识别新兴技术;最后,通过新闻数据验证本文方法的有效性,并结合情感分析挖掘公众诉求。[研究结果/结论]以碳中和领域为例,基于本文提出的新兴技术识别方法,识别得到未来短期、中期、长期新兴技术共7项,实验结果验证了潜在影响力预测方法在识别高影响力研究中的有效性,以及融合多源信息的新兴技术识别方法的准确性。 展开更多
关键词 新兴技术识别 多源数据 潜在影响力预测 多源信息融合 主题分析 碳中和
在线阅读 下载PDF
基于多源舆情的区域营商环境评价研究
6
作者 何秀美 朱庆华 沈超 《南京邮电大学学报(社会科学版)》 2025年第2期62-72,共11页
针对区域营商环境所呈现的差异性、动态性特征,构建基于多源舆情的营商环境评价机制,测算营商环境要素水平。为兼顾常态化与突发性要素信息的采集,对来自多源平台的舆情信息基于主题特征进行融合,通过建立舆情信息与营商环境要素的映射... 针对区域营商环境所呈现的差异性、动态性特征,构建基于多源舆情的营商环境评价机制,测算营商环境要素水平。为兼顾常态化与突发性要素信息的采集,对来自多源平台的舆情信息基于主题特征进行融合,通过建立舆情信息与营商环境要素的映射机制,实现大数据驱动的营商环境评价,并以南通、扬州两市为例进行实证研究。分析表明,多源舆情能够更全面地反映营商环境要素。多源舆情融合后评价指标权重动态调整,营商环境指数变化较为明显。多源舆情融合评价在指标体系稳定性、评价结果均衡性等方面较其他评价方法具有一定的优势。 展开更多
关键词 多源舆情 营商环境 市场主体 主题识别 信息融合 要素优化
在线阅读 下载PDF
静定结构内力计算的几种方法
7
作者 魏鹏云 李朝阳 +1 位作者 李勇 洪顺军 《工程与试验》 2025年第2期1-5,共5页
静定结构的内力求解是结构力学的重要内容。为了加深学生对静定结构内力计算方法的理解,本文采用涉及材料力学及结构力学的7种方法对同一简支梁受相同荷载作用下指定截面的弯矩和剪力进行了求解。采用结构力学求解器对结果进行了验证,并... 静定结构的内力求解是结构力学的重要内容。为了加深学生对静定结构内力计算方法的理解,本文采用涉及材料力学及结构力学的7种方法对同一简支梁受相同荷载作用下指定截面的弯矩和剪力进行了求解。采用结构力学求解器对结果进行了验证,并对7种方法进行了归纳比较。在教学活动中采用一题多解的方法可以调动学生的学习兴趣和积极性,从而提高教学质量。 展开更多
关键词 静定结构 弯矩 剪力 一题多解 结构力学求解器
在线阅读 下载PDF
融合多维特征测度与神经网络的技术前沿识别方法
8
作者 廖姗姗 姜楠 +3 位作者 康娅 孙巍 吴蕾 李周晶 《数字图书馆论坛》 2025年第7期31-41,共11页
技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗... 技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗口下的时序主题聚类。其次,构建涵盖新颖性、增长性、市场价值、影响力、主题交叉性、开发投入度6个二级维度的指标体系,并进一步归纳为技术新颖性、技术增长力和技术主题热度指数3个一级维度,再通过前馈神经网络实现主题特征学习与主题前沿性量化评估。最后,以作物育种领域为例,结合定性与定量分析开展实证研究,验证了模型在识别精度和决策支持效度上的优势。 展开更多
关键词 技术前沿 技术识别 主题识别 机器学习 神经网络 多维特征 作物育种
在线阅读 下载PDF
融合双层专利挖掘与技术结构的关键核心技术识别——以超硬材料为例
9
作者 刘建华 陈子洹 王慧扬 《情报杂志》 北大核心 2025年第12期107-117,共11页
[研究目的]本研究聚焦关键核心技术识别领域,以超硬材料为例,提出一种融合双层专利挖掘与技术结构的关键核心技术识别方法。[研究方法]在明确关键核心技术概念特征的基础上,设计了一套综合识别框架,包括专利的提取与关键核心技术识别两... [研究目的]本研究聚焦关键核心技术识别领域,以超硬材料为例,提出一种融合双层专利挖掘与技术结构的关键核心技术识别方法。[研究方法]在明确关键核心技术概念特征的基础上,设计了一套综合识别框架,包括专利的提取与关键核心技术识别两大步骤。专利提取环节采用“引入时间衰变因子”的改进PageRank算法进行核心性专利的抽取,之后根据关键核心技术的特征概念构建评价指标,通过CRITIC赋权法计算专利得分以提取价值性专利;关键核心技术识别环节则通过构建技术领域权重系数指标以提取基于IPC4分类号的核心技术子领域,并采用LDA主题建模引入主题强度指标进行核心技术子领域技术主题判别,据此识别关键核心技术。[研究结果/结论]以超硬材料领域为例,通过专利数据进行实证分析,成功提取了具有核心性和价值性的专利数据集,进一步识别出9个核心技术子领域和11个核心技术主题,将核心技术主题判别为关键核心技术,最后以H01M(电学电池设备)和C22C(合金)技术子领域为例进行了可视化分解,并经政策验证结果可行性。本文提出的识别框架在技术分布特征、政策契合度与跨领域协同性方面均表现出较高的有效性和实用性,为超硬材料及相关产业的技术突破和产业发展提供了决策依据。 展开更多
关键词 关键核心技术识别 超硬材料 多层专利挖掘与评估 LDA主题模型
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
10
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
11
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
在线阅读 下载PDF
基于向量空间模型的多主题Web文本分类方法 被引量:14
12
作者 周炎涛 唐剑波 吴正国 《计算机应用研究》 CSCD 北大核心 2008年第1期142-144,共3页
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,... 对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。 展开更多
关键词 向量空间模型 文本分类 多主题 数据挖掘
在线阅读 下载PDF
基于主题的Web文本聚类方法 被引量:4
13
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 WEB文本 聚类 特征词 准确率
在线阅读 下载PDF
Web网页信息文本分类的研究 被引量:5
14
作者 李净 袁小华 沈晓晶 《计算机工程与设计》 CSCD 北大核心 2008年第23期6026-6028,共3页
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Bo... 面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。 展开更多
关键词 WEB文本分类 多主题 多分类器 BOOSTING算法 综合Bayesian分类法
在线阅读 下载PDF
多维主题演化分析模型构建与实证研究 被引量:16
15
作者 刘自强 王效岳 白如江 《情报理论与实践》 CSSCI 北大核心 2017年第3期92-98,共7页
[目的/意义]分析科研主题的复杂演化过程,能够帮助学者及时把握研究热点、研究前沿和发展趋势,然而目前主题演化相关研究主要从单一维度进行演化分析。[方法/过程]文章构建了基于主题热度、状态和演化路径3个维度的主题演化分析模型,以... [目的/意义]分析科研主题的复杂演化过程,能够帮助学者及时把握研究热点、研究前沿和发展趋势,然而目前主题演化相关研究主要从单一维度进行演化分析。[方法/过程]文章构建了基于主题热度、状态和演化路径3个维度的主题演化分析模型,以碳纳米管研究领域为例进行了实证研究,首先对相关科技文献数据进行采集、预处理,并利用PLDA模型进行主题识别,然后基于多维主题演化分析模型,结合可视化技术,构建了多个维度的科学知识图谱,分析了主题热度、演化状态、宏观演化脉络和微观演化路径,清晰地描绘了碳纳米管领域的主题演化脉络、趋势。[结果/结论]研究结果表明,多维主题演化分析模型能够准确分析主题演化生命周期的复杂过程。 展开更多
关键词 多维度 主题识别 主题演化 可视化 模型 实证研究
原文传递
一种基于搜索策略的多主题信息采集方法 被引量:3
16
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 多主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
在线阅读 下载PDF
基于概念簇的多主题提取算法 被引量:3
17
作者 马甲林 张永军 王志坚 《智能系统学报》 CSCD 北大核心 2015年第2期261-266,共6页
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念... 现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。 展开更多
关键词 语义 稀疏 上下文背景 知识库 概念簇 多主题提取 K-MEANS MEABCC
在线阅读 下载PDF
基于LDA重要主题的多文档自动摘要算法 被引量:11
18
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 多文档摘要 主题模型 重要主题
在线阅读 下载PDF
基于主题的文本句情感分析 被引量:8
19
作者 王磊 苗夺谦 +1 位作者 张志飞 余鹰 《计算机科学》 CSCD 北大核心 2014年第3期32-35,共4页
近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。... 近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。实验结果表明,基于主题的情感向量空间模型在句的情感极性判断上取得了令人满意的效果。 展开更多
关键词 情感词典 概率主题 多标签分类 情感分析
在线阅读 下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
20
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部