期刊文献+
共找到203篇文章
< 1 2 11 >
每页显示 20 50 100
基于多源数据弱信号分析的早期新兴研究主题识别
1
作者 唐超 许海云 +2 位作者 杨俊浩 谭晓 刘春江 《现代情报》 北大核心 2026年第3期108-123,共16页
[目的/意义]从新兴研究主题早期特征和弱信号的特性出发,通过多源数据的弱信号分析方法实现新兴研究主题的早期识别。[方法/过程]首先,采用专利、临床、新闻和论文四类数据,利用BERTopic模型获取主题,构建新兴度综合指标识别新兴研究主... [目的/意义]从新兴研究主题早期特征和弱信号的特性出发,通过多源数据的弱信号分析方法实现新兴研究主题的早期识别。[方法/过程]首先,采用专利、临床、新闻和论文四类数据,利用BERTopic模型获取主题,构建新兴度综合指标识别新兴研究主题;其次,基于主题可见度和主题扩散度,构建主题涌现图、主题分配图,识别弱信号新兴研究主题,并在多源数据交叉验证下,测度其潜在影响力;最后,使用干细胞领域开展实证分析。[结果/结论]实证发现,本文识别的弱信号新兴研究主题较其他类型主题更符合权威报告、权威期刊论文、专业学术指南的技术方向,具有较强的跨领域影响力。本文构建的基于多源数据弱信号分析的早期新兴研究主题识别方法,可以实现新兴研究主题的早期识别,且通过多源数据整合提升了识别的准确性与覆盖度。 展开更多
关键词 新兴研究主题 弱信号 BERTopic模型 早期识别 多源数据
在线阅读 下载PDF
基于MQTT的地震烈度数据传输系统
2
作者 祁竹 付荣国 陈楠 《计算机技术与发展》 2026年第1期178-183,共6页
及时收集地震受灾地区的地震烈度数据能够帮助制定有效的应急响应工作方案。现有地震数据传输系统采用传统基础传输协议,数据传输效率较低,难以满足地震数据传输的实时性和稳定性需求。针对该问题,该文首先提出基于消息队列遥测传输(Mes... 及时收集地震受灾地区的地震烈度数据能够帮助制定有效的应急响应工作方案。现有地震数据传输系统采用传统基础传输协议,数据传输效率较低,难以满足地震数据传输的实时性和稳定性需求。针对该问题,该文首先提出基于消息队列遥测传输(Message Queuing Telemetry Transport,MQTT)的地震烈度数据传输协议,该协议基于订阅和发布的方式传输标记的地震烈度数据,支持多种优化通信策略。然后,基于该协议构建了一种采用分层式主题命名规范的地震烈度数据传输系统,该系统利用监测终端对地震烈度信息进行采集和分类标记,经由监测网关聚合后按标记通过MQTT协议发布至对应的主题,支持多个监测平台对不同主题的并发订阅,实现地震烈度数据在多源终端与多级平台之间的可靠、高效与可扩展传输。实验结果表明,相比于采用传统基础传输协议的系统,基于MQTT的系统具有更好的传输速率和稳定性。 展开更多
关键词 消息队列遥测传输协议 主题订阅 地震烈度数据 多平台监测 数据传输系统
在线阅读 下载PDF
多元关系融合视角下前沿交叉技术主题演化路径识别研究
3
作者 李嘉晖 张娴 +1 位作者 李姝影 许海云 《现代情报》 北大核心 2026年第3期124-139,共16页
[目的/意义]通过多元主题关联关系挖掘技术主题间潜在关系,融合多元关系补充潜在信息,挖掘前沿交叉技术主题演化潜在路径。[方法/过程]基于专利技术引文与合作关系,提出技术主题强化关系与新增关系,利用熵权法融合多元关系,结合主题聚... [目的/意义]通过多元主题关联关系挖掘技术主题间潜在关系,融合多元关系补充潜在信息,挖掘前沿交叉技术主题演化潜在路径。[方法/过程]基于专利技术引文与合作关系,提出技术主题强化关系与新增关系,利用熵权法融合多元关系,结合主题聚类与相似度计算,测度技术路径强弱关系,识别技术主题演化路径。[结果/结论]以“石墨烯传感”领域进行实证,识别出包含生物分子分离纯化与感测、葡萄糖检测与控制、光电化学传感等技术主题的3条潜在主路径,验证了本文方法的有效性与可行性。研究表明,多元关系融合利用对主题演化研究具有较好补充效果;主题词可在语义层面反映出主题间关系走向;技术主题间弱关系的增叠有助于挖掘技术主题演化潜在主路径。 展开更多
关键词 前沿交叉技术 多元关系融合 主路径分析 专利文本挖掘 技术主题演化路径
在线阅读 下载PDF
“强度-内容”视域下我国公共数字文化政策主题演化研究
4
作者 侯艳辉 赵文静 王家坤 《山东科技大学学报(社会科学版)》 2025年第4期81-92,共12页
为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强... 为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强度表征模型,分析主题强度演化情况;利用Word2Vec模型获取主题关键词最相似词集合,分析主题内容演化情况。研究发现,我国公共数字文化政策主要有三大惠民工程建设、均等化配置、建设与保障管理和数字文化产业发展四大主题,主题演化呈现阶段性变化、科学技术驱动、聚焦发展问题等特点。基于主题演化分析结果,未来公共数字文化建设应紧密围绕国家战略导向,加强科技创新与人才培养;积极响应公众数字文化需求,促进共建共享合作模式;聚焦发展问题与矛盾,缩小不同区域与群体间发展差距。 展开更多
关键词 公共数字文化 主题强度 多特征融合 主题内容 主题演化
在线阅读 下载PDF
基于账号主题模型和多维度特征交互的影响者推荐研究
5
作者 宋金宝 张星宇 +2 位作者 陈达 许诺 蒋雅婷 《信息传播研究》 2025年第4期2-17,共16页
社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96... 社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96倍);2)构建多维度特征体系,整合主题(SMATM)、视觉(ResNeXt WSL)、行业(12类标签)及情感(NRCVAD+Emoji)特征;3)MFI-IR算法采用双通道架构(交叉网络+深度网络)与双任务优化,在Brand-Influencer数据集上取得显著提升:AUC 0.9371(+6.0%)、MAP 0.9079(+380%)、P@10 0.2088(+32.7%)。实验验证了模型在解决主题漂移、增强特征交互和提升可解释性方面的优势,为品牌营销提供数据驱动的决策支持。 展开更多
关键词 影响者推荐 多模态主题模型 特征交互 推荐系统 社交媒体营销
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法 被引量:2
6
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
林业复杂场景下“双碳”颠覆性技术主题识别
7
作者 安欣 杨禄鑫 +1 位作者 徐硕 刘迪航 《北京林业大学学报》 北大核心 2025年第12期12-25,共14页
【目的】颠覆性技术是“双碳”战略下林业自主控碳范式构建、绿色技术主导权竞争的关键变量,其识别与培育对推动传统林业向自主控碳转型具有重要现实价值与深远战略意义。本文以精准识别“双碳”领域颠覆性技术为目标,构建系统化识别体... 【目的】颠覆性技术是“双碳”战略下林业自主控碳范式构建、绿色技术主导权竞争的关键变量,其识别与培育对推动传统林业向自主控碳转型具有重要现实价值与深远战略意义。本文以精准识别“双碳”领域颠覆性技术为目标,构建系统化识别体系,比较分析单源数据与多源异构数据在技术主题抽取中的适用性,旨在为林业自主控碳等复杂场景下的关键技术挖掘提供可复制、可推广的方法框架,为自主控碳技术清单构建提供支撑。【方法】围绕颠覆性技术特征改进现有测度指标体系,采用兼顾单源数据与多源异构数据的TNG模型抽取技术主题,计算主题颠覆性指数。结合支撑“双碳”目标的林业(以下简称“林业双碳”)领域知识背景,按“源头减排”“末端治理”两大技术路径,对识别出的颠覆性技术进行分类解读与深入分析。【结果】经第三方资料对比验证,本文构建的方法识别效果良好,且多源异构数据融合的识别效果显著优于单源数据。在林业双碳领域,成功识别出核心技术主题——源头减排类(综合能源系统、智能配电网、生物质能减排)、末端治理类(森林土壤固碳技术、热反应二氧化碳捕获、离子液体−碳吸附、复合材料电催化剂制备),覆盖碳减排−碳捕集−碳利用−碳固存全链条,支撑自主控碳林业技术体系构建。【结论】本文提出的识别体系在颠覆性技术挖掘中表现出良好的适用性和稳定性,不仅为林业双碳领域“自主控碳转型”提供了精准的技术识别路径与核心技术清单,也为该方法在其他复杂领域的迁移应用提供了理论基础与实践依据。 展开更多
关键词 主题识别 颠覆性技术 多源异构数据 TNG模型 颠覆性指数 “双碳” 自主控碳
在线阅读 下载PDF
基于潜在影响力预测和多源信息融合的新兴技术识别方法 被引量:1
8
作者 张甜 陈进东 +2 位作者 周晓纪 孙胜凯 张永伟 《情报杂志》 北大核心 2025年第9期134-142,133,共10页
[研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力... [研究目的]针对新兴技术识别在前瞻性预测及单一数据源等方面的不足,提出基于潜在影响力预测和多源信息融合的新兴技术识别方法。[研究方法]首先,从“科学-技术”视角构建影响力评估指标体系,提出基于深度学习模型Bi-LSTM的潜在影响力预测方法,识别未来短期、中期、长期具有高影响力的论文和专利;其次,利用LDA模型提取研究主题,聚类合并科学主题和技术主题,并基于主题演化网络和主题共现网络识别新兴技术;最后,通过新闻数据验证本文方法的有效性,并结合情感分析挖掘公众诉求。[研究结果/结论]以碳中和领域为例,基于本文提出的新兴技术识别方法,识别得到未来短期、中期、长期新兴技术共7项,实验结果验证了潜在影响力预测方法在识别高影响力研究中的有效性,以及融合多源信息的新兴技术识别方法的准确性。 展开更多
关键词 新兴技术识别 多源数据 潜在影响力预测 多源信息融合 主题分析 碳中和
在线阅读 下载PDF
基于多源舆情的区域营商环境评价研究
9
作者 何秀美 朱庆华 沈超 《南京邮电大学学报(社会科学版)》 2025年第2期62-72,共11页
针对区域营商环境所呈现的差异性、动态性特征,构建基于多源舆情的营商环境评价机制,测算营商环境要素水平。为兼顾常态化与突发性要素信息的采集,对来自多源平台的舆情信息基于主题特征进行融合,通过建立舆情信息与营商环境要素的映射... 针对区域营商环境所呈现的差异性、动态性特征,构建基于多源舆情的营商环境评价机制,测算营商环境要素水平。为兼顾常态化与突发性要素信息的采集,对来自多源平台的舆情信息基于主题特征进行融合,通过建立舆情信息与营商环境要素的映射机制,实现大数据驱动的营商环境评价,并以南通、扬州两市为例进行实证研究。分析表明,多源舆情能够更全面地反映营商环境要素。多源舆情融合后评价指标权重动态调整,营商环境指数变化较为明显。多源舆情融合评价在指标体系稳定性、评价结果均衡性等方面较其他评价方法具有一定的优势。 展开更多
关键词 多源舆情 营商环境 市场主体 主题识别 信息融合 要素优化
在线阅读 下载PDF
面向多属性文档的精细化语义模式交互探索方法
10
作者 刘陈一 李杰 沈天舒 《计算机辅助设计与图形学学报》 北大核心 2025年第12期2131-2146,共16页
现有的语义模式探索方式限制了对全局语义模式的理解,少有研究关注保留上下文语义的精细化语义模式探索.文中通过深度结合机器学习和可视化技术,运用面向多属性文档的精细化语义模式可视分析方法,使用户能够在灵活地分析不同属性下的精... 现有的语义模式探索方式限制了对全局语义模式的理解,少有研究关注保留上下文语义的精细化语义模式探索.文中通过深度结合机器学习和可视化技术,运用面向多属性文档的精细化语义模式可视分析方法,使用户能够在灵活地分析不同属性下的精细化语义模式的同时感知全局语义模式.首先引入表征重构网络,得到包含多属性文档语义和属性信息的潜在向量,使主题模型能够更好地识别子空间主题;然后引入人在回路的语义模式可视分析方法,开发了一套包括探索管理器、子空间投影仪和主题解释器的语义模式可视化系统,支持用户选择表征重构的属性子空间,交互探索语义模式,并提供分析结果.基于游戏评论数据集、美国新闻数据集和特朗普大选数据集,采用主题多样性和主题一致性的指标与既有方法进行对比,实验结果表明,所提出的主题模型在主题建模上具有较好的泛用性和灵活性;用户实验包括语义模式探索任务,验证了所提方法和可视化系统在语义模式探索上的出色执行效率和有效性. 展开更多
关键词 语义模式 多属性文档 子空间主题建模 可视分析 交互探索
在线阅读 下载PDF
基于多源数据间主题时序扩散网络的研究前沿探测方法研究
11
作者 李广 吴新年 宁宝英 《数据分析与知识发现》 北大核心 2025年第11期106-118,共13页
【目的】为更准确、前瞻地探测研究前沿,提出一种动态计量多源数据权重的研究前沿探测方法。【方法】采用参数化自然可视图算法构建多源数据间主题时序扩散网络模型;基于网络节点的出度中心性计量数据源权重;建立主题新颖度-密度-强度... 【目的】为更准确、前瞻地探测研究前沿,提出一种动态计量多源数据权重的研究前沿探测方法。【方法】采用参数化自然可视图算法构建多源数据间主题时序扩散网络模型;基于网络节点的出度中心性计量数据源权重;建立主题新颖度-密度-强度指标体系,结合对应三维坐标图区分研究前沿。【结果】在人工智能领域进行实证,动态计算出数据源权重:战略规划0.301、科技报告0.234、基金项目0.124、专利文献0.122、会议论文0.113、期刊论文0.105;探测出8个新兴型和3个生长型研究前沿主题。【局限】判定阈值的设定依赖人工研判,学科普适性有待进一步验证。【结论】该方法可改善研究前沿探测中数据源权重设定依赖专家经验的问题,能够有效识别领域研究前沿,并为研究前沿探测提供“主题时序扩散”新视角。 展开更多
关键词 研究前沿 多源数据 主题扩散 社会网络
原文传递
静定结构内力计算的几种方法
12
作者 魏鹏云 李朝阳 +1 位作者 李勇 洪顺军 《工程与试验》 2025年第2期1-5,共5页
静定结构的内力求解是结构力学的重要内容。为了加深学生对静定结构内力计算方法的理解,本文采用涉及材料力学及结构力学的7种方法对同一简支梁受相同荷载作用下指定截面的弯矩和剪力进行了求解。采用结构力学求解器对结果进行了验证,并... 静定结构的内力求解是结构力学的重要内容。为了加深学生对静定结构内力计算方法的理解,本文采用涉及材料力学及结构力学的7种方法对同一简支梁受相同荷载作用下指定截面的弯矩和剪力进行了求解。采用结构力学求解器对结果进行了验证,并对7种方法进行了归纳比较。在教学活动中采用一题多解的方法可以调动学生的学习兴趣和积极性,从而提高教学质量。 展开更多
关键词 静定结构 弯矩 剪力 一题多解 结构力学求解器
在线阅读 下载PDF
新工科视域下本科毕业设计“双创”质量提升途径研究
13
作者 高清振 潘道远 梅烨 《科教导刊》 2025年第36期79-81,共3页
毕业设计是本科教育至关重要的一环,尤其在当前新工科背景下,更是培养学生创新思维和创业实践能力的重要途径。文章围绕本科毕业设计多方位选题和强化过程管理两方面问题,探讨了校企合作、学科竞赛、创新创业项目、科研课题、研究文献... 毕业设计是本科教育至关重要的一环,尤其在当前新工科背景下,更是培养学生创新思维和创业实践能力的重要途径。文章围绕本科毕业设计多方位选题和强化过程管理两方面问题,探讨了校企合作、学科竞赛、创新创业项目、科研课题、研究文献、学生自拟、签约单位及系统关联选题对培养学生创新思维的意义,并分析了参考最新文献、引用最新方法,提前进入课题,运用专业软件、闭环检查及英文撰写论文对夯实学生实践能力的作用。该研究可以促进高校不断完善“双创”教育模式,为培养适应新工科发展需求的“双创”人才提供借鉴。 展开更多
关键词 本科毕业设计 多方位选题 “双创”培养
在线阅读 下载PDF
高校学报专刊建设实践探索与优化策略
14
作者 刘炜 庞晓鑫 《齐齐哈尔高等师范专科学校学报》 2025年第6期72-75,共4页
专刊是高校学报走特色化、专业化发展的必由之路,《广西大学学报(自然科学版)》专刊实践历程表明,选题成功是专刊建设成功的关键,专刊编辑出版过程中编辑与组稿专家、外审专家等协作、规范工作流程是专刊质量保障的核心,而编辑的学术素... 专刊是高校学报走特色化、专业化发展的必由之路,《广西大学学报(自然科学版)》专刊实践历程表明,选题成功是专刊建设成功的关键,专刊编辑出版过程中编辑与组稿专家、外审专家等协作、规范工作流程是专刊质量保障的核心,而编辑的学术素养、社交素养、新媒体传播素养等综合素养的形成是专刊建设成功的基础。 展开更多
关键词 专刊 选题策划 多主体协作 编辑素养
在线阅读 下载PDF
融合多维特征测度与神经网络的技术前沿识别方法
15
作者 廖姗姗 姜楠 +3 位作者 康娅 孙巍 吴蕾 李周晶 《数字图书馆论坛》 2025年第7期31-41,共11页
技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗... 技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗口下的时序主题聚类。其次,构建涵盖新颖性、增长性、市场价值、影响力、主题交叉性、开发投入度6个二级维度的指标体系,并进一步归纳为技术新颖性、技术增长力和技术主题热度指数3个一级维度,再通过前馈神经网络实现主题特征学习与主题前沿性量化评估。最后,以作物育种领域为例,结合定性与定量分析开展实证研究,验证了模型在识别精度和决策支持效度上的优势。 展开更多
关键词 技术前沿 技术识别 主题识别 机器学习 神经网络 多维特征 作物育种
在线阅读 下载PDF
融合双层专利挖掘与技术结构的关键核心技术识别——以超硬材料为例
16
作者 刘建华 陈子洹 王慧扬 《情报杂志》 北大核心 2025年第12期107-117,共11页
[研究目的]本研究聚焦关键核心技术识别领域,以超硬材料为例,提出一种融合双层专利挖掘与技术结构的关键核心技术识别方法。[研究方法]在明确关键核心技术概念特征的基础上,设计了一套综合识别框架,包括专利的提取与关键核心技术识别两... [研究目的]本研究聚焦关键核心技术识别领域,以超硬材料为例,提出一种融合双层专利挖掘与技术结构的关键核心技术识别方法。[研究方法]在明确关键核心技术概念特征的基础上,设计了一套综合识别框架,包括专利的提取与关键核心技术识别两大步骤。专利提取环节采用“引入时间衰变因子”的改进PageRank算法进行核心性专利的抽取,之后根据关键核心技术的特征概念构建评价指标,通过CRITIC赋权法计算专利得分以提取价值性专利;关键核心技术识别环节则通过构建技术领域权重系数指标以提取基于IPC4分类号的核心技术子领域,并采用LDA主题建模引入主题强度指标进行核心技术子领域技术主题判别,据此识别关键核心技术。[研究结果/结论]以超硬材料领域为例,通过专利数据进行实证分析,成功提取了具有核心性和价值性的专利数据集,进一步识别出9个核心技术子领域和11个核心技术主题,将核心技术主题判别为关键核心技术,最后以H01M(电学电池设备)和C22C(合金)技术子领域为例进行了可视化分解,并经政策验证结果可行性。本文提出的识别框架在技术分布特征、政策契合度与跨领域协同性方面均表现出较高的有效性和实用性,为超硬材料及相关产业的技术突破和产业发展提供了决策依据。 展开更多
关键词 关键核心技术识别 超硬材料 多层专利挖掘与评估 LDA主题模型
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
17
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
18
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
在线阅读 下载PDF
基于向量空间模型的多主题Web文本分类方法 被引量:14
19
作者 周炎涛 唐剑波 吴正国 《计算机应用研究》 CSCD 北大核心 2008年第1期142-144,共3页
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,... 对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。 展开更多
关键词 向量空间模型 文本分类 多主题 数据挖掘
在线阅读 下载PDF
基于主题的Web文本聚类方法 被引量:4
20
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 WEB文本 聚类 特征词 准确率
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部