期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于情感增强非参数模型的社交媒体观点聚类
1
作者 刘勘 陈昱 何佳瑞 《中文信息学报》 北大核心 2025年第3期148-158,共11页
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该... 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 展开更多
关键词 观点分析 短文本流聚类 非参数模型 社交媒体
在线阅读 下载PDF
结合对比学习和双流网络融合知识图谱摘要模型 被引量:3
2
作者 赵霞 王钊 《计算机应用研究》 北大核心 2025年第3期720-727,共8页
提出了一种融合对比学习与双流网络的新型知识图谱摘要模型(KGDR-CLSUM),旨在解决现有模型在生成摘要时存在的事实性错误和信息提取不足的问题。该模型通过设计双流网络同时处理文本特征和知识图谱特征,并采用对比学习来强化这两类特征... 提出了一种融合对比学习与双流网络的新型知识图谱摘要模型(KGDR-CLSUM),旨在解决现有模型在生成摘要时存在的事实性错误和信息提取不足的问题。该模型通过设计双流网络同时处理文本特征和知识图谱特征,并采用对比学习来强化这两类特征的有效融合。此外,引入动量蒸馏策略以降低知识图谱中的数据噪声,从而提升摘要生成的质量和准确性。在CNN/Daily Mail数据集上,KGDR-CLSUM相较于基线模型PEGASUS BASE,在ROUGE-1、ROUGE-2和ROUGE-L指标上分别提升了3.03%、3.42%和2.56%,在XSum数据集上更是达到了7.54%、8.78%和8.51%的显著提升。此外,人工评分显著高于ChatGPT,进一步证明了该模型的优越性能。结果表明,KGDR-CLSUM在生成摘要时,尤其在短文本生成任务中,能够有效降低错误信息,并显著提高摘要的质量。 展开更多
关键词 文本摘要 知识图谱 动量蒸馏 对比学习 双流网络
在线阅读 下载PDF
基于GBDT和双层漂移检测的用户评论分类算法 被引量:1
3
作者 章涂义 刘三民 《湖北民族大学学报(自然科学版)》 2025年第1期60-66,共7页
为应对用户评论数据流中的概念漂移问题并提高算法的准确率,提出基于梯度提升决策树(gradient boosted decision tree, GBDT)和双层漂移检测(GBDT with double-layer drift detection, GBDT-D3)的用户评论分类算法。首先,通过计算GBDT... 为应对用户评论数据流中的概念漂移问题并提高算法的准确率,提出基于梯度提升决策树(gradient boosted decision tree, GBDT)和双层漂移检测(GBDT with double-layer drift detection, GBDT-D3)的用户评论分类算法。首先,通过计算GBDT算法中的损失改进比率快速检测潜在漂移。接着,在漂移警告基础上监测数据块中样本质心的移动情况,以精确验证漂移。然后,通过双层漂移检测机制降低用户评论数据流中的漂移误报与漏报,同时增强对动态文本数据流的分类。最后,根据双层漂移检测报告更新GBDT算法,提升分类算法的稳定性。在7个真实用户兴趣漂移文本数据集上开展实验,结果表明GBDT-D3算法在分类准确性和性能稳定性方面明显优于传统在线集成学习算法。GBDT-D3算法能够高效识别用户评论数据流中的概念漂移并增强分类精度,为动态文本数据流的分类任务提供了有效解决方案。 展开更多
关键词 文本数据流分类 概念漂移检测 用户评论 梯度提升决策树 数据分布
在线阅读 下载PDF
整体性治理理论视域下我国医疗联合体的发展特征及探究——基于NVivo的文本分析
4
作者 谢采璇 邹冠炀 朱磊 《中国农村卫生事业管理》 2025年第4期258-264,共7页
目的在分级诊疗政策背景下,通过探究我国医疗联合体(简称医联体)发展现状,提出完善医联体建设的发展策略。方法基于整体性治理理论和多源流框架形成二维分析框架,运用NVivo 20软件对医联体相关政策文本进行词频分析和编码分析,探索医联... 目的在分级诊疗政策背景下,通过探究我国医疗联合体(简称医联体)发展现状,提出完善医联体建设的发展策略。方法基于整体性治理理论和多源流框架形成二维分析框架,运用NVivo 20软件对医联体相关政策文本进行词频分析和编码分析,探索医联体的发展脉络及内外特征。结果医联体的发展归纳为三个阶段:形成阶段(2013—2017)、协调阶段(2018—2020)和整合阶段(2021—)。目前医联体建设中,基层服务能力发展不平衡,需构建家庭医生支持网络;中医医联体起步较晚,需有效拓宽资源与人才供给通道;资源共享不充分,需创新资源协同机制;信息技术融合度较低,需加快推动智能化医疗服务。结论该研究在深入挖掘政策内容过程中,提炼出医联体的发展特征和局限性,并提出针对性的对策建议,为完善医联体建设提供参考和借鉴。 展开更多
关键词 医联体 整体性治理 多源流框架 文本分析 NVivo
原文传递
Analysis of the Characteristics of Cross-cultural Communication in Cross-border E-commerce Live Streaming Texts:A Case Study Based on Amazon and Alibaba International Station
5
作者 Yu DING Yihua HUANG Mei ZHANG 《Integration of Industry and Education Journal》 2025年第2期22-28,共7页
With the acceleration of global market integration,cross-border e-commerce live streaming has emerged as a new form of international trade,yet scholarly research on its cross-cultural communication remains limited.Thi... With the acceleration of global market integration,cross-border e-commerce live streaming has emerged as a new form of international trade,yet scholarly research on its cross-cultural communication remains limited.This study examines live streaming practices on Amazon and Alibaba International Station to analyze the cross-cultural characteristics of live streaming texts.Effective communication in this context requires anchors to possess solid cultural knowledge,adaptable communicative skills,and an open,inclusive mindset.Drawing on these findings,the paper proposes targeted optimization strategies:strengthening cultural awareness training,localizing live streaming content,and refining both linguistic and non-verbal communication strategies.These measures aim to enable practitioners to better meet the demands of diverse cultural markets,enhance communication effectiveness,and ultimately strengthen competitiveness in the global marketplace. 展开更多
关键词 Cross-border e-commerce live streaming Cross-cultural communication Live streaming text
在线阅读 下载PDF
多源流理论视角下公立医院薪酬制度改革变迁动力分析
6
作者 李璠 吴烨 +2 位作者 周典 田帝 张雨晨 《中国医院管理》 北大核心 2025年第6期1-5,共5页
目的 探寻我国公立医院薪酬制度改革的变迁动力,为进一步完善公立医院薪酬制度提供科学依据和政策建议。方法 采用多源流理论框架,结合文献计量分析与政策文本分析,深入理解公立医院薪酬制度改革的因素。结果 问题源流聚焦薪酬水平低、... 目的 探寻我国公立医院薪酬制度改革的变迁动力,为进一步完善公立医院薪酬制度提供科学依据和政策建议。方法 采用多源流理论框架,结合文献计量分析与政策文本分析,深入理解公立医院薪酬制度改革的因素。结果 问题源流聚焦薪酬水平低、结构失衡及激励不足:卫生和社会工作就业人员的平均工资仅为社会平均工资的1.19倍,基本工资与津贴补贴占比不足。政策源流基于学术界长期研究成果积累及地方试点经验:2002—2025年,对医院薪酬的关注度持续上升;三明市的改革试点使医务人员平均年薪增长率达到11.87%。政治源流则依托政府“健康中国”战略导向及公众舆论导向:1993至今,公立医院薪酬制度改革分为3个阶段,改革目标逐渐聚焦于构建科学合理的薪酬分配体系。在三者协同作用下打开了公立医院制度薪酬改革的“政策之窗”。结论 应构建动态的薪酬调整机制,鼓励专家和利益相关者参与政策制定,以更好地响应国家改革导向。 展开更多
关键词 多源流理论 公立医院 薪酬制度 文献计量分析 政策文本分析
暂未订购
异构数字媒体流数据的实时关联挖掘
7
作者 陈文庆 《现代电子技术》 北大核心 2025年第22期56-60,共5页
为有效捕捉数据流不同模态之间的关联,提高数据挖掘效果,提出一种异构数字媒体流数据的实时关联挖掘方法。通过滑动窗口处理异构数字媒体流数据,提取具有潜在价值的候选数据,并输入到异构数字媒体流数据关联挖掘双路分支框架中。文本模... 为有效捕捉数据流不同模态之间的关联,提高数据挖掘效果,提出一种异构数字媒体流数据的实时关联挖掘方法。通过滑动窗口处理异构数字媒体流数据,提取具有潜在价值的候选数据,并输入到异构数字媒体流数据关联挖掘双路分支框架中。文本模态分支通过BERT-Large与双向GRU网络学习文本模态数字媒体流数据的特征表示,再构建文本连接图并结合GCN建模文本模态关系,提取文本模态数字媒体流数据特征。视觉模态分支利用Faster-RCNN以及多头注意力的GCN建模视觉模态关系,得到视觉模态数字媒体流数据特征;采用交叉注意力机制捕捉跨模态间的关联性,生成融合后的视觉、文本模态数字媒体流数据特征,数据挖掘模块通过在语义空间中计算二者相似度,实现异构数字媒体流数据关联挖掘。实验结果表明,所提方法可实现不同模态数字媒体流数据关联挖掘,挖掘结果与待查询媒体事件高度匹配,Recall@5、MRR指标分别为0.50、0.40,挖掘时间低于0.2 s。 展开更多
关键词 数字媒体 关联挖掘 媒体流数据 滑动窗口 BERT-Large 双向GRU网络 文本连接图 交叉注意力机制
在线阅读 下载PDF
Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features 被引量:10
8
作者 Zachary Miller Brian Dickinson Wei Hu 《International Journal of Intelligence Science》 2012年第4期143-148,共6页
The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts... The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts to learn about the author of the text through subtle variations in the writing styles that occur between gender, age and social groups. Such information has a variety of applications including advertising and law enforcement. One of the most accessible sources of user-generated data is Twitter, which makes the majority of its user data freely available through its data access API. In this study we seek to identify the gender of users on Twitter using Perceptron and Nai ve Bayes with selected 1 through 5-gram features from tweet text. Stream applications of these algorithms were employed for gender prediction to handle the speed and volume of tweet traffic. Because informal text, such as tweets, cannot be easily evaluated using traditional dictionary methods, n-gram features were implemented in this study to represent streaming tweets. The large number of 1 through 5-grams requires that only a subset of them be used in gender classification, for this reason informative n-gram features were chosen using multiple selection algorithms. In the best case the Naive Bayes and Perceptron algorithms produced accuracy, balanced accuracy, and F-measure above 99%. 展开更多
关键词 TWITTER GENDER Identification stream MINING N-GRAM Feature Selection text MINING
暂未订购
多源流理论视域下乡村教师队伍建设的政策演进研究——基于新时代以来政策文本分析
9
作者 黄剑平 周钧 牛炅 《教育学术月刊》 CSSCI 北大核心 2024年第11期44-51,共8页
乡村教师队伍建设对实现乡村教育振兴具有重要意义。进入新时代以来,国家出台一系列有关乡村教师队伍建设的政策,乡村教师政策大体上经历了深化发展阶段和完善发展阶段。通过采用文本分析法对38份乡村教师政策进行梳理及分析其演进脉络... 乡村教师队伍建设对实现乡村教育振兴具有重要意义。进入新时代以来,国家出台一系列有关乡村教师队伍建设的政策,乡村教师政策大体上经历了深化发展阶段和完善发展阶段。通过采用文本分析法对38份乡村教师政策进行梳理及分析其演进脉络,借助多源流理论对乡村教师政策的变迁历程进行解读,发现在教育现状指标作为问题源流、国家教育战略方针构成政治源流、专家学者的政策建议与地方政府的政策实践形成政策源流的前提下,三流耦合打开政策之窗,开启了乡村教师队伍建设的高质量发展新进程。对新时代乡村教师政策进行梳理与总结,有利于更好地把握、理解政策走向与意涵。 展开更多
关键词 乡村教师 政策文本 政策演进 多源流理论
原文传递
直播助农消费者满意度影响因素研究——基于在线评论的文本挖掘和机器学习技术 被引量:1
10
作者 张岚杰 孙艺铭 +1 位作者 陈迪 张俊妍 《农业科技与装备》 2024年第4期128-130,共3页
在数字经济发展的背景下,电商直播为农产品销售模式带来了创新变革,成为促进农产品流通和乡村振兴的关键途径。利用消费者在线评论数据,采用文本挖掘和机器学习技术深入分析影响消费者满意度的主要因素。结果表明,农产品的品种、口味、... 在数字经济发展的背景下,电商直播为农产品销售模式带来了创新变革,成为促进农产品流通和乡村振兴的关键途径。利用消费者在线评论数据,采用文本挖掘和机器学习技术深入分析影响消费者满意度的主要因素。结果表明,农产品的品种、口味、价格、产地及直播间氛围等因素对消费者满意度有显著影响,其中口味、商品品质、价格和直播环境是提升满意度的关键。对此,为直播电商平台和从业者提供策略指导,以增强农产品市场竞争力、推动乡村振兴。 展开更多
关键词 助农直播 消费者满意度 影响因素 文本挖掘 机器学习技术
在线阅读 下载PDF
一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法 被引量:15
11
作者 王琳 冯时 +3 位作者 徐伟丽 杨卓 王大玲 张一飞 《计算机应用与软件》 CSCD 北大核心 2012年第8期25-29,94,共6页
微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微... 微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。 展开更多
关键词 微博客 噪音微博 相似微博 文本流 过滤
在线阅读 下载PDF
基于流信息距离的多文本流热点挖掘 被引量:5
12
作者 杨宁 唐常杰 +3 位作者 王悦 陈瑜 郑皎凌 李红军 《软件学报》 EI CSCD 北大核心 2011年第8期1761-1770,共10页
把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其... 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 展开更多
关键词 热点挖掘 多文本流 流信息距离 冗余信息 Kolmogorov复杂度
在线阅读 下载PDF
短文本信息流的无监督会话抽取技术 被引量:19
13
作者 黄九鸣 吴泉源 +3 位作者 刘春阳 张旭 贾焰 周斌 《软件学报》 EI CSCD 北大核心 2012年第4期735-747,共13页
文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性... 文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%. 展开更多
关键词 会话抽取 短文本 短文本信息流 无监督 时序特征 上下文相关度
在线阅读 下载PDF
基于AC-Trie的在线社交网络文本流热点短语挖掘 被引量:3
14
作者 黄九鸣 吴泉源 +3 位作者 张圣栋 贾焰 刘东 周斌 《电子学报》 EI CAS CSCD 北大核心 2016年第10期2466-2470,共5页
在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件.本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术.首先用文本流的某个典型时段采样得到候选短语,构建ACTrie前缀树.然后,基于该前缀树,单遍... 在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件.本文提出了一种无需分词并能支持多种热度度量函数的热点短语挖掘技术.首先用文本流的某个典型时段采样得到候选短语,构建ACTrie前缀树.然后,基于该前缀树,单遍扫描后续的文本流,将候选短语的历史出现频率记录在Trie相应节点上,从而支持多种基于历史频率的热度计算方法.此外,为及时发现新的热点短语并减少AC-Trie的构建次数,本文通过分析Trie树各节点上的遗漏短语频率,动态确定候选短语的更新时机.新浪微博数据集上的实验验证了本文方法的有效性(准确率达89%)和高效性(时空开销仅为基准算法的2%). 展开更多
关键词 文本流 热点短语 AC-Trie 文本挖掘 在线社交网络
在线阅读 下载PDF
面向微博文本流的负面情感突发话题检测 被引量:6
15
作者 李艳红 赵宏伟 +1 位作者 王素格 李德玉 《计算机应用》 CSCD 北大核心 2020年第12期3458-3464,共7页
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话... 如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。 展开更多
关键词 微博 文本流 突发话题 负面情感 狄利克雷多项式混合模型
在线阅读 下载PDF
基于Squeezer算法的文本数据流聚类 被引量:3
16
作者 尤薇佳 刘鲁 +1 位作者 刘丹 李明 《控制与决策》 EI CSCD 北大核心 2012年第4期542-546,共5页
为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通... 为解决数据流聚类中的"链式数据"问题以及文本数据流存在的高维、稀疏、多主题问题,以Squeezer聚类算法为基础,重新定义了聚类过程中类的质心、半径和判别距离.提出了一种改进算法,通过加入数据预处理环节来提高聚类精度,通过投影聚类提高聚类效率并为簇赋予语义.最后通过在互联网新闻语料的聚类实验,表明了所提出的算法能够以较小的速度代价换来聚类效果的大幅提升,性能显著优于Squeezer算法. 展开更多
关键词 文本数据流 Squeezer算法 投影聚类
原文传递
基于特征本体的文本流主题演化 被引量:3
17
作者 陈千 桂志国 +1 位作者 郭鑫 向阳 《计算机应用》 CSCD 北大核心 2015年第2期456-460,465,共6页
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库Word Net构建特征本体,用特征本... 针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库Word Net构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(n K+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。 展开更多
关键词 文本流 主题建模 特征本体 主题演化 词共现
在线阅读 下载PDF
基于特征扩展的微博短文本流热点话题检测方法 被引量:3
18
作者 李艳红 谢梦娜 +1 位作者 王素格 李德玉 《数据采集与处理》 CSCD 北大核心 2022年第3期621-632,共12页
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短... 随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。 展开更多
关键词 微博短文本流 特征扩展 热点话题 用户影响力 增量聚类
在线阅读 下载PDF
文本流多粒度主题结构建模研究 被引量:2
19
作者 陈千 郭鑫 +1 位作者 王素格 张虎 《中文信息学报》 CSCD 北大核心 2015年第1期118-125,共8页
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,... 主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。 展开更多
关键词 主题检测 多粒度主题建模 文本流
在线阅读 下载PDF
适于垃圾文本流过滤的条件概率集成方法 被引量:2
20
作者 刘伍颖 王挺 《计算机科学与探索》 CSCD 2010年第5期445-454,共10页
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07... 通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。 展开更多
关键词 垃圾过滤 文本流 集成条件概率 语汇序列 索引
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部