期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
基于迁移学习的农业短文本语义相似度计算方法
1
作者 金宁 郭宇峰 +2 位作者 韩晓东 缪祎晟 吴华瑞 《智慧农业(中英文)》 2025年第1期33-43,共11页
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Represe... [目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT (Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。[方法] CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法 CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT (Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。[结果和讨论] CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM (Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。[结论] CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。 展开更多
关键词 迁移学习 农业短文本 语义相似度计算 字形特征 知识智能服务 大模型
在线阅读 下载PDF
基于社交媒体平台的短文本相似性度量方法及应用综述
2
作者 范星 周晓航 张宁 《计算机科学》 北大核心 2025年第S1期157-164,共8页
短文本相似性度量作为自然语言处理领域中的一项关键任务,随着社交媒体平台的用户活跃度不断攀升,短文本数据已成为互联网信息传播的核心载体。这类数据对于企业在大数据中深入理解消费者情感、精准描绘用户画像具有显著的应用价值。文... 短文本相似性度量作为自然语言处理领域中的一项关键任务,随着社交媒体平台的用户活跃度不断攀升,短文本数据已成为互联网信息传播的核心载体。这类数据对于企业在大数据中深入理解消费者情感、精准描绘用户画像具有显著的应用价值。文中首先对短文本相似性度量方法进行了系统梳理,将其归结为基于字符串的方法、基于词向量的方法以及基于深度学习的方法3类,并深入探讨了不同方法的优势与局限性。其次,聚焦于短文本相似性在企业商业分析中的实际运用,揭示了短文本相似性度量如何助力企业洞察消费者意见、态度以及优化市场营销策略。最后,研究对社交媒体平台短文本相似性度量所面临的挑战进行了全面总结,并对未来的发展前景进行了展望,旨在为相关研究者提供有益的参考和启示。 展开更多
关键词 短文本相似性 社交媒体平台 基于字符串 基于词向量 深度学习 情感分析 用户分析
在线阅读 下载PDF
一种基于WordNet的短文本语义相似性算法 被引量:35
3
作者 翟延冬 王康平 +2 位作者 张东娜 黄岚 周春光 《电子学报》 EI CAS CSCD 北大核心 2012年第3期617-620,共4页
短文本语义相似性计算在文献检索、信息抽取、文本挖掘等方面应用日益广泛.本文提出了一种短文本语义相似性计算算法ST-CW.此算法使用WordNet和Brown文集来计算文本中的概念相似性,在此基础上提出了一个新的方法综合考虑概念、句法等信... 短文本语义相似性计算在文献检索、信息抽取、文本挖掘等方面应用日益广泛.本文提出了一种短文本语义相似性计算算法ST-CW.此算法使用WordNet和Brown文集来计算文本中的概念相似性,在此基础上提出了一个新的方法综合考虑概念、句法等信息来计算短文本的语义相似性.在R&B及Miller数据集上进行实验,实验结果验证了算法的有效性. 展开更多
关键词 短文本语义相似性 WORDNET 基于文集的方法
在线阅读 下载PDF
结合语义改进的K-means短文本聚类算法 被引量:15
4
作者 邱云飞 赵彬 +1 位作者 林明明 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第19期78-83,共6页
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集... 针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 展开更多
关键词 文本挖掘 短文本聚类 K-MEANS算法 最大频繁词集 知网 语义相似度
在线阅读 下载PDF
基于LDA主题模型的短文本分类方法 被引量:80
5
作者 张志飞 苗夺谦 高灿 《计算机应用》 CSCD 北大核心 2013年第6期1587-1590,共4页
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网... 针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。 展开更多
关键词 短文本 分类 K近邻 相似度 隐含狄列克雷分配
在线阅读 下载PDF
基于语义与最大匹配度的短文本分类研究 被引量:18
6
作者 孙建旺 吕学强 张雷瀚 《计算机工程与设计》 CSCD 北大核心 2013年第10期3613-3618,共6页
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出... 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。 展开更多
关键词 短文本分类 义原相似度 词语相似度 语义 最大匹配度 KNN算法
在线阅读 下载PDF
基于词向量和EMD距离的短文本聚类 被引量:11
7
作者 黄栋 徐博 +2 位作者 许侃 林鸿飞 杨志豪 《山东大学学报(理学版)》 CAS CSCD 北大核心 2017年第7期66-72,共7页
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示... 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。 展开更多
关键词 短文本 EMD距离 词向量 相似度计算 聚类
原文传递
中文短文本聚合模型研究 被引量:12
8
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
在线阅读 下载PDF
基于词矢量相似度的短文本分类 被引量:6
9
作者 马成龙 姜亚松 +2 位作者 李艳玲 张艳 颜永红 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第12期18-22,35,共6页
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢... 互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%-2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。 展开更多
关键词 短文本分类 词矢量相似度 集外词
原文传递
基于特征词向量的短文本聚类算法 被引量:9
10
作者 刘欣 佘贤栋 +1 位作者 唐永旺 王波 《数据采集与处理》 CSCD 北大核心 2017年第5期1052-1060,共9页
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous s... 针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。 展开更多
关键词 短文本 特征词 词向量 相似度计算 聚类
在线阅读 下载PDF
基于LDA主题模型的短文本分类 被引量:19
11
作者 杨萌萌 黄浩 +2 位作者 程露红 马平 包武杰 《计算机工程与设计》 北大核心 2016年第12期3371-3377,共7页
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主... 针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。 展开更多
关键词 潜在狄利克雷分布(LDA) 向量空间模型(VSM) 短文本分类 K近邻(K-nearest neighbor) 吉布斯采样 相似度计算
在线阅读 下载PDF
短文本相似度研究及其在微博话题检测中的应用 被引量:11
12
作者 黄贤英 陈红阳 刘英涛 《计算机工程与设计》 北大核心 2015年第11期3128-3133,共6页
针对微博短文本特征稀疏导致文本相似性度量不精确的问题,提出一种基于多视角的微博短文本相似度算法。根据词形相同与词义相近寻找微博短文本中的公共块,以公共块所含词项总数与公共块之间的组合顺序,构建基于公共块序列的语义相似度;... 针对微博短文本特征稀疏导致文本相似性度量不精确的问题,提出一种基于多视角的微博短文本相似度算法。根据词形相同与词义相近寻找微博短文本中的公共块,以公共块所含词项总数与公共块之间的组合顺序,构建基于公共块序列的语义相似度;利用微博短文本发布时间、转发与评论等信息来修正该语义相似度,形成新的微博短文本相似度算法,度量微博短文本之间的相似性;将新的微博短文本相似度算法融入Single-Pass聚类算法中以检测微博话题。实验结果表明,将该算法应用于微博话题检测时,能够有效降低话题检测的平均漏检率与误检率等,提高了话题检测的质量。 展开更多
关键词 微博短文本相似度 微博话题检测 结构化信息 公共块序列 语义相似度
在线阅读 下载PDF
动态向量的中文短文本聚类 被引量:10
13
作者 金春霞 周海岩 《计算机工程与应用》 CSCD 北大核心 2011年第33期156-158,共3页
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量... 因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。 展开更多
关键词 短文本 文本相似度 动态表示向量 文本聚类 K-MEANS算法
在线阅读 下载PDF
基于词项语义映射的短文本相似度算法 被引量:11
14
作者 黄贤英 张金鹏 +1 位作者 刘英涛 赵明军 《计算机工程与设计》 北大核心 2015年第6期1514-1518,1534,共6页
针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依... 针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和HowNet语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。 展开更多
关键词 How Net语义词典 词性向量 语义维度映射 词项词频 短文本相似度算法
在线阅读 下载PDF
结合词性的短文本相似度算法及其在文本分类中的应用 被引量:11
15
作者 黄贤英 李沁东 刘英涛 《电讯技术》 北大核心 2017年第1期78-82,共5页
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对... 针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。 展开更多
关键词 短文本分类 短文本相似度 词性 hownet语义 分类准确率
在线阅读 下载PDF
基于上下文的短信文本分类方法 被引量:13
16
作者 刘金岭 严云洋 《计算机工程》 CAS CSCD 北大核心 2011年第10期41-43,共3页
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统... 针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。 展开更多
关键词 短信文本 词语共现 上下文 词语相似度 短信文本分类
在线阅读 下载PDF
基于属性主题分割的评论短文本词向量构建优化算法 被引量:6
17
作者 李志宇 梁循 周小平 《中文信息学报》 CSCD 北大核心 2016年第5期101-110,120,共11页
从词向量的训练模式入手,研究了基于语料语句分割(BWP)算法,分隔符分割(BSP)算法以及属性主题分割(BTP)算法三种分割情况下的词向量训练结果的优劣。研究发现,由于评论短文本的自身特征,传统的无分割(NP)训练方法,在词向量训练结果的准... 从词向量的训练模式入手,研究了基于语料语句分割(BWP)算法,分隔符分割(BSP)算法以及属性主题分割(BTP)算法三种分割情况下的词向量训练结果的优劣。研究发现,由于评论短文本的自身特征,传统的无分割(NP)训练方法,在词向量训练结果的准确率和相似度等方面与BWP算法、BSP算法以及BTP算法具有明显的差异。通过对0.7亿条评论短文本进行词向量构建实验对比后发现,该文所提出的BTP算法在同义词(属性词)测试任务上获得的结果是最佳的,因此BTP算法对于优化评论短文本词向量的训练,评论短文本属性词的抽取以及情感倾向分析等在内的,以词向量为基础的应用研究工作具有较为重要的实践意义。同时,该文在超大规模评论语料集上构建的词向量(开源)对于其他商品评论文本分析的应用任务具有较好可用性。 展开更多
关键词 在线评论 短文本 词向量 相似度计算
在线阅读 下载PDF
基于LDA的多特征融合的短文本相似度计算 被引量:9
18
作者 张小川 余林峰 张宜浩 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征... 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 展开更多
关键词 LDA 主题模型 短文本相似度 主题相似度 词语共现度
在线阅读 下载PDF
一种基于复杂网络的短文本语义相似度计算 被引量:14
19
作者 詹志建 杨小平 《中文信息学报》 CSCD 北大核心 2016年第4期71-80,89,共11页
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立... 将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。 展开更多
关键词 复杂网络 综合特征值 短文本 语义相似度
在线阅读 下载PDF
基于BTM的微博舆情热点发现 被引量:30
20
作者 王亚民 胡悦 《情报杂志》 CSSCI 北大核心 2016年第11期119-124,140,共7页
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信... [目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。 展开更多
关键词 词对主题模型 短文本 微博舆情 相似性度量
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部