期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
Similarity matrix-based K-means algorithm for text clustering 被引量:1
1
作者 曹奇敏 郭巧 吴向华 《Journal of Beijing Institute of Technology》 EI CAS 2015年第4期566-572,共7页
K-means algorithm is one of the most widely used algorithms in the clustering analysis. To deal with the problem caused by the random selection of initial center points in the traditional al- gorithm, this paper propo... K-means algorithm is one of the most widely used algorithms in the clustering analysis. To deal with the problem caused by the random selection of initial center points in the traditional al- gorithm, this paper proposes an improved K-means algorithm based on the similarity matrix. The im- proved algorithm can effectively avoid the random selection of initial center points, therefore it can provide effective initial points for clustering process, and reduce the fluctuation of clustering results which are resulted from initial points selections, thus a better clustering quality can be obtained. The experimental results also show that the F-measure of the improved K-means algorithm has been greatly improved and the clustering results are more stable. 展开更多
关键词 text clustering K-means algorithm similarity matrix F-MEASURE
在线阅读 下载PDF
基于语义相似和变分自编码器的非负矩阵分解主题模型
2
作者 徐洋 张月义 +1 位作者 周涵婷 胡静 《现代电子技术》 北大核心 2025年第24期113-120,共8页
为解决传统NMF主题模型难以处理短文本数据稀疏性,以及随机初始化导致聚类结果不稳定的问题,提出一种基于语义相似和变分自编码器的非负矩阵分解主题模型(VSNMF)。该模型在传统的NMF基础上引入单词共现和文本相似度的正则化约束,保证因... 为解决传统NMF主题模型难以处理短文本数据稀疏性,以及随机初始化导致聚类结果不稳定的问题,提出一种基于语义相似和变分自编码器的非负矩阵分解主题模型(VSNMF)。该模型在传统的NMF基础上引入单词共现和文本相似度的正则化约束,保证因子矩阵的近似正交性,从而缓解数据稀疏性的缺点,使模型适应不同长度的文本数据集。同时,利用变分自编码器(VAE)初始化因子矩阵,将编码器最后一层输出的直接作为因子矩阵,以增强模型的收敛性和稳定性。在4个不同长度的文本数据集上,将所提出的VSNMF模型与其他模型进行对比,得出该模型优于对比模型,在BBCNews、BBCsport、AGNews、Snippets数据集上的聚类准确率(ACC)分别为94.3%、96.1%、81.5%、93.8%;基于VAE的初始化方法具有良好的收敛性和稳定性,模型分别经过30、40、40、40次的迭代就已经收敛,聚类准确率的标准差分别为0.3、0.0、1.0、0.0。实验结果表明,VSNMF模型对不同长度的文本数据集具有良好适应性和泛化能力,VAE的初始化方法加快了模型的收敛性,提高了聚类的稳定性。 展开更多
关键词 主题模型 非负矩阵分解 变分自编码器 文本相似度 正则化约束 因子矩阵
在线阅读 下载PDF
融合评论与评分的个性化推荐方法
3
作者 杜文娜 王乐 陈泽华 《小型微型计算机系统》 北大核心 2025年第7期1562-1570,共9页
现有的基于评论与评分的方法通常使用相同的模型分别对用户和项目进行建模,但其局限在浅层特征层面,如果能够充分挖掘用户个性化偏好与项目深层特征,则会促进模型学习两种表示之间更深层次的关系从而提升预测结果.因此,本文提出一种融... 现有的基于评论与评分的方法通常使用相同的模型分别对用户和项目进行建模,但其局限在浅层特征层面,如果能够充分挖掘用户个性化偏好与项目深层特征,则会促进模型学习两种表示之间更深层次的关系从而提升预测结果.因此,本文提出一种融合评论与评分的个性化推荐方法,用于深度挖掘用户偏好与项目特征.在对评论文本进行处理的过程中,首先通过ALBERT获得评论文本中单词的向量表示.其次,提出的个性化注意模块将用户的个性化偏好信息与评论文本向量结合,得到深层的基于评论的用户表示.在Amazon Digital Music、Grocery and Gourmet Food、Video Games数据集上进行实验,本文方法较基准方法在NDCG指标上分别提升了5%、11%、8%.代码已在https://github.com/ZehuaChenLab/paperCode/tree/main/DuWenNa/PRM-RR公开. 展开更多
关键词 推荐算法 评分矩阵 评论文本 个性化注意力机制
在线阅读 下载PDF
基于元权重网络的鲁棒性文本匹配方法CovMW-net
4
作者 张东伟 叶正 葛君 《计算机应用》 北大核心 2025年第12期3839-3846,共8页
在文本匹配任务中,文本数据的复杂性与多样性使训练时常暴露出鲁棒性欠佳的问题。传统的解决文本鲁棒性不足的手段,诸如数据增强和正则化等,虽能发挥一定作用,但这些方法大多仅适用于特定类型的噪声或扰动,并且对计算资源的需求较高。因... 在文本匹配任务中,文本数据的复杂性与多样性使训练时常暴露出鲁棒性欠佳的问题。传统的解决文本鲁棒性不足的手段,诸如数据增强和正则化等,虽能发挥一定作用,但这些方法大多仅适用于特定类型的噪声或扰动,并且对计算资源的需求较高。因此,提出一种基于元权重网络(MW-net)的方法——协方差矩阵改进的元权重网络(CovMW-net)。首先,通过自适应学习调整权重参数与损失函数,从而迅速实现较合理的权重分配。其次,借助对样本权重的调控,放大或缩小样本在训练过程中对训练效果的影响,最终实现提升训练鲁棒性的目的。CovMW-net继承MW-net的元学习框架,进而节约计算资源。同时,它融合协方差矩阵,针对每个类别的样本开展深度特征提取,计算这些特征的协方差矩阵,并以此度量少数类数据,进而削减MW-net因为元数据集随机取样而产生长尾分布所造成的负面影响。在Clothing1M数据集上的实验结果表明,CovMW-net在准确率上超过原始方法MW-net 0.86个百分点,并优于所有对比方法。此外,在大规模中文问题匹配语料库(LCQMC)和百度问答匹配数据集(BQ)上CovMW-net的准确率相较于baseline提升大多在4~6个百分点。可见,CovMW-net在处理元数据集存在偏差时具备有效性,且应用于文本匹配鲁棒性研究时具有可行性。 展开更多
关键词 文本匹配 鲁棒性 元权重 协方差矩阵 样本重加权
在线阅读 下载PDF
基于多源特征融合的推荐算法
5
作者 白露露 张娜 《计算机系统应用》 2025年第11期289-299,共11页
传统推荐算法仅依靠用户的历史评分数据来挖掘相似用户,这一方法会面临着严重的数据稀疏性和冷启动问题,造成推荐效果不理想.为解决数据稀疏性,提高推荐质量,通过深度挖掘评论文本和评分数据的语义信息,提出了基于多源特征融合的推荐算... 传统推荐算法仅依靠用户的历史评分数据来挖掘相似用户,这一方法会面临着严重的数据稀疏性和冷启动问题,造成推荐效果不理想.为解决数据稀疏性,提高推荐质量,通过深度挖掘评论文本和评分数据的语义信息,提出了基于多源特征融合的推荐算法模型(recommendation algorithm model based on multi-source feature fusion,MSFF),该模型通过CNN和SA_BiLSTM混合模型对评论文本信息进行特征提取,并在特征提取时引入自注意力机制动态地调整评论信息的重要性,从而更好地捕捉评论信息中的深层关键信息.接着通过隐语义模型LFM分解评分矩阵得到用户和物品潜在特征.然后将两种模型所得的非同源特征进行有效融合得到高阶特征,进而预测评分,并根据最终的预测评分生成推荐列表.为了验证模型的有效性,在Yelp评论数据集和亚马逊评论数据集Amazon5-core中的3个子数据集上进行实验,结果表明,该模型不仅缓解推荐算法中评分数据稀疏性的影响,而且有效地提升了推荐结果的准确性. 展开更多
关键词 推荐算法 评论文本 评分预测 多源特征融合 矩阵分解
在线阅读 下载PDF
融合评分矩阵与评论文本的商品推荐模型 被引量:29
6
作者 李琳 刘锦行 +3 位作者 孟祥福 苏畅 李鑫 钟珞 《计算机学报》 EI CSCD 北大核心 2018年第7期1559-1573,共15页
随着电子商务的迅速发展和Web上信息的不断增长,推荐系统成为有效帮助用户做出决策的重要智能软件之一.基于评分数据的矩阵分解推荐模型被广泛研究和应用,但数据稀疏性问题影响了该模型的推荐质量.另一方面推荐系统中用户撰写的评论文... 随着电子商务的迅速发展和Web上信息的不断增长,推荐系统成为有效帮助用户做出决策的重要智能软件之一.基于评分数据的矩阵分解推荐模型被广泛研究和应用,但数据稀疏性问题影响了该模型的推荐质量.另一方面推荐系统中用户撰写的评论文本可以反映用户的兴趣偏好,有研究工作提出了相应的文本分析及观点挖掘方法来缓解评分数据的稀疏性.评分矩阵分解模型与评论文本挖掘模型的融合有助于提高推荐质量,因此该文首先提出了一种融合评分数值和评论文本的推荐模型DTMF(Double Topics with Matrix Factorization),将用户评论集和商品评论集各自的潜在主题向量分别与传统矩阵分解的用户潜在因子向量和商品潜在因子向量建立正向映射关系,然后通过添加潜在主题为预测评分引导项进一步优化DTMF模型提出了DTMF+模型.在两组公开数据集上,以推荐结果的均方误差(MSE)为评估指标进行了实验验证.实验结果表明本文提出的DTMF和DTMF+两个模型整体上优于仅融入商品评论集的HFT(Hidden Factors as Topics)(item)模型,在子类数据上预测误差最大分别降低了3.68%和7.31%.该文最后探讨了有用性评论排序问题来增强推荐结果的可解释性. 展开更多
关键词 评分矩阵 评论文本 矩阵分解 主题模型 均方误差
在线阅读 下载PDF
基于文本分类的商品评价情感分析 被引量:10
7
作者 钟将 杨思源 孙启干 《计算机应用》 CSCD 北大核心 2014年第8期2317-2321,共5页
为了在准确判断商品评价情感倾向的同时提高识别效率,提出了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法实现对商品评价的情感分析。首先,利用矩阵投影提取商品评价的特征词;然后,计算每一类别中特征词的平均特征频率(FF),采用归... 为了在准确判断商品评价情感倾向的同时提高识别效率,提出了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法实现对商品评价的情感分析。首先,利用矩阵投影提取商品评价的特征词;然后,计算每一类别中特征词的平均特征频率(FF),采用归一化函数(NLF)对平均特征频率进行归一化处理,得到每一类别的归一化向量;最后,通过比较评价的特征向量与每一类别的归一化向量的相似度预测评价的情感倾向。与k近邻(kNN)、朴素贝叶斯(NB)和支持向量机(SVM)算法进行了对比,实验结果表明该算法具有较高的预测准确度和分类速度:尤其与kNN算法相比该算法有明显优势,该算法的宏平均F1值比kNN高出12%以上,分类时间缩短了11/12;与SVM算法相比分类速度也大幅提高。 展开更多
关键词 商品评价 情感分析 文本分类 矩阵投影 归一化向量
在线阅读 下载PDF
基于归一化向量的文本分类算法 被引量:7
8
作者 钟将 孙启干 李静 《计算机工程》 CAS CSCD 北大核心 2011年第8期47-49,共3页
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、... 基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。 展开更多
关键词 文本分类 矩阵投影 向量空间模型 归一化向量
在线阅读 下载PDF
基于项权值变化的矩阵加权关联规则挖掘 被引量:9
9
作者 周秀梅 黄名选 《计算机应用研究》 CSCD 北大核心 2015年第10期2918-2923,2929,共7页
提出一种矩阵加权关联模式支持度计算方法及其相关定理,给出矩阵加权项集剪枝策略,基于该剪枝策略提出一种基于项权值变化的矩阵加权关联规则挖掘算法MWAR-Miner(matrix-weighted association rules-miner)。该算法克服现有的项无加权... 提出一种矩阵加权关联模式支持度计算方法及其相关定理,给出矩阵加权项集剪枝策略,基于该剪枝策略提出一种基于项权值变化的矩阵加权关联规则挖掘算法MWAR-Miner(matrix-weighted association rules-miner)。该算法克服现有的项无加权和项权值固定条件下挖掘关联规则的缺陷,采用新的剪枝技术和模式支持度计算方法挖掘有效的矩阵加权关联规则,避免无效的和无趣的模式产生。以中文数据集CWT200g和英文数据集NTCIR-5为实验数据,理论分析和实验结果表明,与现有矩阵加权模式挖掘算法和基于无加权的挖掘算法比较,该算法挖掘的候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高。 展开更多
关键词 文本挖掘 矩阵加权关联规则 频繁项集 知识发现
在线阅读 下载PDF
基于全信息矩阵的多分类器集成方法 被引量:18
10
作者 唐春生 金以慧 《软件学报》 EI CSCD 北大核心 2003年第6期1103-1109,共7页
自动文本分类是提高信息利用效率和质量的有效方法,而多分类器的有效组合能够得到更高的分类准确率.给出了样本集在多分类器下的全信息矩阵概念,并提出一种权重自适应调整的多分类器集成方法.该方法能够自适应地选择分类器组合及确定分... 自动文本分类是提高信息利用效率和质量的有效方法,而多分类器的有效组合能够得到更高的分类准确率.给出了样本集在多分类器下的全信息矩阵概念,并提出一种权重自适应调整的多分类器集成方法.该方法能够自适应地选择分类器组合及确定分类器权重,并利用分类统计信息指导分类结果的集成判决.通过在标准文本集Reuters-21578上的实验表明:该方法能从查准率和查全率两方面提高文本分类的整体性能,同时表明了该方法的有效性. 展开更多
关键词 多分类器组合 全信息矩阵 文本分类 集成方法
在线阅读 下载PDF
基于图划分的谱聚类算法在文本挖掘中应用 被引量:6
11
作者 沈亚田 沈夏炯 张磊 《计算机技术与发展》 2009年第5期96-98,共3页
传统文本挖掘算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法就陷入"局部"最优。为了满足"全局"最优,引进了无向图结构表示文档之间的相似关系,由无向图建立文档之间的相邻接矩阵,谱聚类算法是通过对... 传统文本挖掘算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法就陷入"局部"最优。为了满足"全局"最优,引进了无向图结构表示文档之间的相似关系,由无向图建立文档之间的相邻接矩阵,谱聚类算法是通过对邻接矩阵进行分析,导出聚类对象的新特征,利用新的特征对原数据进行聚类。通过实验对该算法和其他的文本挖掘的算法进行分析比较,实验结果表明该算法聚类效果比传统数据挖掘方法好。最后指出谱聚类的不足和进一步的研究方向。 展开更多
关键词 谱聚类 邻接矩阵 文本挖掘 正则割 Laplancian矩阵
在线阅读 下载PDF
基于评分矩阵与评论文本的深度推荐模型 被引量:48
12
作者 冯兴杰 曾云泽 《计算机学报》 EI CSCD 北大核心 2020年第5期884-900,共17页
基于评分矩阵的矩阵分解模型被广泛研究与应用,但是数据稀疏性问题严重制约了该模型的推荐效果.基于评论文本的推荐模型能够从文本信息中刻画用户偏好和商品特征,有效缓解了评分数据的稀疏性,但忽略了评分矩阵中用户和商品的潜在因子.... 基于评分矩阵的矩阵分解模型被广泛研究与应用,但是数据稀疏性问题严重制约了该模型的推荐效果.基于评论文本的推荐模型能够从文本信息中刻画用户偏好和商品特征,有效缓解了评分数据的稀疏性,但忽略了评分矩阵中用户和商品的潜在因子.为了进一步提高推荐质量,融合评分矩阵和评论文本的推荐模型被相继提出,但其仅仅局限在浅层线性特征层面,而且用户特征与商品的高级抽象特征未被充分挖掘,因此本文提出深度学习模型DeepCLFM(Deep Collaborative Latent Factor Model).该模型基于预训练的BERT模型,结合双向GRU和注意力机制从用户评论和商品评论中提取用户和商品的深层非线性特征向量,并根据用户和商品的编号映射出用户和商品的潜在隐向量.为了充分融合深层非线性特征和隐特征,DeepCLFM将用户和商品的深层特征向量与潜在隐向量以一、二阶特征项的方式产生深度特征项来预测出用户对商品的评分.在5组公开数据集上,以推荐结果的均方误差MSE作为评估指标进行对比实验,结果表明DeepCLFM的预测误差比多个优秀的基准算法更低,且平均预测误差最大降低了6.402%. 展开更多
关键词 推荐系统 评论文本 评分矩阵 神经网络 冷启动
在线阅读 下载PDF
专利信息的技术功效与应用图挖掘研究 被引量:17
13
作者 翟东升 陈晨 +2 位作者 张杰 黄鲁成 阮平南 《现代图书情报技术》 CSSCI 北大核心 2012年第7期96-102,共7页
目前,专利技术功效图与技术应用图的构造方法主要通过专家或学者的主观判断来对技术、功效或应用进行分类,因此比较耗费人力,结果也不够全面。针对以上问题,提出一种基于文本挖掘的、相对客观的解决方案,首先对专利信息进行文本挖掘并... 目前,专利技术功效图与技术应用图的构造方法主要通过专家或学者的主观判断来对技术、功效或应用进行分类,因此比较耗费人力,结果也不够全面。针对以上问题,提出一种基于文本挖掘的、相对客观的解决方案,首先对专利信息进行文本挖掘并从中提取专利文献中涉及的技术、应用和功效,再由专家对文本挖掘后的结果进行评估以确定较全面、准确的技术、功效、应用的特征,得到的特征将能直接用于统计其对应包含文献数量并最终构造技术功效图与技术应用图。实验结果表明,得到的技术功效等特征比专家预想的特征更全面、准确,技术功效图与技术应用图更加完整。 展开更多
关键词 专利信息 文本挖掘 技术功效矩阵图 技术应用矩阵图
原文传递
一种基于聚类技术的数字图书馆个性化推荐算法 被引量:7
14
作者 张付志 姜志英 《计算机应用与软件》 CSCD 北大核心 2008年第7期84-85,99,共3页
针对传统协作过滤算法存在的评价矩阵稀疏性问题,提出了一种基于聚类技术的推荐算法。该算法将k-means技术和分层技术相结合对图书资源进行聚类,缩小了近邻搜索的范围和需要预测的图书资源数目,很好地解决了因用户专业背景差异而导致的... 针对传统协作过滤算法存在的评价矩阵稀疏性问题,提出了一种基于聚类技术的推荐算法。该算法将k-means技术和分层技术相结合对图书资源进行聚类,缩小了近邻搜索的范围和需要预测的图书资源数目,很好地解决了因用户专业背景差异而导致的评价矩阵稀疏性问题,提高了推荐的准确度。 展开更多
关键词 数字图书馆 协作过滤 文本聚类 评价矩阵
在线阅读 下载PDF
一种基于谱分割的短文本聚类算法 被引量:1
15
作者 李晓红 谢蒙 +1 位作者 马慧芳 何廷年 《计算机工程》 CAS CSCD 北大核心 2016年第8期178-182,共5页
短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文... 短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下。针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法。依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文档的相似度矩阵,为聚类算法提供信息。不断迭代地用2-way方式划分该图,划分过程中使用RMcut值作为划分是否终止的条件,利用Prim算法将原图中的顶点加入到聚族中,以得到质量较高的聚类结果。实验结果表明,该算法具有较高的时间性能,与K-means算法、词共现聚类算法及基于免疫的聚类算法相比,聚类结果更准确。 展开更多
关键词 短文本 相似度矩阵 无向带权图 RMcut准则 聚类算法
在线阅读 下载PDF
基于核矩阵学习的XML文档相似度量方法 被引量:10
16
作者 杨建武 陈晓鸥 《软件学报》 EI CSCD 北大核心 2006年第5期991-1000,共10页
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlinkvectormodel,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的... XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlinkvectormodel,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(supportvectormachine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小. 展开更多
关键词 XML文档 相似度量 核矩阵学习 文本挖掘
在线阅读 下载PDF
基于NMF的文本聚类方法 被引量:9
17
作者 黄钢石 陆建江 张亚非 《计算机工程》 CAS CSCD 北大核心 2004年第11期113-114,176,共3页
提出一种基于非负矩阵分解的文本聚类方法。该方法利用NMF分解项-文本矩阵来降低特征空间维数,并得到文本向量在概念空间上的表示,在此基础上应用聚类算法。实验表明,基于NMF的文本聚类方法能够提高文本聚类精度。
关键词 文本聚类 非负矩阵分解 球形的k-均值算法 自然语言处理
在线阅读 下载PDF
基于特征矩阵优化与数据降维的文本聚类算法 被引量:21
18
作者 陈玮 卢佳伟 《数据采集与处理》 CSCD 北大核心 2021年第3期587-594,共8页
针对文本聚类问题中因为维度灾难以及特征信息丢失而导致的聚类效果低效问题,本文提出一种基于特征矩阵优化与改进主成分分析(Principal component analysis,PCA)降维的聚类算法。在原基于文档频率和逆词频(Term frequency inverse docu... 针对文本聚类问题中因为维度灾难以及特征信息丢失而导致的聚类效果低效问题,本文提出一种基于特征矩阵优化与改进主成分分析(Principal component analysis,PCA)降维的聚类算法。在原基于文档频率和逆词频(Term frequency inverse document frequency,TF-IDF)算法的基础上提出ALFW(Adaptive length frequency weight)权重优化方案,使得特征矩阵的分布性更好,特征项的表征更加明显。在降维处理上,采用信息论中的联合熵标准对PCA算法进行了优化,提出UE-PCA(United entropy-PCA)算法对稀疏高维数据进一步降维,更好地保留了原高维数据的真实性。仿真实验表明,本文提出的算法(K-means+UE-PCA+ALFW)对比其他同类型算法取得了更好的表现效果。 展开更多
关键词 文本聚类 特征矩阵 联合熵 TF-IDF算法 PCA
在线阅读 下载PDF
一个基于字特征的文本分类模型 被引量:2
19
作者 王梦云 王素格 《计算机工程与应用》 CSCD 北大核心 2004年第13期64-65,191,共3页
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。
关键词 文本分类 分类矩阵 特征向量
在线阅读 下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类 被引量:1
20
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
暂未订购
上一页 1 2 8 下一页 到第
使用帮助 返回顶部