期刊文献+
共找到681篇文章
< 1 2 35 >
每页显示 20 50 100
基于NER和TF/IDF算法的涉密文件的脱密鉴别方法研究 被引量:1
1
作者 王雷 李云亚 《无线互联科技》 2021年第21期110-113,共4页
随着网络以及各类应用的发展,涉密材料往往在网络渠道传播、流传过程中被泄露,而且往往是涉密材料已经传播一定的范围之后,才能引起相关部门的注意而采用相应的措施。在公开网络产生泄密事件处理过程中,最重要的因素是在泄密材料出现于... 随着网络以及各类应用的发展,涉密材料往往在网络渠道传播、流传过程中被泄露,而且往往是涉密材料已经传播一定的范围之后,才能引起相关部门的注意而采用相应的措施。在公开网络产生泄密事件处理过程中,最重要的因素是在泄密材料出现于公开网络并广泛传播之前,发现并确定传播材料是否涉密、可能的来源以及相应的密级。文章提出一种基于NER和TF/IDF算法的涉密文件的脱密鉴别方法,利用NER和TF/IDF算法识别涉密文件中的命名实体,构成矩阵,经过HASH脱密,发送统一中心平台存储。鉴别时,取出文件中各命名实体对应的TF/IDF值乘以出现的次数并求和,其值跟预先设定的阈值比较,以此来确定是否为涉密文件,从而进一步判断涉密文件的来源。 展开更多
关键词 涉密文件 脱密鉴别 NER tf/idf算法
在线阅读 下载PDF
基于TF-IDF算法的智能手部按摩仪设计研究
2
作者 张琳 赵晶冉 林君晖 《工业设计》 2026年第1期142-145,共4页
文章旨在拓展亚健康青年群体的消费市场,满足现代青年群体对情绪价值的诉求。在消费者购买动机理论的指导下,文章针对新兴智能手部按摩产品开展设计方法方面的系统性研究。同时,借助TF-IDF算法与问卷调查法提取设计特征,通过排序转化构... 文章旨在拓展亚健康青年群体的消费市场,满足现代青年群体对情绪价值的诉求。在消费者购买动机理论的指导下,文章针对新兴智能手部按摩产品开展设计方法方面的系统性研究。同时,借助TF-IDF算法与问卷调查法提取设计特征,通过排序转化构建设计指标及原则,据此完成产品方案设计并引入灰色关联度分析法对原型进行优选。在案例研究中,所采用的TF-IDF算法可有效提炼出消费者的购买动机,将消费动机要素量化为数据形式。以期为智能手部按摩产品设计提取提供科学依据,使产品原型设计与青年群体消费心理相契合,亦为同类新兴智能康养按摩产品的创新研发提供理论参考与实践路径。 展开更多
关键词 工业设计 tf-idf算法 智能手部按摩仪 灰色关联度分析法 消费者购买动机
在线阅读 下载PDF
基于TF-IDF和面向学科的图书推荐方法研究与实践
3
作者 沈静萍 张旭 韩立峰 《微型电脑应用》 2025年第3期210-214,219,共6页
随着智慧图书馆建设的不断发展,图书推荐已成为图书馆智慧服务的重要项目之一。传统的基于协同过滤的图书推荐方法主要基于个体用户的阅读历史和评价,未考虑图书本身的特征对推荐结果的影响,存在较大的用户-物品矩阵稀疏性,推荐偏差大... 随着智慧图书馆建设的不断发展,图书推荐已成为图书馆智慧服务的重要项目之一。传统的基于协同过滤的图书推荐方法主要基于个体用户的阅读历史和评价,未考虑图书本身的特征对推荐结果的影响,存在较大的用户-物品矩阵稀疏性,推荐偏差大。为此,从学科角度分析用户和图书特征,将推荐对象聚类为不同的学科群体,通过训练词频-逆文档频率(TF-IDF)算法从图书题名和文摘中提取图书特征词,构建图书—特征词—特征词权重矩阵;从学科群体用户的借阅历史中获取其阅读偏好,推荐与偏好内容相似的图书,实现对不同学科用户的精准推荐。结果证明所提方法具有较高的精准度和非热门图书曝光率,对深化学科建设、构建学院学科图书馆、提升馆藏资源利用率具有很好的实践意义。 展开更多
关键词 tf-idf算法 学科 图书推荐 个性化推荐 阅读偏好
在线阅读 下载PDF
基于TF-IDF和GloVe算法面向多种类别文本自动分类系统的优化研究
4
作者 刘爱琴 王上丹 《新世纪图书馆》 2025年第10期40-46,共7页
通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性... 通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性较差;这两大问题,正是影响文档高效、精准自动分类的突出障碍。基于此,论文构建了一个融合TF-IDF(Term Frequency-Inverse Document Frequency)和GloVe(Global Vectors for Word Representation)的文本自动分类系统。该系统首先就词性影响因子和位置权重系数对TF-IDF算法进行改进,以弥补传统TF-IDF算法在关键词识别和语义分析上的不足;其次,使用GloVe模型对关键词集进一步扩充,使文本自动分类的准确率和召回率分别达到92.6%和90.9%;最后,通过实验比对,进一步验证该系统在处理多类别文本自动分类任务中的有效性。 展开更多
关键词 tf-idf算法 GloVe模型 文本自动分类 关键词位置 词性 语义扩展
在线阅读 下载PDF
基于TF-IDF算法的无线传感网络攻击流量检测方法研究 被引量:1
5
作者 王晨 刘鑫 《传感技术学报》 北大核心 2025年第4期744-748,共5页
无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归... 无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归一化处理离散型流量;然后通过TF-IDF算法提取无线传感网络流量特征,利用特征向量集训练多通道自编码器,利用TF-IDF算法计算待检测的攻击流量数据特征在无线传感网络流量内出现的频率,以此对攻击流量进行排序;最后通过Softmax分类器输出最终流量类型检测结果。仿真结果表明,所提方法的检测精确度最低值为97.05%,虚警率最高值为2.01%、测试时间平均值为20.1 s,证明所提方法能高效、精确地实现无线传感网络攻击流量检测。 展开更多
关键词 无线传感网络 攻击流量检测 tf-idf算法 多通道自编码器
在线阅读 下载PDF
基于网络爬虫与TF-IDF算法的非遗产品创新 被引量:1
6
作者 王菁 杨晓翔 《佳木斯大学学报(自然科学版)》 2025年第8期52-54,74,共4页
非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统T... 非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统TF-IDF算法中引入词跨度,选取权重最高的前n个作为非遗产品创新设计的关键词,获得符合非遗产品创新设计需求的结果。测试结果显示:该方法抽取的非遗创新关键词与人工抽取结果更契合,准确度均在90%以上,基于网络爬虫与TF-IDF算法的非遗产品创新具有良好的推广应用前景。 展开更多
关键词 网络爬虫 tf-idf算法 语料库 词频率 非遗创新 产品
在线阅读 下载PDF
应急决策文本的多维语义挖掘方法——基于TF-IDF和PMI的技术框架 被引量:1
7
作者 邓云峰 冯永康 王双燕 《中国安全生产科学技术》 北大核心 2025年第5期36-45,共10页
为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词... 为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词和LTP平台的依存句法分析,挖掘文本中的目标和行动信息,利用TF-IDF算法和词云图展示关键行动,然后通过PMI构建复杂网络,揭示行动间的关联性和决策偏好。研究结果表明:结合应急行动分类体系,TF-IDF算法能精确提取文本中目标和行动信息,以频次反映行动的受关注程度,为理解决策者的决心和意图提供支持;PMI和改良PMI方法能有效挖掘行动的共现关系,揭示行动之间的关联性和决策偏好,其中PMI方法适合分析行动之间的平均相关性,而改良PMI方法能识别出低频高权重的行动关联。研究结果可为分析决策行为特征,细化实化应急决策部署提供可扩展的支持性工具。 展开更多
关键词 应急决策文本 词频-逆文档频率 点互信息 关联性分析 复杂网络 依存句法分析
在线阅读 下载PDF
基于熵优化的TF-IDF算法研究
8
作者 王逸蓓 王芳 《燕山大学学报》 北大核心 2025年第5期422-428,共7页
传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-... 传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-IDF算法,引入去中心化词频因子和信息熵,捕捉特征项在类内和类间的分布特征。在此基础上,进一步结合期望信息熵理论,提出基于期望交叉熵优化的TF-IDF算法。通过对比实验,基于信息熵优化的TF-IDF算法一定程度上提升了模型性能,但基于期望交叉熵优化的TF-IDF算法在精度、召回率和F1值上表现更佳。 展开更多
关键词 tf-idf 特征项 词频 期望交叉熵
在线阅读 下载PDF
基于TF-IDF方法的国家公园投射形象与游客感知形象差异——以三江源为例
9
作者 薛凡 刘晶岚 刘昱齐 《自然保护地》 2025年第4期26-37,共12页
【目的】探讨三江源国家公园官方投射形象与游客感知形象的差异与根源,提出协调路径,弥合官方投射形象与游客感知形象的错位。【方法】以TF-IDF算法提取文本关键词并归纳主要形象类目、比较语义网络关系,通过Python调用百度情感倾向分... 【目的】探讨三江源国家公园官方投射形象与游客感知形象的差异与根源,提出协调路径,弥合官方投射形象与游客感知形象的错位。【方法】以TF-IDF算法提取文本关键词并归纳主要形象类目、比较语义网络关系,通过Python调用百度情感倾向分析接口探析游客情感形象。【结果】①官方投射形象与游客感知形象关键词重叠率为36%,“国家公园”在官方投射与游客感知中分别排名第3和15位;②三江源国家公园形象可划分为资源代表性、生态系统完整性、原真性、文化氛围、公共服务、旅游体验6个主类目;③官方投射和游客感知的网络密度分别为0.302和0.247,官方投射语义网络关系中“保护”和“生态”、“三江源”和“国家公园”呈强共现关系,游客感知语义网络中“保护”与“藏羚羊”“野生动物”呈强共现关系;④游客评论文本中积极情绪占比93%,消极情绪占比6%。【结论】①投射和感知形象差异较大,且游客对国家公园认知程度低;②官方和游客均缺乏对三江源国家公园生态文化价值的关注;③从语义网络分析看,官方侧重宣传生态保护,而游客关注自然风景和野生动植物资源保护;④游客情感形象以积极情绪为主,消极情绪主要来自于地区偏远荒凉、高原反应、交通不便等原因。 展开更多
关键词 三江源国家公园 投射形象 感知形象 tf-idf 协调路径
在线阅读 下载PDF
基于电网对账系统的TF-IDF优化算法
10
作者 王岩 郭威 +1 位作者 隋海滨 符贵谦 《兵工自动化》 北大核心 2025年第4期83-87,共5页
为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S... 为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S)架构下的TF-IDF算法优化设计方法,对B/S架构下使用TF-IDF算法优化设计在电网系统中的综合应用效果进行分析。结果表明:该算法的对账效果提升明显,为优化电网对账系统提供了技术基础,为提升电网集团服务质量做出了贡献。 展开更多
关键词 电网集团 B/S架构 tf-idf算法 电网对账系统 对账效果
在线阅读 下载PDF
基于TF/IDF多因素改进算法的知识单元抽取研究 被引量:1
11
作者 刘盛博 丁堃 +1 位作者 王贤文 刘则渊 《情报学报》 CSSCI 北大核心 2011年第10期1037-1043,共7页
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及... 深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以《半导体光电》期刊1999—2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性。 展开更多
关键词 知识计量 知识单元 知识单元抽取 tf/idf
在线阅读 下载PDF
TF-IDF和Word2Vec组合算法的招标工程量清单标准化方法研究
12
作者 潘定才 钱琪琪 万正东 《建筑经济》 2025年第S1期137-141,共5页
为进一步发挥标准化招标工程清单的作用,提高招标工程量清单的准确性,及时发现招标工程量清单中漏项、项目特征不规范、逻辑不合理等问题,本文引入TF-IDF和Word2Vec组合方法,进而提出一种兼顾文本特征和语义特征的文本特征提取算法,先... 为进一步发挥标准化招标工程清单的作用,提高招标工程量清单的准确性,及时发现招标工程量清单中漏项、项目特征不规范、逻辑不合理等问题,本文引入TF-IDF和Word2Vec组合方法,进而提出一种兼顾文本特征和语义特征的文本特征提取算法,先将文本进行向量化表示,然后根据文本的特征,使用余弦相似度的方法,对招标工程量清单的相似度进行计算,根据相似度水平,进而实现招标工程量清单和标准化招标工程量清单差异的智能识别和智能比对检查,以提升招标工程量清单编制质量和编制效率。结果表明,使用TF-IDF和Word2Vec组合方法和使用单一模型相比,对招标工程量清单识别的准确性更高,效果更好,具有较好的应用前景。 展开更多
关键词 标准化清单 tf-idf Word2Vec 相似度 文本识别
在线阅读 下载PDF
基于机器学习与TF-IDF、Word2Vec的文本情感分析
13
作者 张立伟 曹佳慧 +2 位作者 陆傲鹏 魏鸣辰 张庆莉 《电脑与信息技术》 2025年第4期23-26,共4页
在目前网络环境下,由于各社交平台发言难度低,网络空间中往往充斥着大量不和谐评论。为了净化网络环境,需要对网络热点话题进行快速、准确的舆情判断,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2Ve... 在目前网络环境下,由于各社交平台发言难度低,网络空间中往往充斥着大量不和谐评论。为了净化网络环境,需要对网络热点话题进行快速、准确的舆情判断,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2Vec算法与传统机器学习模型相结合,分别用TF-IDF和Word2Vec算法提取文本情感特征,构建机器学习模型,如随机梯度下降(Stochastic-Gradient-Descent,SGD)、支持向量机(Support-VectorMachine,SVM)等,计算精确率、召回率和F1值来评估模型性能。实验结果及评测显示,Word2Vec-SVM模型在文本情感分类中的F1值达0.958 2,能够取得较好的文本情感分类效果。 展开更多
关键词 tf-idf Word2Vec 机器学习 SVM 文本情感分析
在线阅读 下载PDF
基于改进TF-IDF的FastText新闻文本分类算法
14
作者 李卫卫 葛欣杭 刘晓丹 《电脑与电信》 2025年第1期27-31,共5页
新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本... 新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本数据,以验证该模型的分类性能。实验结果表明,所提分类模型的财经新闻文本分类精确率达到95.82%,相较于对比方案,最高提升6.91%,证明所提方案具有一定的有效性以及可行性,能够有效提升新闻文本分类效果。 展开更多
关键词 新闻文本分类 FastText 特征因子 离散度 改进tf-idf
在线阅读 下载PDF
基于TF-IDF加权机制的交通事故致因关联规则挖掘研究
15
作者 熊杰 李慧 《农业装备与车辆工程》 2025年第10期113-119,共7页
基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低... 基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低频高价值致因的识别能力。研究结果显示:车辆违法(不按规定让行、违反信号灯)与行人违法穿行是导致伤亡事故的核心因素;低能见度、交通设施效能不足加剧了事故风险;“刮撞行人”的事故形态在人员受伤中高频出现;死亡事故呈现人、车、路、环境、管理多因素交织的复合致因,可为交通事故预防与差异化治理提供理论与方法参考。 展开更多
关键词 交通事故 致因分析 关联规则挖掘 tf-idf加权
在线阅读 下载PDF
基于改进TF-IDF特征提取的文本分类模型研究 被引量:56
16
作者 周源 刘怀兰 +1 位作者 杜朋朋 廖岭 《情报科学》 CSSCI 北大核心 2017年第5期111-118,共8页
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节... 【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。 展开更多
关键词 特征提取 tfidf 文本分类 文本网络 PAGERANK
原文传递
基于词频差异的特征选取及改进的TF-IDF公式 被引量:56
17
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
在线阅读 下载PDF
基于TF-IDF相似度的标签聚类方法 被引量:22
18
作者 韩敏 唐常杰 +2 位作者 段磊 李川 巩杰 《计算机科学与探索》 CSCD 2010年第3期240-246,共7页
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和... 社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。 展开更多
关键词 标签聚类 相似度 社会标签系统 tfidf技术
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
19
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
基于TF*IDF的垃圾邮件过滤特征选择改进算法 被引量:6
20
作者 陈琦 伍朝辉 +2 位作者 姚芳 宋秀荣 张付志 《计算机应用研究》 CSCD 北大核心 2009年第6期2165-2167,共3页
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点... 随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。 展开更多
关键词 垃圾邮件 过滤器 贝叶斯 特征选择 tfidf
在线阅读 下载PDF
上一页 1 2 35 下一页 到第
使用帮助 返回顶部