期刊文献+
共找到850篇文章
< 1 2 43 >
每页显示 20 50 100
基于TF-IDF算法的智能手部按摩仪设计研究
1
作者 张琳 赵晶冉 林君晖 《工业设计》 2026年第1期142-145,共4页
文章旨在拓展亚健康青年群体的消费市场,满足现代青年群体对情绪价值的诉求。在消费者购买动机理论的指导下,文章针对新兴智能手部按摩产品开展设计方法方面的系统性研究。同时,借助TF-IDF算法与问卷调查法提取设计特征,通过排序转化构... 文章旨在拓展亚健康青年群体的消费市场,满足现代青年群体对情绪价值的诉求。在消费者购买动机理论的指导下,文章针对新兴智能手部按摩产品开展设计方法方面的系统性研究。同时,借助TF-IDF算法与问卷调查法提取设计特征,通过排序转化构建设计指标及原则,据此完成产品方案设计并引入灰色关联度分析法对原型进行优选。在案例研究中,所采用的TF-IDF算法可有效提炼出消费者的购买动机,将消费动机要素量化为数据形式。以期为智能手部按摩产品设计提取提供科学依据,使产品原型设计与青年群体消费心理相契合,亦为同类新兴智能康养按摩产品的创新研发提供理论参考与实践路径。 展开更多
关键词 工业设计 tf-idf算法 智能手部按摩仪 灰色关联度分析法 消费者购买动机
在线阅读 下载PDF
基于TF-IDF和GloVe算法面向多种类别文本自动分类系统的优化研究
2
作者 刘爱琴 王上丹 《新世纪图书馆》 2025年第10期40-46,共7页
通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性... 通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性较差;这两大问题,正是影响文档高效、精准自动分类的突出障碍。基于此,论文构建了一个融合TF-IDF(Term Frequency-Inverse Document Frequency)和GloVe(Global Vectors for Word Representation)的文本自动分类系统。该系统首先就词性影响因子和位置权重系数对TF-IDF算法进行改进,以弥补传统TF-IDF算法在关键词识别和语义分析上的不足;其次,使用GloVe模型对关键词集进一步扩充,使文本自动分类的准确率和召回率分别达到92.6%和90.9%;最后,通过实验比对,进一步验证该系统在处理多类别文本自动分类任务中的有效性。 展开更多
关键词 tf-idf算法 GloVe模型 文本自动分类 关键词位置 词性 语义扩展
在线阅读 下载PDF
基于TF-IDF和面向学科的图书推荐方法研究与实践
3
作者 沈静萍 张旭 韩立峰 《微型电脑应用》 2025年第3期210-214,219,共6页
随着智慧图书馆建设的不断发展,图书推荐已成为图书馆智慧服务的重要项目之一。传统的基于协同过滤的图书推荐方法主要基于个体用户的阅读历史和评价,未考虑图书本身的特征对推荐结果的影响,存在较大的用户-物品矩阵稀疏性,推荐偏差大... 随着智慧图书馆建设的不断发展,图书推荐已成为图书馆智慧服务的重要项目之一。传统的基于协同过滤的图书推荐方法主要基于个体用户的阅读历史和评价,未考虑图书本身的特征对推荐结果的影响,存在较大的用户-物品矩阵稀疏性,推荐偏差大。为此,从学科角度分析用户和图书特征,将推荐对象聚类为不同的学科群体,通过训练词频-逆文档频率(TF-IDF)算法从图书题名和文摘中提取图书特征词,构建图书—特征词—特征词权重矩阵;从学科群体用户的借阅历史中获取其阅读偏好,推荐与偏好内容相似的图书,实现对不同学科用户的精准推荐。结果证明所提方法具有较高的精准度和非热门图书曝光率,对深化学科建设、构建学院学科图书馆、提升馆藏资源利用率具有很好的实践意义。 展开更多
关键词 tf-idf算法 学科 图书推荐 个性化推荐 阅读偏好
在线阅读 下载PDF
基于TF-IDF算法的无线传感网络攻击流量检测方法研究 被引量:1
4
作者 王晨 刘鑫 《传感技术学报》 北大核心 2025年第4期744-748,共5页
无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归... 无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归一化处理离散型流量;然后通过TF-IDF算法提取无线传感网络流量特征,利用特征向量集训练多通道自编码器,利用TF-IDF算法计算待检测的攻击流量数据特征在无线传感网络流量内出现的频率,以此对攻击流量进行排序;最后通过Softmax分类器输出最终流量类型检测结果。仿真结果表明,所提方法的检测精确度最低值为97.05%,虚警率最高值为2.01%、测试时间平均值为20.1 s,证明所提方法能高效、精确地实现无线传感网络攻击流量检测。 展开更多
关键词 无线传感网络 攻击流量检测 tf-idf算法 多通道自编码器
在线阅读 下载PDF
基于网络爬虫与TF-IDF算法的非遗产品创新 被引量:1
5
作者 王菁 杨晓翔 《佳木斯大学学报(自然科学版)》 2025年第8期52-54,74,共4页
非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统T... 非遗产品创新无法满足当前流行趋势,提出基于网络爬虫与TF-IDF算法的非遗产品创新方法。以百度百科、天猫商城为对象基于网络爬虫技术爬取非遗产品创新热点的网络词条,构造一个语料库粗糙集;利用TF-IDF算法对语料库进行精确搜索,在传统TF-IDF算法中引入词跨度,选取权重最高的前n个作为非遗产品创新设计的关键词,获得符合非遗产品创新设计需求的结果。测试结果显示:该方法抽取的非遗创新关键词与人工抽取结果更契合,准确度均在90%以上,基于网络爬虫与TF-IDF算法的非遗产品创新具有良好的推广应用前景。 展开更多
关键词 网络爬虫 tf-idf算法 语料库 词频率 非遗创新 产品
在线阅读 下载PDF
基于熵优化的TF-IDF算法研究
6
作者 王逸蓓 王芳 《燕山大学学报》 北大核心 2025年第5期422-428,共7页
传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-... 传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-IDF算法,引入去中心化词频因子和信息熵,捕捉特征项在类内和类间的分布特征。在此基础上,进一步结合期望信息熵理论,提出基于期望交叉熵优化的TF-IDF算法。通过对比实验,基于信息熵优化的TF-IDF算法一定程度上提升了模型性能,但基于期望交叉熵优化的TF-IDF算法在精度、召回率和F1值上表现更佳。 展开更多
关键词 tf-idf 特征项 词频 期望交叉熵
在线阅读 下载PDF
基于TF-IDF方法的国家公园投射形象与游客感知形象差异——以三江源为例
7
作者 薛凡 刘晶岚 刘昱齐 《自然保护地》 2025年第4期26-37,共12页
【目的】探讨三江源国家公园官方投射形象与游客感知形象的差异与根源,提出协调路径,弥合官方投射形象与游客感知形象的错位。【方法】以TF-IDF算法提取文本关键词并归纳主要形象类目、比较语义网络关系,通过Python调用百度情感倾向分... 【目的】探讨三江源国家公园官方投射形象与游客感知形象的差异与根源,提出协调路径,弥合官方投射形象与游客感知形象的错位。【方法】以TF-IDF算法提取文本关键词并归纳主要形象类目、比较语义网络关系,通过Python调用百度情感倾向分析接口探析游客情感形象。【结果】①官方投射形象与游客感知形象关键词重叠率为36%,“国家公园”在官方投射与游客感知中分别排名第3和15位;②三江源国家公园形象可划分为资源代表性、生态系统完整性、原真性、文化氛围、公共服务、旅游体验6个主类目;③官方投射和游客感知的网络密度分别为0.302和0.247,官方投射语义网络关系中“保护”和“生态”、“三江源”和“国家公园”呈强共现关系,游客感知语义网络中“保护”与“藏羚羊”“野生动物”呈强共现关系;④游客评论文本中积极情绪占比93%,消极情绪占比6%。【结论】①投射和感知形象差异较大,且游客对国家公园认知程度低;②官方和游客均缺乏对三江源国家公园生态文化价值的关注;③从语义网络分析看,官方侧重宣传生态保护,而游客关注自然风景和野生动植物资源保护;④游客情感形象以积极情绪为主,消极情绪主要来自于地区偏远荒凉、高原反应、交通不便等原因。 展开更多
关键词 三江源国家公园 投射形象 感知形象 tf-idf 协调路径
在线阅读 下载PDF
基于电网对账系统的TF-IDF优化算法
8
作者 王岩 郭威 +1 位作者 隋海滨 符贵谦 《兵工自动化》 北大核心 2025年第4期83-87,共5页
为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S... 为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S)架构下的TF-IDF算法优化设计方法,对B/S架构下使用TF-IDF算法优化设计在电网系统中的综合应用效果进行分析。结果表明:该算法的对账效果提升明显,为优化电网对账系统提供了技术基础,为提升电网集团服务质量做出了贡献。 展开更多
关键词 电网集团 B/S架构 tf-idf算法 电网对账系统 对账效果
在线阅读 下载PDF
TF-IDF和Word2Vec组合算法的招标工程量清单标准化方法研究
9
作者 潘定才 钱琪琪 万正东 《建筑经济》 2025年第S1期137-141,共5页
为进一步发挥标准化招标工程清单的作用,提高招标工程量清单的准确性,及时发现招标工程量清单中漏项、项目特征不规范、逻辑不合理等问题,本文引入TF-IDF和Word2Vec组合方法,进而提出一种兼顾文本特征和语义特征的文本特征提取算法,先... 为进一步发挥标准化招标工程清单的作用,提高招标工程量清单的准确性,及时发现招标工程量清单中漏项、项目特征不规范、逻辑不合理等问题,本文引入TF-IDF和Word2Vec组合方法,进而提出一种兼顾文本特征和语义特征的文本特征提取算法,先将文本进行向量化表示,然后根据文本的特征,使用余弦相似度的方法,对招标工程量清单的相似度进行计算,根据相似度水平,进而实现招标工程量清单和标准化招标工程量清单差异的智能识别和智能比对检查,以提升招标工程量清单编制质量和编制效率。结果表明,使用TF-IDF和Word2Vec组合方法和使用单一模型相比,对招标工程量清单识别的准确性更高,效果更好,具有较好的应用前景。 展开更多
关键词 标准化清单 tf-idf Word2Vec 相似度 文本识别
在线阅读 下载PDF
基于机器学习与TF-IDF、Word2Vec的文本情感分析
10
作者 张立伟 曹佳慧 +2 位作者 陆傲鹏 魏鸣辰 张庆莉 《电脑与信息技术》 2025年第4期23-26,共4页
在目前网络环境下,由于各社交平台发言难度低,网络空间中往往充斥着大量不和谐评论。为了净化网络环境,需要对网络热点话题进行快速、准确的舆情判断,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2Ve... 在目前网络环境下,由于各社交平台发言难度低,网络空间中往往充斥着大量不和谐评论。为了净化网络环境,需要对网络热点话题进行快速、准确的舆情判断,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2Vec算法与传统机器学习模型相结合,分别用TF-IDF和Word2Vec算法提取文本情感特征,构建机器学习模型,如随机梯度下降(Stochastic-Gradient-Descent,SGD)、支持向量机(Support-VectorMachine,SVM)等,计算精确率、召回率和F1值来评估模型性能。实验结果及评测显示,Word2Vec-SVM模型在文本情感分类中的F1值达0.958 2,能够取得较好的文本情感分类效果。 展开更多
关键词 tf-idf Word2Vec 机器学习 SVM 文本情感分析
在线阅读 下载PDF
基于改进TF-IDF的FastText新闻文本分类算法
11
作者 李卫卫 葛欣杭 刘晓丹 《电脑与电信》 2025年第1期27-31,共5页
新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本... 新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本数据,以验证该模型的分类性能。实验结果表明,所提分类模型的财经新闻文本分类精确率达到95.82%,相较于对比方案,最高提升6.91%,证明所提方案具有一定的有效性以及可行性,能够有效提升新闻文本分类效果。 展开更多
关键词 新闻文本分类 FastText 特征因子 离散度 改进tf-idf
在线阅读 下载PDF
基于TF-IDF加权机制的交通事故致因关联规则挖掘研究
12
作者 熊杰 李慧 《农业装备与车辆工程》 2025年第10期113-119,共7页
基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低... 基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低频高价值致因的识别能力。研究结果显示:车辆违法(不按规定让行、违反信号灯)与行人违法穿行是导致伤亡事故的核心因素;低能见度、交通设施效能不足加剧了事故风险;“刮撞行人”的事故形态在人员受伤中高频出现;死亡事故呈现人、车、路、环境、管理多因素交织的复合致因,可为交通事故预防与差异化治理提供理论与方法参考。 展开更多
关键词 交通事故 致因分析 关联规则挖掘 tf-idf加权
在线阅读 下载PDF
应急决策文本的多维语义挖掘方法——基于TF-IDF和PMI的技术框架 被引量:1
13
作者 邓云峰 冯永康 王双燕 《中国安全生产科学技术》 北大核心 2025年第5期36-45,共10页
为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词... 为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词和LTP平台的依存句法分析,挖掘文本中的目标和行动信息,利用TF-IDF算法和词云图展示关键行动,然后通过PMI构建复杂网络,揭示行动间的关联性和决策偏好。研究结果表明:结合应急行动分类体系,TF-IDF算法能精确提取文本中目标和行动信息,以频次反映行动的受关注程度,为理解决策者的决心和意图提供支持;PMI和改良PMI方法能有效挖掘行动的共现关系,揭示行动之间的关联性和决策偏好,其中PMI方法适合分析行动之间的平均相关性,而改良PMI方法能识别出低频高权重的行动关联。研究结果可为分析决策行为特征,细化实化应急决策部署提供可扩展的支持性工具。 展开更多
关键词 应急决策文本 词频-逆文档频率 点互信息 关联性分析 复杂网络 依存句法分析
在线阅读 下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:56
14
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
在线阅读 下载PDF
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 被引量:26
15
作者 李博 杨丹 邓林 《自动化学报》 EI CSCD 北大核心 2011年第6期665-673,共9页
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为... 针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算的效率和准确性,提高了闭环检测的准确率和召回率. 展开更多
关键词 闭环检测 视觉字典树 tf-idf得分准则 金字塔匹配
在线阅读 下载PDF
利用本体关联度改进的TF-IDF特征词提取方法 被引量:29
16
作者 徐建民 王金花 马伟瑜 《情报科学》 CSSCI 北大核心 2011年第2期279-283,共5页
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取... 针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。 展开更多
关键词 文本特征词提取 tf-idf 本体关联词 本体关联度
原文传递
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:36
17
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 tf-idf
在线阅读 下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:8
18
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 tf-idf 特征空间 特征选择算法
在线阅读 下载PDF
基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 被引量:10
19
作者 杜若鹏 鲜国建 寇远涛 《数字图书馆论坛》 CSSCI 2019年第8期18-24,共7页
针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CH... 针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。 展开更多
关键词 特征抽取 tf-idf 卡方统计 文本分类 农业科技文献
在线阅读 下载PDF
基于改进的TF-IDF文本特征词提取算法研究 被引量:9
20
作者 贾强 冯锡炜 +2 位作者 王志峰 朱睿 秦航 《辽宁石油化工大学学报》 CAS 2017年第4期61-64,69,共5页
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重... 在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。 展开更多
关键词 tf-idf 特征词提取 词长 文本预处理 文本分类
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部