期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data term frequency Inverse term frequency term frequency-inverse document frequency (TF-IDF) Social Media
在线阅读 下载PDF
基于CiteSpace与Python识别技术的国内疗愈景观研究热点及趋势分析
2
作者 陈嘉通 汪霞 《园林》 2026年第2期72-80,共9页
在生态文明建设与健康中国战略背景下,疗愈景观作为促进健康与城市可持续发展的重要载体,成为城乡规划与景观设计的研究焦点。通过构建“文献计量-主题挖掘-趋势预测”三维分析框架,以CNKI数据库中2005—2025年的期刊论文为数据基础,借... 在生态文明建设与健康中国战略背景下,疗愈景观作为促进健康与城市可持续发展的重要载体,成为城乡规划与景观设计的研究焦点。通过构建“文献计量-主题挖掘-趋势预测”三维分析框架,以CNKI数据库中2005—2025年的期刊论文为数据基础,借助Cite Space软件分析热点关键词及其演变趋势,利用互信息(MI)衡量上下文的依赖度,运用Python统计TF-IDF值量化关键词重要性,基于LDA主题建模挖掘潜在主题并预测未来趋势。结果表明:国内疗愈景观研究发文量呈上升趋势;研究热点聚焦健康导向的景观综合效益与影响机制、疗愈景观针对特定群体的实践应用、疗愈景观的循证设计方法论等主题;研究趋势集中于园艺疗法的理论深化与多元场景适配、疗愈景观的循证设计与跨学科融合、后疫情时代的城市疗愈空间重构等方面;未来需加强多尺度空间协同和政策标准体系建设以及跨学科研究。 展开更多
关键词 疗愈景观 CITESPACE 词频—逆文档频率 潜在狄利克雷分配 研究趋势
在线阅读 下载PDF
Hybrid Approach to Document Anomaly Detection:An Application to Facilitate RPA in Title Insurance
3
作者 Abhijit Guha Debabrata Samanta 《International Journal of Automation and computing》 EI CSCD 2021年第1期55-72,共18页
Anomaly detection(AD)is an important aspect of various domains and title insurance(TI)is no exception.Robotic process automation(RPA)is taking over manual tasks in TI business processes,but it has its limitations with... Anomaly detection(AD)is an important aspect of various domains and title insurance(TI)is no exception.Robotic process automation(RPA)is taking over manual tasks in TI business processes,but it has its limitations without the support of artificial intelligence(AI)and machine learning(ML).With increasing data dimensionality and in composite population scenarios,the complexity of detecting anomalies increases and AD in automated document management systems(ADMS)is the least explored domain.Deep learning,being the fastest maturing technology can be combined along with traditional anomaly detectors to facilitate and improve the RPAs in TI.We present a hybrid model for AD,using autoencoders(AE)and a one-class support vector machine(OSVM).In the present study,OSVM receives input features representing real-time documents from the TI business,orchestrated and with dimensions reduced by AE.The results obtained from multiple experiments are comparable with traditional methods and within a business acceptable range,regarding accuracy and performance. 展开更多
关键词 Anomaly detection title insurance autoencoder one-class support vector machine(OSVM) term frequency-inverse document frequency(TF-IDF) robotic process automation dimensionality reduction
原文传递
基于Document Triage的TF-IDF算法的改进 被引量:14
4
作者 李镇君 周竹荣 《计算机应用》 CSCD 北大核心 2015年第12期3506-3510,3514,共6页
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的... 针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。 展开更多
关键词 TF-IDF document TRIAGE 标引 加权
在线阅读 下载PDF
民用无人机事故致因文本挖掘和社会网络分析 被引量:2
5
作者 李柯 王东煌 罗帆 《安全与环境学报》 北大核心 2025年第7期2709-2716,共8页
为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Net... 为明确民用无人机事故致因及其关联性,借助文本挖掘技术完成122份民用无人机事故报告的结构化处理,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法提取出23项事故致因关键词;运用社会网络分析(Social Network Analysis, SNA)方法和Gephi、Ucinet等软件构建民用无人机事故致因共现网络,完成网络中心性分析和核心边缘结构分析,以了解各事故致因节点的重要性和网络结构特征。结果表明:机械结构故障、动力系统故障等源自无人机自身的致因是造成事故的主要原因;飞行失控、检查不足、天气意外因素等8项致因位于致因网络的核心区域,归属于核心致因,其余15项为边缘致因;基于核心致因构建并分析核心-边缘致因集合,有助于为民用无人机事故防控提供对策建议,从而促进低空经济产业健康有序发展。 展开更多
关键词 安全工程 文本挖掘 社会网络分析 词频-逆文档频率 无人机事故
原文传递
基于改进OATA的物体打击事故致因-责任人关联分析
6
作者 李珏 武诗怡 《工程研究——跨学科视野中的工程》 2025年第3期364-377,共14页
文本选取建筑行业125例物体打击事故调查报告,利用文本挖掘技术从中提取出28项事故致因,并融合词频-逆文档频率算法(TF-IDF)和TextRank算法计算出每个致因的权重值。依据相关规定归类出15类事故责任人,并利用社会网络分析方法构建责任... 文本选取建筑行业125例物体打击事故调查报告,利用文本挖掘技术从中提取出28项事故致因,并融合词频-逆文档频率算法(TF-IDF)和TextRank算法计算出每个致因的权重值。依据相关规定归类出15类事故责任人,并利用社会网络分析方法构建责任人关系网络,进而构建了职业事故树,分析了事故致因与责任人之间的关联。结果表明:事故相关施工人员普遍存在安全意识淡薄、违规操作、防护用品佩戴不到位和物体乱放的问题;事故现场管理人员普遍存在现场管理不到位、监督检查不到位、隐患整改不力和安全教育培训不到位的问题。其中,项目负责人的总体事故责任承担率最高;企业管理人员需要重视人员配备和应急管理方面的工作;政府部门人员需要加强对施工单位的监督和管理。通过挖掘事故责任人和致因之间的关联,既可以让各类责任人明晰自己的责任,也有助于决策者制定更精准的预防措施,并将措施的执行落实到个人,提高措施的执行效率。 展开更多
关键词 物体打击事故 社会网络分析 职业事故树分析(OATA) 词频-逆文档频率 TextRank算法
在线阅读 下载PDF
基于R语言和TF-IDF模型对《蒙医方剂全书》中肾病相关方剂的量化研究
7
作者 闫鑫媛 纪新建 +3 位作者 张欣雨 陈明昊 祁乐 张志芳 《药学前沿》 2025年第1期122-130,共9页
目的对《蒙医方剂全书》中治疗肾病的组方用药规律等进行量化研究,为治疗肾病的药物研究和临床应用提供参考。方法通过收集整理《蒙医方剂全书》中干预肾病的方剂,运用R语言技术和词频-逆文档频率(TF-IDF)模型等对其进行规律挖掘和分析... 目的对《蒙医方剂全书》中治疗肾病的组方用药规律等进行量化研究,为治疗肾病的药物研究和临床应用提供参考。方法通过收集整理《蒙医方剂全书》中干预肾病的方剂,运用R语言技术和词频-逆文档频率(TF-IDF)模型等对其进行规律挖掘和分析。结果收集113首运用蒙医药干预肾病的方剂,涉及医书23部,药物183种,使用频率最高的药物为白豆蔻,高频药物(频数>20)药性温、凉均等,味以辛甘苦为主。对于寒盛型、热盛型、赫依盛型、其他肾病的TF-IDF模型识别度最高的药物为白豆蔻。共整理出关联规则46条,其中刀豆配伍白豆蔻和五灵脂配伍白豆蔻的支持度最高。结论由《蒙医方剂全书》中规律可知,蒙医药干预肾病以白豆蔻为核心,用药多苦辛合用,白豆蔻配红花治疗热盛型肾病;白豆蔻配大托叶云实治疗寒盛型肾病;白豆蔻配伍诃子抑制赫依盛型肾病。3个新方组药简单精粹,分别适用于肾病的三大证型,为蒙医药理论与现代药理联合深入研究开发奠定理论基础。 展开更多
关键词 蒙医药 R语言 词频-逆文档频率 肾病 用药规律 数据挖掘 方剂
暂未订购
基于文本挖掘的民航飞行风险评价指标研究
8
作者 汪磊 安佳宁 史少铭 《安全与环境学报》 北大核心 2025年第3期825-834,共10页
为定量评价民航飞行风险,研究提出一种基于文本挖掘的民航飞行风险评价指标识别方法。该方法聚焦于冲偏出跑道、可控飞行撞地、空中失控3类典型核心风险事件,收集全球运输航空2008-2023年相关事故调查报告共210篇。利用词频与逆文档频... 为定量评价民航飞行风险,研究提出一种基于文本挖掘的民航飞行风险评价指标识别方法。该方法聚焦于冲偏出跑道、可控飞行撞地、空中失控3类典型核心风险事件,收集全球运输航空2008-2023年相关事故调查报告共210篇。利用词频与逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF)和潜在狄利克雷分布主题模型(Latent Dirichlet Allocation,LDA)提取语料中主题及关键词,参考航空公司飞行品质监控标准文件,归纳3类核心风险评价指标,并结合相关文献规范,构建民航飞行风险评价指标体系。采集某航空公司B737-800机型60条航班数据,对评价指标体系的合理性开展实例验证。结果显示:该方法能够客观高效地识别飞行风险指标,实现了对5名飞行员个体风险的量化排序。研究结果可应用于飞行风险评价,为后续建立风险量化模型奠定基础。 展开更多
关键词 安全工程 风险评价 文本挖掘 词频与逆文档频率 潜在迪利克雷分布
原文传递
高危企业非财务报告安全应急信息披露质量评价
9
作者 王喜升 刘贇 李明威 《中国安全科学学报》 北大核心 2025年第12期238-245,共8页
为揭示高危行业在安全应急信息披露中存在的差异与不足,推动企业强化安全主体责任,提升应急管理能力,通过高危行业社会责任(CSR)报告和年报等多途径信息来源,收集1593家上市公司2008—2023年的文本信息,就可靠性、相关性、量化性3个维度... 为揭示高危行业在安全应急信息披露中存在的差异与不足,推动企业强化安全主体责任,提升应急管理能力,通过高危行业社会责任(CSR)报告和年报等多途径信息来源,收集1593家上市公司2008—2023年的文本信息,就可靠性、相关性、量化性3个维度,引入频率-逆频加权词频(TF-IDF)的权重方法,搭建12个指标的安全应急信息披露质量评价框架。研究结果表明:CSR报告披露安全应急信息更全面,已成为主要渠道;整体披露质量水平偏低,目前披露质量得分中上游的公司占少数,公司间差距显著不断扩大;披露内容逐渐聚焦应急预案建设、突发事件响应及风险防控策略,但在安全投入、法规遵守等方面的量化性披露仍显不足;不同行业在披露企业数量、关注重点及披露质量上差异明显,缺乏统一规范。 展开更多
关键词 高危企业 非财务报告 安全应急信息 信息披露质量 社会责任(CSR) 频率-逆频加权词频(TF-IDF)
原文传递
融合多模态信息的跨媒体知识文本分类算法
10
作者 刘欢 李宏亮 陈维汉 《吉林大学学报(信息科学版)》 2025年第5期1138-1143,共6页
针对跨媒体知识文本分类涉及多种类型的数据,并且其间的差异性和异构性增加了分类的复杂性,使大量跨媒体知识文本中难以精确寻找资料的问题,提出融合多模态信息的跨媒体知识文本分类算法。利用词频-逆文档频率(TF-IDF:Term Frequency-In... 针对跨媒体知识文本分类涉及多种类型的数据,并且其间的差异性和异构性增加了分类的复杂性,使大量跨媒体知识文本中难以精确寻找资料的问题,提出融合多模态信息的跨媒体知识文本分类算法。利用词频-逆文档频率(TF-IDF:Term Frequency-Inverse Document Frequency)算法,过滤处理文本中的停用词,提取文本特征,并将其与图像文本特征相融合;利用朴素贝叶斯分类器,判断跨媒体知识文本类别的归属,实现知识文本分类。通过实验分析结果表明,所提文本分类算法显著提升了跨媒体知识文本分类的性能和效率,使分类结果更加准确,查准率高达95.12%,漏检率维持在10%以下。 展开更多
关键词 文本分类 TF-IDF算法 双线性池化 朴素贝叶斯分类器
在线阅读 下载PDF
一种基于聚类的PU主动文本分类方法 被引量:24
11
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 PU(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term frequency inverse positive negative document frequency) 主动学习 可信反例 改进的Rocchio
在线阅读 下载PDF
基于词频统计的文本关键词提取方法 被引量:85
12
作者 罗燕 赵书良 +2 位作者 李晓超 韩玉辉 丁亚飞 《计算机应用》 CSCD 北大核心 2016年第3期718-725,共8页
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大... 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。 展开更多
关键词 词频统计 齐普夫定律 同频词 关键词提取 TF-IDF算法
在线阅读 下载PDF
TFIDF算法研究综述 被引量:227
13
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 TFIDF 文本分类 VSM
在线阅读 下载PDF
基于信息增益与信息熵的TFIDF算法 被引量:48
14
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 TFIDF算法
在线阅读 下载PDF
基于VSM的文本相似度计算的研究 被引量:101
15
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频—逆文档频率法 向量空间模型
在线阅读 下载PDF
基于TFIDF的特征选择方法 被引量:23
16
作者 王美方 刘培玉 朱振方 《计算机工程与设计》 CSCD 北大核心 2007年第23期5795-5796,5799,共3页
在文本分类系统中,特征选择方法是一种有效的降维方法。在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,... 在文本分类系统中,特征选择方法是一种有效的降维方法。在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷。实验证明该方法简单可行,有助于提高所选特征子集的有效性。 展开更多
关键词 特征选择 术语频率 逆文档频率 文本分类 评价函数
在线阅读 下载PDF
基于文档频率的特征选择方法 被引量:27
17
作者 杨凯峰 张毅坤 李燕 《计算机工程》 CAS CSCD 北大核心 2010年第17期33-35,38,共4页
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向... 传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。 展开更多
关键词 文本分类 特征选择 文档频率 词频率 支持向量机
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
18
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:31
19
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 TFIDF
在线阅读 下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
20
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 TFIDF 文本分类 特征加权 向量空间模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部