通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性...通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性较差;这两大问题,正是影响文档高效、精准自动分类的突出障碍。基于此,论文构建了一个融合TF-IDF(Term Frequency-Inverse Document Frequency)和GloVe(Global Vectors for Word Representation)的文本自动分类系统。该系统首先就词性影响因子和位置权重系数对TF-IDF算法进行改进,以弥补传统TF-IDF算法在关键词识别和语义分析上的不足;其次,使用GloVe模型对关键词集进一步扩充,使文本自动分类的准确率和召回率分别达到92.6%和90.9%;最后,通过实验比对,进一步验证该系统在处理多类别文本自动分类任务中的有效性。展开更多
针对畜禽疫病文本中特征项权重分配不准导致诊断准确率较低的问题,利用提出的TF-IIGM-NW(Term Frequency-Improved Inverse Gravity Moment With Normalization and Weighting)改进算法结合Word2vec词向量进行文本向量化表示。该方法在T...针对畜禽疫病文本中特征项权重分配不准导致诊断准确率较低的问题,利用提出的TF-IIGM-NW(Term Frequency-Improved Inverse Gravity Moment With Normalization and Weighting)改进算法结合Word2vec词向量进行文本向量化表示。该方法在TF-IIGM(Term Frequency-Improved Inverse Gravity Moment)算法的基础之上,对其进行归一化处理并结合基于关键词抽取算法设定的规则,进一步提升文本内核心关键词权重,然后将其与结合Word2vec词向量获取的文本向量化表示结果输入支持向量机(Support Vector Machine,SVM)进行畜禽疫病诊断。为了验证算法的有效性,基于自建的羊疫病文本数据集,将改进算法与现有词向量常见处理方式进行对比分析。结果表明,基于TF-IIGM-NW算法的macro-F1值与micro-F1值分别达到96.73%,96.76%;与传统经典算法TF-IDF(Term Frequency-Inverse Document Frequency)相比,分别提升2.25%,2.26%;与TF-IIGM算法相比,分别提高0.90%,0.97%。改进算法能够有效提升疫病诊断性能。通过SVM在每类疫病上的实验结果分析表明,羊口疮疫病类别最易被错判。展开更多
文摘通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性较差;这两大问题,正是影响文档高效、精准自动分类的突出障碍。基于此,论文构建了一个融合TF-IDF(Term Frequency-Inverse Document Frequency)和GloVe(Global Vectors for Word Representation)的文本自动分类系统。该系统首先就词性影响因子和位置权重系数对TF-IDF算法进行改进,以弥补传统TF-IDF算法在关键词识别和语义分析上的不足;其次,使用GloVe模型对关键词集进一步扩充,使文本自动分类的准确率和召回率分别达到92.6%和90.9%;最后,通过实验比对,进一步验证该系统在处理多类别文本自动分类任务中的有效性。