期刊文献+
共找到267篇文章
< 1 2 14 >
每页显示 20 50 100
Application of the probability-based covering algorithm model in text classification
1
作者 ZHOU Ying 《Chinese Journal of Library and Information Science》 2009年第4期1-17,共17页
The probability-based covering algorithm(PBCA) is a new algorithm based on probability distribution. It decides, by voting, the class of the tested samples on the border of the coverage area, based on the probability ... The probability-based covering algorithm(PBCA) is a new algorithm based on probability distribution. It decides, by voting, the class of the tested samples on the border of the coverage area, based on the probability of training samples. When using the original covering algorithm(CA), many tested samples that are located on the border of the coverage cannot be classified by the spherical neighborhood gained. The network structure of PBCA is a mixed structure composed of both a feed-forward network and a feedback network. By using this method of adding some heterogeneous samples and enlarging the coverage radius,it is possible to decrease the number of rejected samples and improve the rate of recognition accuracy. Relevant computer experiments indicate that the algorithm improves the study precision and achieves reasonably good results in text classification. 展开更多
关键词 Probability-based covering algorithm Structural training algorithm PROBABILITY text classification
原文传递
A Short Text Classification Model for Electrical Equipment Defects Based on Contextual Features 被引量:1
2
作者 LI Peipei ZENG Guohui +5 位作者 HUANG Bo YIN Ling SHI Zhicai HE Chuanpeng LIU Wei CHEN Yu 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2022年第6期465-475,共11页
The defective information of substation equipment is usually recorded in the form of text. Due to the irregular spoken expressions of equipment inspectors, the defect information lacks sufficient contextual informatio... The defective information of substation equipment is usually recorded in the form of text. Due to the irregular spoken expressions of equipment inspectors, the defect information lacks sufficient contextual information and becomes more ambiguous.To solve the problem of sparse data deficient of semantic features in classification process, a short text classification model for defects in electrical equipment that fuses contextual features is proposed. The model uses bi-directional long-short term memory in short text classification to obtain the contextual semantics of short text data. Also, the attention mechanism is introduced to assign weights to different information in the context. Meanwhile, this model optimizes the convolutional neural network parameters with the help of the genetic algorithm for extracting salient features. According to the experimental results, the model can effectively realize the classification of power equipment defect text. In addition, the model was tested on an automotive parts repair dataset provided by the project partners, thus enabling the effective application of the method in specific industrial scenarios. 展开更多
关键词 short text classification genetic algorithm convolutional neural network attention mechanism
原文传递
Ensemble Filter-Wrapper Text Feature Selection Methods for Text Classification 被引量:1
3
作者 Oluwaseun Peter Ige Keng Hoon Gan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第11期1847-1865,共19页
Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves elim... Feature selection is a crucial technique in text classification for improving the efficiency and effectiveness of classifiers or machine learning techniques by reducing the dataset’s dimensionality.This involves eliminating irrelevant,redundant,and noisy features to streamline the classification process.Various methods,from single feature selection techniques to ensemble filter-wrapper methods,have been used in the literature.Metaheuristic algorithms have become popular due to their ability to handle optimization complexity and the continuous influx of text documents.Feature selection is inherently multi-objective,balancing the enhancement of feature relevance,accuracy,and the reduction of redundant features.This research presents a two-fold objective for feature selection.The first objective is to identify the top-ranked features using an ensemble of three multi-univariate filter methods:Information Gain(Infogain),Chi-Square(Chi^(2)),and Analysis of Variance(ANOVA).This aims to maximize feature relevance while minimizing redundancy.The second objective involves reducing the number of selected features and increasing accuracy through a hybrid approach combining Artificial Bee Colony(ABC)and Genetic Algorithms(GA).This hybrid method operates in a wrapper framework to identify the most informative subset of text features.Support Vector Machine(SVM)was employed as the performance evaluator for the proposed model,tested on two high-dimensional multiclass datasets.The experimental results demonstrated that the ensemble filter combined with the ABC+GA hybrid approach is a promising solution for text feature selection,offering superior performance compared to other existing feature selection algorithms. 展开更多
关键词 Metaheuristic algorithms text classification multi-univariate filter feature selection ensemble filter-wrapper techniques
在线阅读 下载PDF
An Effective Concept Extraction Method for Improving Text Classification Performance
4
作者 ZHANGYuntao GONGLing +1 位作者 WANGYongcheng YINZhonghang 《Geo-Spatial Information Science》 2003年第4期66-72,共7页
This paper presents anew way to extract concept that can beused to improve text classification per-formance (precision and recall). Thecomputational measure will be dividedinto two layers. The bottom layercalled docum... This paper presents anew way to extract concept that can beused to improve text classification per-formance (precision and recall). Thecomputational measure will be dividedinto two layers. The bottom layercalled document layer is concernedwith extracting the concepts of parti-cular document and the upper layercalled category layer is with findingthe description and subject concepts ofparticular category. The relevant im-plementation algorithm that dramatic-ally decreases the search space is dis-cussed in detail. The experiment basedon real-world data collected from Info-Bank shows that the approach is supe-rior to the traditional ones. 展开更多
关键词 text classification concept extraction characteristic term associationrule algorithm
在线阅读 下载PDF
Automatic Arabic Document Classification Based on the HRWiTD Algorithm
5
作者 Ehsan Othman Ayoub Al-Hamadi 《Journal of Software Engineering and Applications》 2018年第4期167-179,共13页
The documents contain a large amount of valuable knowledge on various subjects and, more recently, documents on the Internet are available from various sources. Therefore, automatic, rapid and accurate classification ... The documents contain a large amount of valuable knowledge on various subjects and, more recently, documents on the Internet are available from various sources. Therefore, automatic, rapid and accurate classification of these documents with less human interaction has become necessary. In this paper, we introduce a new algorithm called the highest repetition of words in a text document (HRWiTD) to classify the automatic Arabic text. The corpus is divided into a train set and a test set to be applied to proposed classification technique. The train set is analyzed for learning and the learning data is stored in the Learning Dataset file. The category that contains the highest repetition for each word is assigned as a category for the word in Learning Dataset file. This file includes non-duplicate words with the value of higher repetition and categories and they get from all texts in the train set. For each text in the test set, the category of words is assigned to a specific category by using Learning Dataset file. The category that contains the largest number of words is assigned as the predicted category of the text. To evaluate the classification accuracy of the HRWiTD algorithm, the confusion matrix method is used. The HRWiTD algorithm has been applied to convergent samples from six categories of Arabic news at SPA (Saudi Press Agency). As a result, the accuracy of the HRWiTD algorithm is 86.84%. In addition, we used the same corpus with the most popular machine learning algorithms which are C5.0, KNN, SVM, NB and C4.5, and their results of classification accuracy are 52.86%, 52.38%, 51.90%, 51.90% and 30%, respectively. Thus, the HRWiTD algorithm gives better classification accuracy compared to the most popular machine learning algorithms on the selected domain. 展开更多
关键词 AUTOMATIC text classification CONFUSION Matrix SPA Machine Learning algorithms
暂未订购
基于改进卷积神经网络的微博文本情感分类模型
6
作者 章美芳 俞龙 孙道宗 《济南大学学报(自然科学版)》 北大核心 2026年第2期297-304,共8页
为了提高微博文本情感分类模型的性能,将卷积神经网络用于文本训练,并采用樽海鞘群算法优化求解卷积神经网络权重;对微博文本进行样本初始化并采用Word2Vec模型进行样本向量化,并建立卷积神经网络微博文本情感分类模型;将权重和偏置参... 为了提高微博文本情感分类模型的性能,将卷积神经网络用于文本训练,并采用樽海鞘群算法优化求解卷积神经网络权重;对微博文本进行样本初始化并采用Word2Vec模型进行样本向量化,并建立卷积神经网络微博文本情感分类模型;将权重和偏置参数作为多个樽海鞘个体进行训练,并采用樽海鞘群算法的领队和追随者的的位置更新不断优化;对比所有樽海鞘个体和食物位置的适应度值,取适应度值最大的个体即获得卷积神经网络最优权重和偏置;采用经樽海鞘群算法优化的卷积神经网络对微博文本进行情感分类仿真验证。结果表明,通过合理设置樽海鞘群算法的控制参数,能够得到更优的卷积神经网络参数;与常用微博文本情感分类模型相比,樽海鞘群算法优化的卷积神经网络具有更高的分类准确率。 展开更多
关键词 微博文本 情感分类 卷积神经网络 樽海鞘群算法
在线阅读 下载PDF
基于TextCNN模型的文本意图识别算法改进研究 被引量:11
7
作者 窦乔 吕博文 +3 位作者 汪洲 邵锦依 郑懿 钟毅 《武汉理工大学学报》 CAS 2023年第8期133-139,共7页
文本分类算法常被用于自然语言处理领域,该算法可帮助系统理解用户输入的文本,准确判断用户的意图或需求,以便提供相应的回答或服务。作者在TextCNN文本分类模型的基础上融入情绪信息、词向量以及语句特征,提出一种新的意图识别模型emoB... 文本分类算法常被用于自然语言处理领域,该算法可帮助系统理解用户输入的文本,准确判断用户的意图或需求,以便提供相应的回答或服务。作者在TextCNN文本分类模型的基础上融入情绪信息、词向量以及语句特征,提出一种新的意图识别模型emoBERT-TextCNN,该模型可增强意图分析与预测的准确性。以汽车行业和电子消费品两个独立数据集为例,将此模型与其他多种分类模型进行对比实验,实验结果表明文中所提出的分类模型,意图预测精确率均在80%以上,与不包含情绪信息的分类模型相比,其F1值分别提升了1.54%和1.03%,证明该模型能有效提高文本分类的准确性,且融入情绪信息能加强意图识别的强度。 展开更多
关键词 人工智能 自然语言处理 文本分类算法 意图识别技术 特征增强
原文传递
基于CI-GAT的煤矿安全事故文本分类研究
8
作者 杨锦涛 杨超宇 《矿产保护与利用》 2026年第1期56-67,共12页
针对煤矿生产领域事故的复杂性、类别的不平衡性以及事故致因和事故类别之间的因果性,提出了一种基于因果效应和图注意力网络的煤矿安全事故文本图数据分类算法CI-GAT,根据事故潜在致因预测煤矿安全事故类别。算法以CI-GNN模型为基础框... 针对煤矿生产领域事故的复杂性、类别的不平衡性以及事故致因和事故类别之间的因果性,提出了一种基于因果效应和图注意力网络的煤矿安全事故文本图数据分类算法CI-GAT,根据事故潜在致因预测煤矿安全事故类别。算法以CI-GNN模型为基础框架,首先优化了GraphVAE模块,编码器部分通过增加GCN层构建更深的GCN结构,解码器部分引入BatchNorm和Dropout,更加全面地解码事故文本图的致因节点。在算法的分类器模块使用GAT网络代替GIN,更好地捕获事故节点之间的依赖关系。此外,通过引入类别原型存储器实现事故的类别增强,降低类别不平衡的影响,在多粒度特征融合模块引进门控机制FusionGate以融合事故的全局特征和节点特征,将结果传入包含两个自适应残差块的MLP的解码器进行解码,输出事故类别预测结果。在自建的煤矿安全事故文本图数据集上进行实验,准确率、精确率、召回率和F1值分别为96.3%、89.8%、93%和0.913,验证了所提出的算法在煤矿安全事故文本图数据集上分类的优势。 展开更多
关键词 煤矿安全事故 CI-GAT算法 因果效应 GraphVAE FusionGate 文本图分类
在线阅读 下载PDF
Multi-Label Chinese Comments Categorization: Comparison of Multi-Label Learning Algorithms 被引量:4
9
作者 Jiahui He Chaozhi Wang +2 位作者 Hongyu Wu Leiming Yan Christian Lu 《Journal of New Media》 2019年第2期51-61,共11页
Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages suc... Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages such as English which use spaces to separate words.Before classifying text, it is necessary to perform a word segmentation operation to converta continuous language into a list of separate words and then convert it into a vector of acertain dimension. Generally, multi-label learning algorithms can be divided into twocategories, problem transformation methods and adapted algorithms. This work will usecustomer's comments about some hotels as a training data set, which contains labels for allaspects of the hotel evaluation, aiming to analyze and compare the performance of variousmulti-label learning algorithms on Chinese text classification. The experiment involves threebasic methods of problem transformation methods: Support Vector Machine, Random Forest,k-Nearest-Neighbor;and one adapted algorithm of Convolutional Neural Network. Theexperimental results show that the Support Vector Machine has better performance. 展开更多
关键词 Multi-label classification Chinese text classification problem transformation adapted algorithms
在线阅读 下载PDF
Research and Implementation of Text Similarity System Based on Power Spectrum Analysis 被引量:1
10
作者 Ying Xie Shouning Qu Huanhuan Song 《Journal of Computer and Communications》 2014年第6期7-17,共11页
The paper proposed the research and implement of text similarity system based on power spectrum analysis. It is not difficult to imagine that the signals of brain are closely linked with writing process. So we build t... The paper proposed the research and implement of text similarity system based on power spectrum analysis. It is not difficult to imagine that the signals of brain are closely linked with writing process. So we build text modeling and set pulse signal function to get the power spectrum of the text. The specific detail is getting power spectrum from economic field to build spectral library, and then using the method of power spectrum matching algorithm to judge whether the test text belonged to the economic field. The method made text similarity system finish the function of text intelligent classification efficiently and accurately. 展开更多
关键词 Pulsing Signal Function Power SPECTRUM MATCHING algorithm text SIMILARITY SYSTEM text Intelligent classification
在线阅读 下载PDF
基于TF-IDF和GloVe算法面向多种类别文本自动分类系统的优化研究
11
作者 刘爱琴 王上丹 《新世纪图书馆》 2025年第10期40-46,共7页
通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性... 通过检索关键词,指定一个或多个类别标签实现文本的高效组织和自动分类,是发现文档中的隐含关系、推动知识传播和创新的重要途径。然而,检索关键词的获取位置、词性以及选取是否全面等因素,会导致关键词语义信息缺失和关键词识别准确性较差;这两大问题,正是影响文档高效、精准自动分类的突出障碍。基于此,论文构建了一个融合TF-IDF(Term Frequency-Inverse Document Frequency)和GloVe(Global Vectors for Word Representation)的文本自动分类系统。该系统首先就词性影响因子和位置权重系数对TF-IDF算法进行改进,以弥补传统TF-IDF算法在关键词识别和语义分析上的不足;其次,使用GloVe模型对关键词集进一步扩充,使文本自动分类的准确率和召回率分别达到92.6%和90.9%;最后,通过实验比对,进一步验证该系统在处理多类别文本自动分类任务中的有效性。 展开更多
关键词 TF-IDF算法 GloVe模型 文本自动分类 关键词位置 词性 语义扩展
在线阅读 下载PDF
基于MRMR和SVM的短文本分类算法改进研究 被引量:1
12
作者 章启超 周莲英 丁腊春 《计算机与数字工程》 2025年第1期164-169,共6页
特征集质量和分类器性能是影响短文本分类效果的两个重要因素。具有最大特征最小冗余特点的MRMR算法是目前常用的特征降维算法,论文通过基于词分布频率的调节因子改进该算法,调节因子会在计算特征互信息值的时候降低低频特征词的权重,... 特征集质量和分类器性能是影响短文本分类效果的两个重要因素。具有最大特征最小冗余特点的MRMR算法是目前常用的特征降维算法,论文通过基于词分布频率的调节因子改进该算法,调节因子会在计算特征互信息值的时候降低低频特征词的权重,解决低频词语与特征标签之间高依赖的问题。之后以支持向量机为基础分类器,通过加入了变步长因子的萤火虫算法对其进行参数寻优,变步长因子的自适应性解决了萤火虫算法出现的震荡等现象,最后利用Adaboost框架迭代训练出多个不同权重的SVM基础分类器,集成得到性能更优的强分类器。论文使用网络爬虫获取的短文本数据集进行验证,以精确率(P)、召回率(R)、F1值做为评估标准,优化后的算法相比原算法在精确率上提高8%,召回率提高10%,F1值提高9%,因此实验结果表明优化后的算法具有更高的效率。 展开更多
关键词 短文本分类 特征降维 MRMR算法 支持向量机 ADABOOST
在线阅读 下载PDF
基于KNN算法的电子档案信息文本自动分类方法 被引量:5
13
作者 杨易木 《办公自动化》 2025年第5期14-16,共3页
文章深入探讨文本自动分类的领域,聚焦于一种广泛应用的基于内容的分类技术——KNN(K-Nearest Neighbors)算法,对其原理和应用进行重点介绍。采用KNN算法结合优化的词特征权重评估与文本相似性计算技术,实现文本的自动分类。经过KNN分... 文章深入探讨文本自动分类的领域,聚焦于一种广泛应用的基于内容的分类技术——KNN(K-Nearest Neighbors)算法,对其原理和应用进行重点介绍。采用KNN算法结合优化的词特征权重评估与文本相似性计算技术,实现文本的自动分类。经过KNN分类处理后,分类结果的准确率和召回率均显著提升。 展开更多
关键词 KNN算法 文本自动分类 数据挖掘
在线阅读 下载PDF
基于机器学习的汉语儿童阅读材料可读性评估方法研究
14
作者 杨智渤 《情报科学》 北大核心 2025年第3期91-98,共8页
【目的/意义】文本可读性是衡量阅读材料难度的重要指标,发展汉语文本可读性评估方法,并利用该方法对儿童阅读材料进行评估,可以为不同阅读水平的读者筛选出难度适宜的读物,从而有效提升阅读能力。【方法/过程】本文以小学语文教材为测... 【目的/意义】文本可读性是衡量阅读材料难度的重要指标,发展汉语文本可读性评估方法,并利用该方法对儿童阅读材料进行评估,可以为不同阅读水平的读者筛选出难度适宜的读物,从而有效提升阅读能力。【方法/过程】本文以小学语文教材为测试样本,基于4种传统机器学习算法(线性回归、支持向量机、决策树分类器、K-最近邻)、5种集成学习算法(随机森林分类器、极度随机树、AdaBoost、Bagging和XGBoost)和1种人工神经网络的多层感知构建了10个文本可读性分类器,并对其进行对比评估。【结果/结论】研究发现基于集成学习策略的随机森林、Bagging和XGBoost分类器较其他分类器具有更高的分类准确性,其交叉验证的最大准确率和F1值均超过了0.75。特别是基于随机森林模型构建的文本可读性分类器在小学语文教材可读性预测方面表现出优异的性能,其交叉验证的最大准确率和F1值都超过了0.76。【创新/局限】本研究为汉语儿童读物的难度评估和材料筛选提供了有效工具,未来拟采集更多的汉语文本数据,结合更先进的深度学习算法,进一步提高汉语文本可读性分类器的准确度和适用范围。 展开更多
关键词 文本可读性 机器学习 难度评估 分类模型
原文传递
基于固定初始种群遗传算法的文本特征选择方法研究
15
作者 王兆刚 《运筹与管理》 北大核心 2025年第8期77-82,I0046-I0060,共21页
基于遗传算法(Genetic Algorithm,GA)的文本特征选择研究,较多忽视了初始种群的随机性,对特征选择的不利影响。因此,本文提出一种卡方检验(CHI)结合固定初始种群GA的文本特征选择方法CHI_FIPGA,将GA的初始种群设定为选取CHI值较高的特征... 基于遗传算法(Genetic Algorithm,GA)的文本特征选择研究,较多忽视了初始种群的随机性,对特征选择的不利影响。因此,本文提出一种卡方检验(CHI)结合固定初始种群GA的文本特征选择方法CHI_FIPGA,将GA的初始种群设定为选取CHI值较高的特征词,通过选取特征词数量的不同,保持初始种群中个体间的差异性,以分类模型的分类准确率作为适应度,经过选择、交叉、变异等遗传操作,在全体特征词范围内迭代寻优。选取中文文本分类实验数据集,运用多层感知器神经网络、随机森林、朴素贝叶斯、K近邻、决策树等不同分类模型,与GA,CHI_GA,PSO,CHI_PSO等方法的最优解结果进行对比分析。实验结果表明,相对于GA,CHI_GA,PSO,CHI_PSO方法,CHI_FIPGA的最优解分类准确率更高,特征词数量更少,尤其在类别数量较多的数据集上,CHI_FIPGA方法的优势更加明显。 展开更多
关键词 文本分类 特征选择 遗传算法 卡方检验 初始种群
在线阅读 下载PDF
融合多模态信息的跨媒体知识文本分类算法
16
作者 刘欢 李宏亮 陈维汉 《吉林大学学报(信息科学版)》 2025年第5期1138-1143,共6页
针对跨媒体知识文本分类涉及多种类型的数据,并且其间的差异性和异构性增加了分类的复杂性,使大量跨媒体知识文本中难以精确寻找资料的问题,提出融合多模态信息的跨媒体知识文本分类算法。利用词频-逆文档频率(TF-IDF:Term Frequency-In... 针对跨媒体知识文本分类涉及多种类型的数据,并且其间的差异性和异构性增加了分类的复杂性,使大量跨媒体知识文本中难以精确寻找资料的问题,提出融合多模态信息的跨媒体知识文本分类算法。利用词频-逆文档频率(TF-IDF:Term Frequency-Inverse Document Frequency)算法,过滤处理文本中的停用词,提取文本特征,并将其与图像文本特征相融合;利用朴素贝叶斯分类器,判断跨媒体知识文本类别的归属,实现知识文本分类。通过实验分析结果表明,所提文本分类算法显著提升了跨媒体知识文本分类的性能和效率,使分类结果更加准确,查准率高达95.12%,漏检率维持在10%以下。 展开更多
关键词 文本分类 TF-IDF算法 双线性池化 朴素贝叶斯分类器
在线阅读 下载PDF
应用特征聚合进行中文文本分类的改进KNN算法 被引量:60
17
作者 张晓辉 李莹 +1 位作者 王华勇 赵宏 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第3期229-232,共4页
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传... 针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 。 展开更多
关键词 改进KNN算法 中文文本分类 分类贡献模式 特征聚合
在线阅读 下载PDF
基于文本内容的敏感数据识别方法研究与实现 被引量:19
18
作者 李伟伟 张涛 +3 位作者 林为民 邓松 时坚 汪晨 《计算机工程与设计》 CSCD 北大核心 2013年第4期1202-1206,共5页
为了防止敏感数据的泄露,为数据的访问控制提供依据,提出并实现了一种基于中文文本内容的敏感数据识别方法。通过对敏感数据库和已知分类文档库的学习,完成对文本中敏感数据识别的阙值的确定和未知文档是否敏感数据的判断过程。描述了... 为了防止敏感数据的泄露,为数据的访问控制提供依据,提出并实现了一种基于中文文本内容的敏感数据识别方法。通过对敏感数据库和已知分类文档库的学习,完成对文本中敏感数据识别的阙值的确定和未知文档是否敏感数据的判断过程。描述了预处理、文本识别、阙值确定的详细设计和实现过程。通过对搜狗语料库中教育相关部分文本的识别,验证该方法的敏感数据识别过程简单实用并且具有较高的正确率。 展开更多
关键词 敏感数据 文本识别 内容识别 数据防泄漏 分类算法
在线阅读 下载PDF
基于上下文重构的短文本情感极性判别研究 被引量:22
19
作者 杨震 赖英旭 +1 位作者 段立娟 李玉鑑 《自动化学报》 EI CSCD 北大核心 2012年第1期55-67,共13页
文本对象所固有的多义性,面对短文本特征稀疏和上下文缺失的情况,现有处理方法无法明辨语义,形成了底层特征和高层表达之间巨大的语义鸿沟.本文尝试借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,提升情感极... 文本对象所固有的多义性,面对短文本特征稀疏和上下文缺失的情况,现有处理方法无法明辨语义,形成了底层特征和高层表达之间巨大的语义鸿沟.本文尝试借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,提升情感极性分类性能.具体做法对应一个两阶段处理过程:1)基于短文本的内在联系将其初步重组成上下文(领域);2)将待处理短文本归入适合的上下文(领域)进行深入处理.首先给出了基于NaiveBayes分类器的短文本情感极性分类基本框架,揭示出上下文(领域)范畴差异对分类性能的影响.接下来讨论了基于领域归属划分的文本情感极性分类增强方法,并将领域的概念扩展为上下文关系,提出了基于特殊上下文关系的文本情感极性判别方法.同时为了解决由于信息缺失所造成的上下文重组困难,给出基于遗传算法的任意上下文重组方案.理论分析表明,满足限制条件的前提下,基于上下文重构的情感极性判别方法能够同时降低抽样误差(Sample error)和近似误差(Approximation error).真实数据集上的实验结果也验证了理论分析的结论. 展开更多
关键词 舆情分析 短文本处理 情感计算 误差分析 遗传算法
在线阅读 下载PDF
云计算环境下朴素贝叶斯文本分类算法的实现 被引量:21
20
作者 江小平 李成华 +1 位作者 向文 张新访 《计算机应用》 CSCD 北大核心 2011年第9期2551-2554,2566,共5页
采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后... 采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。 展开更多
关键词 云计算 并行计算 MapReduce编程模型 文本分类 朴素贝叶斯算法
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部