期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
Long Text Classification Algorithm Using a Hybrid Model of Bidirectional Encoder Representation from Transformers-Hierarchical Attention Networks-Dilated Convolutions Network 被引量:1
1
作者 ZHAO Yuanyuan GAO Shining +1 位作者 LIU Yang GONG Xiaohui 《Journal of Donghua University(English Edition)》 CAS 2021年第4期341-350,共10页
Text format information is full of most of the resources of Internet,which puts forward higher and higher requirements for the accuracy of text classification.Therefore,in this manuscript,firstly,we design a hybrid mo... Text format information is full of most of the resources of Internet,which puts forward higher and higher requirements for the accuracy of text classification.Therefore,in this manuscript,firstly,we design a hybrid model of bidirectional encoder representation from transformers-hierarchical attention networks-dilated convolutions networks(BERT_HAN_DCN)which based on BERT pre-trained model with superior ability of extracting characteristic.The advantages of HAN model and DCN model are taken into account which can help gain abundant semantic information,fusing context semantic features and hierarchical characteristics.Secondly,the traditional softmax algorithm increases the learning difficulty of the same kind of samples,making it more difficult to distinguish similar features.Based on this,AM-softmax is introduced to replace the traditional softmax.Finally,the fused model is validated,which shows superior performance in the accuracy rate and F1-score of this hybrid model on two datasets and the experimental analysis shows the general single models such as HAN,DCN,based on BERT pre-trained model.Besides,the improved AM-softmax network model is superior to the general softmax network model. 展开更多
关键词 long text classification dilated convolution BERT fusing context semantic features hierarchical characteristics BERT_HAN_DCN AM-softmax
在线阅读 下载PDF
Concept Association and Hierarchical Hamming Clustering Model in Text Classification
2
作者 SuGui-yang LiJian-hua MaYing-hua LiSheng-hong YinZhong-hang 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第3期339-342,共4页
We propose two models in this paper. The concept of association model is put forward to obtain the co-occurrence relationships among keywords in the documents and the hierarchical Hamming clustering model is used to r... We propose two models in this paper. The concept of association model is put forward to obtain the co-occurrence relationships among keywords in the documents and the hierarchical Hamming clustering model is used to reduce the dimensionality of the category feature vector space which can solve the problem of the extremely high dimensionality of the documents' feature space. The results of experiment indicate that it can obtain the co-occurrence relations among key-words in the documents which promote the recall of classification system effectively. The hierarchical Hamming clustering model can reduce the dimensionality of the category feature vector efficiently, the size of the vector space is only about 10% of the primary dimensionality. Key words text classification - concept association - hierarchical clustering - hamming clustering CLC number TN 915. 08 Foundation item: Supporteded by the National 863 Project of China (2001AA142160, 2002AA145090)Biography: Su Gui-yang (1974-), male, Ph. D candidate, research direction: information filter and text classification. 展开更多
关键词 text classification concept association hierarchical clustering hamming clustering
在线阅读 下载PDF
Leveraging Uncertainty for Depth-Aware Hierarchical Text Classification
3
作者 Zixuan Wu Ye Wang +2 位作者 Lifeng Shen Feng Hu Hong Yu 《Computers, Materials & Continua》 SCIE EI 2024年第9期4111-4127,共17页
Hierarchical Text Classification(HTC)aims to match text to hierarchical labels.Existing methods overlook two critical issues:first,some texts cannot be fully matched to leaf node labels and need to be classified to th... Hierarchical Text Classification(HTC)aims to match text to hierarchical labels.Existing methods overlook two critical issues:first,some texts cannot be fully matched to leaf node labels and need to be classified to the correct parent node instead of treating leaf nodes as the final classification target.Second,error propagation occurs when a misclassification at a parent node propagates down the hierarchy,ultimately leading to inaccurate predictions at the leaf nodes.To address these limitations,we propose an uncertainty-guided HTC depth-aware model called DepthMatch.Specifically,we design an early stopping strategy with uncertainty to identify incomplete matching between text and labels,classifying them into the corresponding parent node labels.This approach allows us to dynamically determine the classification depth by leveraging evidence to quantify and accumulate uncertainty.Experimental results show that the proposed DepthMatch outperforms recent strong baselines on four commonly used public datasets:WOS(Web of Science),RCV1-V2(Reuters Corpus Volume I),AAPD(Arxiv Academic Paper Dataset),and BGC.Notably,on the BGC dataset,it improvesMicro-F1 andMacro-F1 scores by at least 1.09%and 1.74%,respectively. 展开更多
关键词 hierarchical text classification incomplete text-label matching UNCERTAINTY depth-aware early stopping strategy
在线阅读 下载PDF
Hierarchical Classification of Chinese Documents Based on N grams 被引量:1
4
作者 Zhou Shui geng 1, Guan Ji hong 2, He Yan xiang 2 1. State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, China 2. School of Computer Science, Wuhan University, Wuhan 430072, China 《Wuhan University Journal of Natural Sciences》 CAS 2001年第Z1期416-422,共7页
We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation process... We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation processing, and subsequently be domain and time independent. A hierarchical Chinese text classifier is implemented. Experimental results show that hierarchically classifying Chinese text documents based N grams can achieve satisfactory performance and outperforms the other traditional Chinese text classifiers. 展开更多
关键词 Chinese text classification N grams feature selection hierarchical classification
在线阅读 下载PDF
A Hierarchical Two-Level Feature Fusion Approach for SMS Spam Filtering
5
作者 Hussein Alaa Al-Kabbi Mohammad-Reza Feizi-Derakhshi Saeed Pashazadeh 《Intelligent Automation & Soft Computing》 2024年第4期665-682,共18页
SMS spam poses a significant challenge to maintaining user privacy and security.Recently,spammers have employed fraudulent writing styles to bypass spam detection systems.This paper introduces a novel two-level detect... SMS spam poses a significant challenge to maintaining user privacy and security.Recently,spammers have employed fraudulent writing styles to bypass spam detection systems.This paper introduces a novel two-level detection system that utilizes deep learning techniques for effective spam identification to address the challenge of sophisticated SMS spam.The system comprises five steps,beginning with the preprocessing of SMS data.RoBERTa word embedding is then applied to convert text into a numerical format for deep learning analysis.Feature extraction is performed using a Convolutional Neural Network(CNN)for word-level analysis and a Bidirectional Long Short-Term Memory(BiLSTM)for sentence-level analysis.The two-level feature extraction enables a complete understanding of individual words and sentence structure.The novel part of the proposed approach is the Hierarchical Attention Network(HAN),which fuses and selects features at two levels through an attention mechanism.The HAN can deal with words and sentences to focus on the most pertinent aspects of messages for spam detection.This network is productive in capturing meaningful features,considering both word-level and sentence-level semantics.In the classification step,the model classifies the messages into spam and ham.This hybrid deep learning method improve the feature representation,and enhancing the model’s spam detection capabilities.By significantly reducing the incidence of SMS spam,our model contributes to a safer mobile communication environment,protecting users against potential phishing attacks and scams,and aiding in compliance with privacy and security regulations.This model’s performance was evaluated using the SMS Spam Collection Dataset from the UCI Machine Learning Repository.Cross-validation is employed to consider the dataset’s imbalanced nature,ensuring a reliable evaluation.The proposed model achieved a good accuracy of 99.48%,underscoring its efficiency in identifying SMS spam. 展开更多
关键词 SMS spam detection hierarchical attention network text classification natural language processing
在线阅读 下载PDF
结合对比学习和提示调优的层次文本分类方法
6
作者 郑诚 纪子威 《小型微型计算机系统》 北大核心 2025年第8期1878-1885,共8页
层次文本分类是文本分类领域一项重要的子任务,但复杂的标签层次结构使其具有挑战性.目前最先进的方法通过预训练语言模型对文本进行编码,并结合图编码器处理标签结构信息.但是,独立建模文本和标签信息可能导致信息利用率不高,预训练和... 层次文本分类是文本分类领域一项重要的子任务,但复杂的标签层次结构使其具有挑战性.目前最先进的方法通过预训练语言模型对文本进行编码,并结合图编码器处理标签结构信息.但是,独立建模文本和标签信息可能导致信息利用率不高,预训练和微调阶段的不同策略也限制了模型挖掘预训练模型的知识.本文提出一种结合对比学习和提示调优的层次文本分类方法,将层次标签信息嵌入到文本编码过程,同时设计提示模板整合标签信息,捕获文本与标签的关联性,弥合预训练模型与下游任务间的差距.借助对比学习,根据标签信息生成正样本,强化模型对关键特征的学习与保留,使模型有效指导文本特征表示的学习.在两个公开数据集上的大量实验表明了方法的有效性. 展开更多
关键词 层次文本分类 提示调优 对比学习 深度学习 自然语言处理
在线阅读 下载PDF
基于多尺度特征提取的层次多标签文本分类方法 被引量:2
7
作者 武子轩 王烨 于洪 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期24-30,共7页
针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签... 针对现有的特征提取方法忽略文本局部和全局联系的问题,提出了基于多尺度特征提取的层次多标签文本分类方法。首先,设计了多尺度特征提取模块,对不同尺度特征进行捕捉,更好地表示文本语义。其次,将层次特征嵌入文本表示中,得到具有标签特征的文本语义表示。最后,在标签层次结构的指导下对输入文本构建正负样本,进行对比学习,提高分类效果。在WOS、RCV1-V2、NYT和AAPD数据集上进行对比实验,结果表明,所提模型在评价指标上表现出色,超过了其他主流模型。此外,针对层次分类提出层次Micro-F 1和层次Macro-F 1指标,并对模型效果进行了评价。 展开更多
关键词 层次多标签文本分类 多尺度特征提取 对比学习 层次Micro-F 1 层次Macro-F 1
在线阅读 下载PDF
面向12345政务热线事件分拨的深度行为语义网络
8
作者 陈顺 易修文 +2 位作者 张钧波 李天瑞 郑宇 《计算机科学与探索》 北大核心 2025年第4期1036-1047,共12页
市民在遇到困难时,会通过12345政务服务热线寻求帮助。在收到市民请求之后,热线工作人员将对市民的需求进行分析,并将事件分拨给对应的政府部门进行处理。目前通过人工完成的分拨过程占用了大量的人力资源,同时许多事件被分拨到错误的... 市民在遇到困难时,会通过12345政务服务热线寻求帮助。在收到市民请求之后,热线工作人员将对市民的需求进行分析,并将事件分拨给对应的政府部门进行处理。目前通过人工完成的分拨过程占用了大量的人力资源,同时许多事件被分拨到错误的部门。为了提高分拨过程的效率和正确率,提出了一种数据驱动的高效自动化事件分拨方法。基于历史分拨记录、事件文本和部门职责,设计了一个用于事件分拨的深度行为语义网络(DBSN)。它包含了三个部分,分别是历史行为编码、事件语义学习和多维特征匹配网络。历史行为编码模块构建了一个在事件类别和分拨部门之间的多级二分图,通过图编码学习行为特征。事件语义学习模块使用卷积神经网络(CNN)和注意力机制来学习事件诉求和部门权责的语义特征。多维特征匹配模块从行为、语义两个特征维度上将事件与部门进行匹配。在实验中,使用了某市12345政务热线数据,实验结果证明了提出的方法与基线方法相比具有优势。 展开更多
关键词 12345政务热线 事件分拨 层次二分图 文本分类 城市计算
在线阅读 下载PDF
面向标签共现和长尾分布的层级文本分类
9
作者 智媛 雷海卫 张斌龙 《计算机系统应用》 2025年第2期174-182,共9页
针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题,本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label cooccurrence and long-ta... 针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题,本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label cooccurrence and long-tail distribution,LC-LTD),对基于共享标签的文本全局语义和面向长尾分布的平衡损失函数进行研究.首先,设计一种基于共享标签的对比学习目标,使具有更多共享标签的文本表示在特征空间中的语义距离更近,引导模型生成具有判别性的语义表征;其次,引入分布平衡损失函数替换二进制交叉熵损失,缓解层级分类固有的长尾分布问题,提高模型的泛化能力.在WOS、BGC两个公开数据集上将LC-LTD与当前多个主流模型进行比较,结果表明所提方法具有更好的分类性能,更适合处理层级文本分类任务. 展开更多
关键词 层级文本分类 标签共现 长尾分布 对比学习 平衡损失
在线阅读 下载PDF
基于提示学习的突发事件新闻文本层次多标签分类方法研究
10
作者 汪波 余茂楠 +3 位作者 唐伟 张万宏 马代强 邓松 《重庆科技大学学报(自然科学版)》 2025年第3期78-85,共8页
突发事件分类是开展突发事件应急响应的重要前提,决定了应急响应的速度和效果。为了有效解决突发事件新闻文本类别不平衡所导致的分类准确性问题,提出了一种基于提示学习的突发事件新闻文本层次多标签分类方法。在ERNIE预训练模型的基... 突发事件分类是开展突发事件应急响应的重要前提,决定了应急响应的速度和效果。为了有效解决突发事件新闻文本类别不平衡所导致的分类准确性问题,提出了一种基于提示学习的突发事件新闻文本层次多标签分类方法。在ERNIE预训练模型的基础上构建提示模板,利用掩码语言模型训练预测标签,并通过标签映射匹配已有的分类标签,以有效缓解突发事件领域标注数据少且不平衡所带来的问题。实验结果表明,该模型的准确率、宏F1分数分别达到了0.9739、0.9337,其性能优于ChineseBERT和PET等基线模型。 展开更多
关键词 提示学习 突发事件 新闻文本分类 层次多标签
在线阅读 下载PDF
基于混合嵌入的专利数据层次多标签分类模型研究
11
作者 金晶 陶皖 +1 位作者 皇苏斌 李军军 《长春理工大学学报(自然科学版)》 2025年第2期91-101,共11页
现有的深度学习分类模型在专利数据层次多标签分类上因标签间关联紧密、文本内容长且上下文语义信息丰富等因素导致分类效果不佳。本文提出了一种基于混合嵌入技术的专利数据层次多标签分类模型,旨在利用混合嵌入在表示标签关联性方面... 现有的深度学习分类模型在专利数据层次多标签分类上因标签间关联紧密、文本内容长且上下文语义信息丰富等因素导致分类效果不佳。本文提出了一种基于混合嵌入技术的专利数据层次多标签分类模型,旨在利用混合嵌入在表示标签关联性方面的优势,提升专利自动分类的效率。首先,通过将文本词嵌入与位置编码信息相结合,捕捉序列数据中的上下文信息;其次,构建混合嵌入,包括层次结构中类别的图嵌入和类别标签的词嵌入;采用图神经网络的自编码器模型对类别的层级结构进行图编码,确保类别在结构上具有区分性;通过词嵌入技术对标签信息进行编码,保证类别在语义层面可区分;最后,提出了一种基于双向门控循环单元(Bi-GRU)网络模型的混合嵌入方法,用于逐层学习文本表示。在德温特专利情报数据集进行的实验结果显示,提出的模型在评价指标方面表现出色,相比于其他模型,整体准确率提高了至少1.1%。 展开更多
关键词 专利分类 多标签层次文本分类 混合嵌入 位置编码 图神经网络
在线阅读 下载PDF
基于文本挖掘的油气事故隐患精细化分析
12
作者 牛明勇 左振涛 +3 位作者 徐思宁 樊志强 吴宗波 宋旭 《工业安全与环保》 2025年第9期25-30,共6页
为实现油气事故隐患的精细化分析,克服传统隐患分类体系过于宽泛和笼统的局限性,为企业提供更细致的隐患识别与整改指导,提出一种基于文本挖掘的油气生产安全事故隐患分析方法。通过构建“隐患载体+隐患表现”的层次化分类体系,结合油... 为实现油气事故隐患的精细化分析,克服传统隐患分类体系过于宽泛和笼统的局限性,为企业提供更细致的隐患识别与整改指导,提出一种基于文本挖掘的油气生产安全事故隐患分析方法。通过构建“隐患载体+隐患表现”的层次化分类体系,结合油气生产专业词库和自然语言处理技术,实现对隐患载体和隐患表现的精准识别与分类;该方法不仅考虑了隐患的宏观分类,还深入分析了隐患的微观表现,为隐患的精准治理提供了有力支持。最后在某油田10万条隐患数据上进行分析验证,结果表明:该方法能够自动地从隐患文本中准确识别出隐患载体和隐患表现,识别准确率为87%、召回率为85%,不仅减少了人工处理的时间和成本,也为油气生产安全事故隐患的精细化管理提供了支持。 展开更多
关键词 油气生产安全 事故隐患分类 文本挖掘 层次化分类体系 隐患微观表现
在线阅读 下载PDF
基于ELMo-BERT的控申法律文书层级多标签分类方法研究
13
作者 陈潞潞 陈亮 王珺琳 《通信与信息技术》 2025年第5期63-67,共5页
目前检察院控申部门的案件分流工作繁重,对控申法律文书的分流仅依靠人工鉴别,导致为公民服务的效率低下。由于控申业务所涉及的文本数据存在类型复杂且数据分布不均衡的问题,仅用BERT等大模型对控申法律文书进行特征提取时会出现信息... 目前检察院控申部门的案件分流工作繁重,对控申法律文书的分流仅依靠人工鉴别,导致为公民服务的效率低下。由于控申业务所涉及的文本数据存在类型复杂且数据分布不均衡的问题,仅用BERT等大模型对控申法律文书进行特征提取时会出现信息缺失的现象,导致无法达到分类的效果。针对这一问题提出了一种基于ELMo-BERT的多标签文本分类模型,用ELMo和BERT模型分别对文本进行词向量和句向量的特征提取;对层级标签用Graphormer进行标签表示,得到包含标签信息的特征向量;最终进行特征融合,防止信息提取过程中存在主要信息缺失的现象。加入ELMo模块后,模型的精确率、召回率、Micro-F1值和Macro-F1值上分别提升3.33%、1.78%、2.48%和3.58%,证明加入ELMo模块比单一特征提取能更全面地提取控申法律文书的语义信息。在自制数据集上进行对比实验,ELMo-BERT模型的Micro-F1值和Macro-F1值分别为79.74%和69.85%,均超过了其他主流模型,因此,ELMo-BERT模型的多尺度特征提取比单一特征提取具有更好的分类效果。 展开更多
关键词 控申业务 多标签文本分类 BERT模型 ELMo模型 多尺度特征提取 层级多标签
在线阅读 下载PDF
层次多标签文本分类方法 被引量:12
14
作者 赵海燕 曹杰 +1 位作者 陈庆奎 曹健 《小型微型计算机系统》 CSCD 北大核心 2022年第4期673-683,共11页
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同... 现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层次多标签文本分类的研究现状进行了系统化的总结.目前的方法从是否使用层次结构可以分为平面方法和层次方法,而层次方法又可以分为局部方法、全局方法和混合方法.这些方法包含了使用不同技术的多种模型.文中还分析了层次多标签文本分类任务的挑战和难点,并对本领域未来的研究方向进行了展望. 展开更多
关键词 层次多标签 文本分类 层次结构 文本表示
在线阅读 下载PDF
大规模层次分类问题研究及其进展 被引量:14
15
作者 何力 贾焰 +2 位作者 韩伟红 谭霜 陈志坤 《计算机学报》 EI CSCD 北大核心 2012年第10期2101-2115,共15页
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上... 随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向. 展开更多
关键词 文本分类 大规模层次分类 类别层次 类别层次树
在线阅读 下载PDF
基于句类特征的作者写作风格分类研究 被引量:20
16
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
在线阅读 下载PDF
突发事件Web新闻多层次自动分类方法 被引量:6
17
作者 蔡华利 刘鲁 王理 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第6期947-954,共8页
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML... 为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法. 展开更多
关键词 文本分类 分类器 特征抽取 多层次体系 突发事件
在线阅读 下载PDF
基于层次分类器的专利文本分类模型研究 被引量:8
18
作者 慎金花 陈红艺 +1 位作者 张更平 秦乐洋 《情报杂志》 CSSCI 北大核心 2023年第8期157-163,68,共8页
数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型... 数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。 展开更多
关键词 专利分类 文本分类 层次分类 国际专利分类 发明专利
在线阅读 下载PDF
汉语句群领域的自动抽取研究 被引量:4
19
作者 韦向峰 缪建明 张全 《计算机工程与应用》 CSCD 北大核心 2009年第4期11-15,共5页
句群是介于句子和段落之间的一个处理单位。在语言概念空间句群有三个要素:领域、情景和背景,领域是最根本的。获取了句群领域,就能够确定情景框架,这对信息抽取和文本分类都是非常重要的。一些词语的概念符号中蕴含了领域信息,通过分... 句群是介于句子和段落之间的一个处理单位。在语言概念空间句群有三个要素:领域、情景和背景,领域是最根本的。获取了句群领域,就能够确定情景框架,这对信息抽取和文本分类都是非常重要的。一些词语的概念符号中蕴含了领域信息,通过分析词语在句子中的语义角色以及词语位置、频次等可以得到句子的领域。根据领域关系可以合并领域相同或相似的句子,得到句群及其领域。实验表明,常见的四种领域关系能够很好地被处理,但在动态词处理、复合领域的识别等方面还需要改进。 展开更多
关键词 句群 领域 概念层次网络理论 信息抽取 文本分类
在线阅读 下载PDF
多层文本分类性能评价方法 被引量:2
20
作者 宋胜利 鲍亮 陈平 《系统工程与电子技术》 EI CSCD 北大核心 2010年第5期1088-1093,共6页
为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩... 为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩展评价指标。利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。通过中文新闻语料的分类实验,证明了扩展评价指标对于多层分类结果的评价更为准确,错误分类集中度有助于训练出更加准确的分类模型。 展开更多
关键词 模式识别 文本分类 类别层次 错误分类分布 分类模型
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部