期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
1
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
在线阅读 下载PDF
基于双分支注意力机制的指纹纹型分类 被引量:1
2
作者 赵东越 石磊 丁锰 《智能系统学报》 北大核心 2025年第4期936-945,共10页
针对现有指纹分类算法中存在的低质量指纹难以识别、特征信息提取不充分以及提取过程中信息丢失的问题,提出一种基于双分支注意力机制的指纹纹型分类算法。算法通过提取方向场和进行Gabor滤波的双分支网络进行特征融合,充分利用指纹图... 针对现有指纹分类算法中存在的低质量指纹难以识别、特征信息提取不充分以及提取过程中信息丢失的问题,提出一种基于双分支注意力机制的指纹纹型分类算法。算法通过提取方向场和进行Gabor滤波的双分支网络进行特征融合,充分利用指纹图像的纹线特征和全局特征;提出的组合激活函数和综合注意力机制模块充分提取卷积分支上的空间特征和通道特征信息,减少提取过程中的信息丢失;设计分支特征融合模块对双分支输出的特征图进行加权,充分融合特征信息;最后引入改进的交叉熵损失缓解样本分布不平衡的问题。实验结果表明,所提算法在自建纹型数据集的4类指纹分类中取得了99.08%的准确率,在准确率、F1分数和曲线下面积指标方面均优于其他网络模型,验证了本文算法在纹型分类任务上的有效性和优越性。 展开更多
关键词 图像处理 指纹分类 双分支结构 注意力机制 特征融合 超参数 激活函数 深度学习
在线阅读 下载PDF
智能新闻分类算法在报社信息管理中的应用
3
作者 韩丽琪 《计算机应用文摘》 2025年第8期111-113,117,共4页
随着互联网信息的爆炸式增长,报社面临海量新闻数据处理的挑战。基于特征聚类和降维的智能分类算法为解决这一问题提供了新的思路。该算法首先利用ICTCLAS系统对新闻文本进行分词处理,去除停用词并区分词性;然后通过权重函数对特征进行... 随着互联网信息的爆炸式增长,报社面临海量新闻数据处理的挑战。基于特征聚类和降维的智能分类算法为解决这一问题提供了新的思路。该算法首先利用ICTCLAS系统对新闻文本进行分词处理,去除停用词并区分词性;然后通过权重函数对特征进行降维,缩减关键词集;最后采用K-means聚类技术对文本特征进行聚类分类。该算法在TU95,YU75,OP954和ER9W7四个标准数据集上进行了测试,结果显示,分类准确率超过96%,召回率超过98%,相比于BERT-CNN和图注意力网络等主流算法,分别提高了约14%和18%。 展开更多
关键词 特征聚类 降维处理 新闻文本 智能分类 ICTCLAS 权重函数
在线阅读 下载PDF
学术文本的结构功能识别——基于章节内容的识别 被引量:44
4
作者 黄永 陆伟 程齐凯 《情报学报》 CSSCI 北大核心 2016年第3期293-300,共8页
学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,... 学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,基于章节标题的结构功能识别法存在较多的局限性,如数据集构建困难、含未登录词的标题的识别率较低等。因此本文以章节内容为研究对象,探讨学术文本结构功能识别的第二个层次,并将基于章节内容的结构功能识别问题转化为文本分类问题,在特征选择上,除了传统的词汇特征,还引入词汇的聚类特征,并使用支持向量机作为分类器在基于自然标注的实验数据集上进行了实证研究。实验结果表明相比较于只使用词汇特征,本文所提方法的识别效果有明显提升。 展开更多
关键词 结构功能 文本分类 词汇特征
在线阅读 下载PDF
学术文本的结构功能识别——功能框架及基于章节标题的识别 被引量:55
5
作者 陆伟 黄永 程齐凯 《情报学报》 CSSCI 北大核心 2014年第9期979-985,共7页
当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基... 当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。 展开更多
关键词 文本挖掘 结构功能 自动分类
在线阅读 下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
6
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
在线阅读 下载PDF
一种基于改进互信息和信息熵的文本特征选择方法 被引量:15
7
作者 成卫青 唐旋 《南京邮电大学学报(自然科学版)》 北大核心 2013年第5期63-68,共6页
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低。文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有... 互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低。文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词。实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的。 展开更多
关键词 特征选择 文本分类 评价函数 互信息 信息熵
在线阅读 下载PDF
基于贝叶斯评判子的字体判断 被引量:5
8
作者 徐蔚然 郭军 潘兴德 《计算机学报》 EI CSCD 北大核心 2003年第7期802-805,共4页
支票中的待识别文字既可能是印刷体 ,也可能是手写体 .由于印刷体与手写体文字的预处理方法和识别算法不同 ,因此准确判断文字的字体 (手写体或印刷体 )是获得高精度识别结果的关键技术之一 .该文根据贝叶斯决策理论的最小错误率判决规... 支票中的待识别文字既可能是印刷体 ,也可能是手写体 .由于印刷体与手写体文字的预处理方法和识别算法不同 ,因此准确判断文字的字体 (手写体或印刷体 )是获得高精度识别结果的关键技术之一 .该文根据贝叶斯决策理论的最小错误率判决规则 ,提出了基于评判子的字体判断方法 .利用贝叶斯评判子 ,该文还提出了一种可分性判据 :评判子散度 ;同时还给出了一种估算评判子函数的方法 .在无拒识情况下 ,对 12 15 8张实际银行支票的测试中 ,该方法的正确率为 99.4 % . 展开更多
关键词 字体判断 文字识别 贝叶斯决策理论 贝叶斯评判子
在线阅读 下载PDF
基于支持向量机的文本分类方法 被引量:3
9
作者 刘祥楼 张淼 +1 位作者 刘得军 姜继玉 《大庆石油学院学报》 CAS 北大核心 2008年第2期97-99,131-132,共3页
自动文本分类是信息处理的主要研究内容.分析中文文本分类的基本过程和主要技术,并用支持向量机(SVM)实现文本分类.比较多项式、径向基和Sigmoid核函数的分类效果.结果表明,将中文自然语言平台的语料库中1900个文本作为测试样本和训练样... 自动文本分类是信息处理的主要研究内容.分析中文文本分类的基本过程和主要技术,并用支持向量机(SVM)实现文本分类.比较多项式、径向基和Sigmoid核函数的分类效果.结果表明,将中文自然语言平台的语料库中1900个文本作为测试样本和训练样本,采用径向基核函数的SVM分类算法,实现中文文本分类的效果最佳,总准确率达到88.579%. 展开更多
关键词 文本分类 支持向量机 核函数 特征项选择
在线阅读 下载PDF
多类支持向量机的自然图像分类 被引量:7
10
作者 任建峰 郭雷 李刚 《西北工业大学学报》 EI CAS CSCD 北大核心 2005年第3期295-298,共4页
根据图像的内容把图像划分为多个不同的类别一直是计算机视觉的一个难点。这里提出了一种多类支持向量机用于图像分类的算法,该方法主要在2类支持向量机的基础上用来构造多类分类器,用于把自然图像分成多个类别,同时研究了不同核函数的... 根据图像的内容把图像划分为多个不同的类别一直是计算机视觉的一个难点。这里提出了一种多类支持向量机用于图像分类的算法,该方法主要在2类支持向量机的基础上用来构造多类分类器,用于把自然图像分成多个类别,同时研究了不同核函数的参数变化对分类效果的影响,实验证明和传统的方法相比,分类的准确性有明显的提高。 展开更多
关键词 支持向量机 图像分类 低层特征
在线阅读 下载PDF
基于深度学习的学术文本段落结构功能识别研究 被引量:14
11
作者 王倩 曾金 +1 位作者 刘家伟 戚越 《情报科学》 CSSCI 北大核心 2020年第3期64-69,共6页
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经... 【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。 展开更多
关键词 结构功能 深度学习 文本分类 学术文本 特征提取
原文传递
基于特征权重与词间相关性的文本特征选择算法 被引量:3
12
作者 任永功 杨荣杰 尹明飞 《计算机应用与软件》 CSCD 北大核心 2012年第9期33-36,共4页
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关... 传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。 展开更多
关键词 RELIEFF算法 mRMR-ReliefF算法 特征选择 差异函数 词间相关性 文本分类
在线阅读 下载PDF
融合词语类别特征和语义的短文本分类方法 被引量:1
13
作者 马慧芳 周汝南 +1 位作者 吉余岗 鲁小勇 《计算机工程与科学》 CSCD 北大核心 2017年第2期399-404,共6页
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中... 针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。 展开更多
关键词 短文本分类 隐含狄利克雷分布 词汇特征 语义特征 特征选择
在线阅读 下载PDF
基于深度学习的科技文献摘要结构功能识别研究 被引量:7
14
作者 毛进 陈子洋 《农业图书情报学报》 2022年第3期15-27,共13页
[目的/意义]科技文献摘要往往由承担特定功能的部分构成,利用深度学习对科技文献摘要结构功能进行识别有助于实现科技文献文本深度分析。[方法/过程]本文将科技文献摘要特征功能识别任务转换为文本分类问题,将结构功能分为“引言-方法-... [目的/意义]科技文献摘要往往由承担特定功能的部分构成,利用深度学习对科技文献摘要结构功能进行识别有助于实现科技文献文本深度分析。[方法/过程]本文将科技文献摘要特征功能识别任务转换为文本分类问题,将结构功能分为“引言-方法-结果-结论(Introduction-Methods-Results-Conclusions,IMRC)”4类,基于摘要句内容及其上下文特征,利用BERT、BERT-BiLSTM、BERT-TextCNN、ERNIE等模型构建分类器,实现摘要结构功能自动识别。[结果/结论]在eHealth领域3130篇文献数据集上开展实验,结果表明:ERNIE模型的各项指标均高于其他模型,BERT-TextCNN模型在短句子上效果更好,而BERT-BiLSTM模型对于长句子的识别效果更好。本研究有助于实现科技文献摘要文本的细粒度功能理解,对文献结构的解析能够服务于科技文献深度挖掘和基于文献的知识发现。 展开更多
关键词 深度学习 BERT 文献结构 功能识别 文本分类
在线阅读 下载PDF
基于指数分布族的类特定文本分类算法 被引量:2
15
作者 刘云 黄荣乘 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2019年第5期694-701,共8页
在文本分类中,选取一个高效的分类算法是提高文本分类准确度,缩短分类时间的关键。提出基于指数分布族的多项式贝叶斯类特定分类算法(exponential family-multinomial naive Bayes,EF-MNB),基于多项式模型构造了 N 个类的分布,利用类特... 在文本分类中,选取一个高效的分类算法是提高文本分类准确度,缩短分类时间的关键。提出基于指数分布族的多项式贝叶斯类特定分类算法(exponential family-multinomial naive Bayes,EF-MNB),基于多项式模型构造了 N 个类的分布,利用类特定特征选择算法得到第 N 个类的特征子集及对应类的特征概率密度函数(probability density function,PDF),通过指数分布族构造了 N 个类的原始PDF估计表达式,给定 N 个类的训练集,得到了第 N 个类的最优PDF估计,并基于贝叶斯定理制定了分类规则。仿真结果表明,与基于文档主题生成模型和支持向量机(latent dirichlet allocation-support vector machine,LDA-SVM)的层次分析分类算法、改进的超球支持向量机(improved hyper-sphere support vector machine,IHS-SVM)文本分类算法和基于主成份分析和k最近邻(principal component analysis-k-nearest-neighbor,PCA-KNN)混合分类算法相比,EF-MNB类特定分类算法使用少量的时间就可获得更高分类准确率。 展开更多
关键词 指数分布族 类特定特征选择 类条件概率密度函数 多项式朴素贝叶斯分类器 文本分类
在线阅读 下载PDF
常用特征选择方法的比较研究 被引量:1
16
作者 康岚兰 董丹丹 《电脑知识与技术》 2009年第12期9787-9789,共3页
特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。常用的特征选择方法有:文档频数、信息增益、互信息、期望交叉熵、卡方统计量和文本证据权等。在该本自动分类... 特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。常用的特征选择方法有:文档频数、信息增益、互信息、期望交叉熵、卡方统计量和文本证据权等。在该本自动分类器KNN上对以上方法进行了比较研究,分析了各个特征评估函数的优劣,检测了这些方法在特征维数变化情况下的性能。 展开更多
关键词 中文文本自动分类 特征选择 特征评估函数 性能
在线阅读 下载PDF
采用CNN进行中文文本分类 被引量:2
17
作者 火善栋 《现代计算机》 2023年第16期69-71,80,共4页
通过卷积神经网络,运用两种不同的方案对中文文本分类进行了对比实验,实验结果表明,对于中文文本分类问题,仅采用CNN中的全连接层并选择合适的特征词和激活函数就可以达到比较理想的分类效果。
关键词 卷积神经网络 中文文本分类 特征词 激活函数
在线阅读 下载PDF
汉语篇章句及其灵活性——从话题链说起 被引量:15
18
作者 屈承熹 《当代修辞学》 CSSCI 北大核心 2018年第2期1-22,共22页
本文从话题链的基本概念出发,举例阐述其与现代汉语多种语法形式、语义表达间之互动而产生的结果。实际语料显示,话题链是汉语篇章结构的重要形式之一。其原因在于话题链在小句之间具有极为强势的联结功能。至于其他语法及语义上的联结... 本文从话题链的基本概念出发,举例阐述其与现代汉语多种语法形式、语义表达间之互动而产生的结果。实际语料显示,话题链是汉语篇章结构的重要形式之一。其原因在于话题链在小句之间具有极为强势的联结功能。至于其他语法及语义上的联结功能则较为弱势,如平行结构、语义对比、词汇连贯(lexical cohesion)等皆属此类。以上各种机制,或单独运作,或同时发挥作用,形成高于小句之语法单位,本文称之为"汉语篇章句"。至于"文体转换""观点改变"等因素,则往往标示话题链或汉语篇章句之终结,甚至新段落的开始,以致汉语篇章句虽能以形式来规范,却仍具有一定程度的灵活性。 展开更多
关键词 话题链 汉语篇章句 文体转换 段落划分 词汇连贯 平行结构 语义对比
原文传递
融合对比学习和BERT的层级多标签文本分类模型 被引量:4
19
作者 代林林 张超群 +2 位作者 汤卫东 刘成星 张龙昊 《计算机工程与设计》 北大核心 2024年第10期3111-3119,共9页
为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混... 为有效解决现有文本分类模型难以建模标签语义关系的问题,提出一种融合对比学习和自注意力机制的层级多标签文本分类模型,命名为SampleHCT。设计一个标签特征提取模块,能有效提取标签的语义和层次结构特征。采用自注意力机制构建具有混合标签信息的阳性样本。使用对比学习训练文本编码器的标签意识。实验结果表明,SampleHCT相较于19个基准模型,取得了更高的分类分数,验证了其具有更有效的标签信息建模方式。 展开更多
关键词 文本分类 对比学习 自注意力机制 层级结构 多标签 标签信息 全局特征
在线阅读 下载PDF
基于内容和分层结构的XML文件自动分类方法 被引量:4
20
作者 唐凯 《计算机工程与应用》 CSCD 北大核心 2007年第3期168-172,193,共6页
提出了一种以XML文件内在的分层结构为基础的文件分类方法,并与改良的VSM方法的实验结果进行了比较。和以往XML文件的分类方法不同的是,此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非结构的信息产生一般特征集... 提出了一种以XML文件内在的分层结构为基础的文件分类方法,并与改良的VSM方法的实验结果进行了比较。和以往XML文件的分类方法不同的是,此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非结构的信息产生一般特征集,然后再针对XML文件各个层次重要性赋予一定的权重,从而产生层次特征集,然后根据一些领域知识,产生知识特征集,将三个特征集结合起来对XML进行分类。试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。 展开更多
关键词 特征词 文件自动分类 分层结构
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部