期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于BERT-TextCNN模型的基础研究与应用研究论文分类方法研究
1
作者 张萌萌 钟永恒 刘佳 《科技管理研究》 2026年第1期256-267,共12页
研究旨在构建一种高效且精准的分类模型用于判别单篇论文归属基础研究或应用研究。通过构建融合半自动标注的BERT-TextCNN模型,借助半自动标注策略降低人工标注工作量并提高模型分类效率,利用BERT生成文本向量,通过TextCNN提取关键特征... 研究旨在构建一种高效且精准的分类模型用于判别单篇论文归属基础研究或应用研究。通过构建融合半自动标注的BERT-TextCNN模型,借助半自动标注策略降低人工标注工作量并提高模型分类效率,利用BERT生成文本向量,通过TextCNN提取关键特征;通过文献计量法和BERTopic模型分析量子信息领域的分类结果。结果表明,该模型的F1值高达0.896,相较于BERT和TextCNN分别提升2.1%和7.9%,并显著优于Baichuan4-Turbo、DeepSeek-V3和GLM-4-Plus等大语言模型,F1值提升幅度分别为12.2%、13.1%和18.8%。这既验证了语义表征与局部特征融合机制的优越性,又有效克服了大语言模型在专业领域分类中存在的“高召回低精度”缺陷。将模型应用至量子信息领域,发现基础研究聚焦在量子态与纠缠、离子自旋等方向,应用研究重点关注密钥分发、量子传感与网络组件等研究。研究为科学文献分类提供了新方法,在科研评估与资源优化方面具有重要应用价值。 展开更多
关键词 文献分类 深度学习 半自动标注 文本挖掘 量子信息
在线阅读 下载PDF
基于KNN算法的电子档案信息文本自动分类方法 被引量:5
2
作者 杨易木 《办公自动化》 2025年第5期14-16,共3页
文章深入探讨文本自动分类的领域,聚焦于一种广泛应用的基于内容的分类技术——KNN(K-Nearest Neighbors)算法,对其原理和应用进行重点介绍。采用KNN算法结合优化的词特征权重评估与文本相似性计算技术,实现文本的自动分类。经过KNN分... 文章深入探讨文本自动分类的领域,聚焦于一种广泛应用的基于内容的分类技术——KNN(K-Nearest Neighbors)算法,对其原理和应用进行重点介绍。采用KNN算法结合优化的词特征权重评估与文本相似性计算技术,实现文本的自动分类。经过KNN分类处理后,分类结果的准确率和召回率均显著提升。 展开更多
关键词 KNN算法 文本自动分类 数据挖掘
在线阅读 下载PDF
学术文本的结构功能识别——功能框架及基于章节标题的识别 被引量:55
3
作者 陆伟 黄永 程齐凯 《情报学报》 CSSCI 北大核心 2014年第9期979-985,共7页
当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基... 当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。 展开更多
关键词 文本挖掘 结构功能 自动分类
在线阅读 下载PDF
学术文本的结构功能识别——基于段落的识别 被引量:41
4
作者 黄永 陆伟 +1 位作者 程齐凯 桂思思 《情报学报》 CSSCI 北大核心 2016年第5期530-538,共9页
学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结... 学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结果表明,虽然基于段落的结构功能识别效果不如基于章节整体内容的识别,但仍然取得了不错的效果。本文结合实验结果着重分析了影响基于段落的识别效果的两个重要因素:段落长度及章节中段落数量,并在最后对学术文本结构功能识别的三个层次做了总结,指出了拟进一步探讨的问题和方向。 展开更多
关键词 结构功能 文本分类 文本挖掘
在线阅读 下载PDF
学术文本的结构功能识别——基于章节内容的识别 被引量:44
5
作者 黄永 陆伟 程齐凯 《情报学报》 CSSCI 北大核心 2016年第3期293-300,共8页
学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,... 学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,基于章节标题的结构功能识别法存在较多的局限性,如数据集构建困难、含未登录词的标题的识别率较低等。因此本文以章节内容为研究对象,探讨学术文本结构功能识别的第二个层次,并将基于章节内容的结构功能识别问题转化为文本分类问题,在特征选择上,除了传统的词汇特征,还引入词汇的聚类特征,并使用支持向量机作为分类器在基于自然标注的实验数据集上进行了实证研究。实验结果表明相比较于只使用词汇特征,本文所提方法的识别效果有明显提升。 展开更多
关键词 结构功能 文本分类 词汇特征
在线阅读 下载PDF
基于文本挖掘和自动分类的法院裁判决策支持系统设计 被引量:20
6
作者 朱青 卫柯臻 +1 位作者 丁兰琳 黎建强 《中国管理科学》 CSSCI CSCD 北大核心 2018年第1期170-178,共9页
在许多大陆法系国家,不断产生的新型法律关系使得成文法无法及时制定和修改的缺陷逐渐显现。与此同时,世界各国纠纷诉讼的数目也在急剧增长,所以,很多国家面临如何在保证审判质量的前提下提高司法系统审判效率的问题。因此,在进行制度... 在许多大陆法系国家,不断产生的新型法律关系使得成文法无法及时制定和修改的缺陷逐渐显现。与此同时,世界各国纠纷诉讼的数目也在急剧增长,所以,很多国家面临如何在保证审判质量的前提下提高司法系统审判效率的问题。因此,在进行制度改革的同时,建立决策支持系统将会有效地辅助司法判决。本文以中国的医疗损害诉讼文本为例,使用文本挖掘和自动分类技术提出了一个法院裁判决策支持系统(CJ-DSS),该系统可以依据以往判例预测新诉讼文本的判决结果:驳回与非驳回。结合案例,本文研究发现,组合特征提取法确实能够改进和提高分类器的分类性能,而且针对支持向量机(SVM)、人工神经网络(ANN)、K最近邻(KNN)三种不同的分类器,文档词频-卡方(DF-CHI)组合特征提取法对性能的改进程度有所差异,其中ANN的性能改进最高。除此之外,集成学习后该系统的分类性能更加稳定,显著优于单一分类器,F1值达到93.3%。 展开更多
关键词 文本挖掘 自动分类 决策支持系统 CJ-DSS
原文传递
煤矿安全隐患信息自动分类方法 被引量:13
7
作者 谢斌红 马非 +1 位作者 潘理虎 张英俊 《工矿自动化》 北大核心 2018年第10期10-14,共5页
人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预... 人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预处理,然后应用Word2vec来表征词之间的语义相似性关系,最后利用卷积神经网络提取隐患信息的局部上下文高层特征,并使用Softmax分类器实现隐患信息的自动分类。实验结果表明,该方法实现了端到端的自动分类,可有效提升分类的准确性和全面性。 展开更多
关键词 煤矿安全 隐患信息自动分类 文本分类 卷积神经网络 Word2vec
在线阅读 下载PDF
基于贝叶斯模型的专利分类 被引量:13
8
作者 郭炜强 文军 文贵华 《计算机工程与设计》 CSCD 北大核心 2005年第8期1986-1987,1996,共3页
朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴... 朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴素贝叶斯分类器用来解决专利分类是有效的。 展开更多
关键词 专利 朴素贝叶斯分类器 专利分类 特征词权重 文本挖掘
在线阅读 下载PDF
依据TRIZ发明原理的中文专利自动分类 被引量:12
9
作者 翟继强 王克奇 《哈尔滨理工大学学报》 CAS 2013年第3期1-5,共5页
针对借助TRIZ理论进行发明创新的专利检索需要,提出利用文本挖掘技术实现对中文专利进行面向TRIZ发明原理的自动分类.文中首先对40个基本的TRIZ发明理论进行分析和重新分组,然后依据中科院的ICTCLAS分词系统对专利文本进行分词处理,采... 针对借助TRIZ理论进行发明创新的专利检索需要,提出利用文本挖掘技术实现对中文专利进行面向TRIZ发明原理的自动分类.文中首先对40个基本的TRIZ发明理论进行分析和重新分组,然后依据中科院的ICTCLAS分词系统对专利文本进行分词处理,采用信息增益IG和交叉熵CE特征选择算法进行特征降维,最后使用AlphaMiner基于最流行的SVM、NB和C4.5.分类算法对中文专利进行分类测试,结果表明借助于文本分类技术可以实现依据TRIZ发明原理对中文专利自动分类. 展开更多
关键词 TRIZ 文本挖掘 发明原理 自动分类
在线阅读 下载PDF
基于多标签分类的引文全局功能识别研究 被引量:6
10
作者 刘兴帮 陆伟 孟睿 《数字图书馆论坛》 CSSCI 2016年第3期2-9,共8页
引文功能是科研工作者引用一篇文献的动机。其中,相比较于只考虑引文前后文语句的引文局部功能,引文全局功能关注的是参考文献在全文范围内的信息,是被引文献在施引文献中价值的综合体现,其自动识别研究对于引文推荐、引文索引、语义化... 引文功能是科研工作者引用一篇文献的动机。其中,相比较于只考虑引文前后文语句的引文局部功能,引文全局功能关注的是参考文献在全文范围内的信息,是被引文献在施引文献中价值的综合体现,其自动识别研究对于引文推荐、引文索引、语义化引文网络构建等学术文本挖掘研究具有重要意义。文章根据"参考文献在施引文献中存在一处或多处具体引用"这一特点,将引文全局功能识别研究转化为多标签分类问题,并构建引文全局功能数据集,在此数据集之上进行引文全局功能自动识别实验,取得较好的效果。 展开更多
关键词 引文全局功能 多标签分类 学术文本挖掘 引文分析
在线阅读 下载PDF
基于网站结构挖掘的Web文档自动分类 被引量:2
11
作者 谢振亮 何丕廉 +1 位作者 陈霞 孟昭鹏 《计算机应用》 CSCD 北大核心 2003年第7期37-39,共3页
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式... 对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。 展开更多
关键词 结构挖掘 Web文档自动分类 分类模式 扩展网页
在线阅读 下载PDF
基于深度学习的学术文本段落结构功能识别研究 被引量:14
12
作者 王倩 曾金 +1 位作者 刘家伟 戚越 《情报科学》 CSSCI 北大核心 2020年第3期64-69,共6页
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经... 【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。 展开更多
关键词 结构功能 深度学习 文本分类 学术文本 特征提取
原文传递
基于深度学习的科技文献摘要结构功能识别研究 被引量:7
13
作者 毛进 陈子洋 《农业图书情报学报》 2022年第3期15-27,共13页
[目的/意义]科技文献摘要往往由承担特定功能的部分构成,利用深度学习对科技文献摘要结构功能进行识别有助于实现科技文献文本深度分析。[方法/过程]本文将科技文献摘要特征功能识别任务转换为文本分类问题,将结构功能分为“引言-方法-... [目的/意义]科技文献摘要往往由承担特定功能的部分构成,利用深度学习对科技文献摘要结构功能进行识别有助于实现科技文献文本深度分析。[方法/过程]本文将科技文献摘要特征功能识别任务转换为文本分类问题,将结构功能分为“引言-方法-结果-结论(Introduction-Methods-Results-Conclusions,IMRC)”4类,基于摘要句内容及其上下文特征,利用BERT、BERT-BiLSTM、BERT-TextCNN、ERNIE等模型构建分类器,实现摘要结构功能自动识别。[结果/结论]在eHealth领域3130篇文献数据集上开展实验,结果表明:ERNIE模型的各项指标均高于其他模型,BERT-TextCNN模型在短句子上效果更好,而BERT-BiLSTM模型对于长句子的识别效果更好。本研究有助于实现科技文献摘要文本的细粒度功能理解,对文献结构的解析能够服务于科技文献深度挖掘和基于文献的知识发现。 展开更多
关键词 深度学习 BERT 文献结构 功能识别 文本分类
在线阅读 下载PDF
一种基于改进支持向量机的文本倾向性分类算法 被引量:3
14
作者 田冬阳 《微型电脑应用》 2011年第3期34-37,5,共5页
文本的倾向性分类器是文本倾向性分类的核心部分,它用于将待分类的文本映射到某一倾向性类别中去。传统支持向量机的核函数学习能力和泛化推广能力的平衡性有待提高,而且参数选择不易。对目前文本倾向性分类算法使用的传统的支持向量机... 文本的倾向性分类器是文本倾向性分类的核心部分,它用于将待分类的文本映射到某一倾向性类别中去。传统支持向量机的核函数学习能力和泛化推广能力的平衡性有待提高,而且参数选择不易。对目前文本倾向性分类算法使用的传统的支持向量机进行了改进,一是构造了多核函数;二是使用粒子群算法对支持向量机的参数进行优化,平衡了核函数的全局性和局部性,更有利于对样本数据的学习和推广;最后利用改进的支持向量机构造文本倾向性分类算法。 展开更多
关键词 改进的支持向量机 多核函数 参数自动寻优 文本倾向性分类 性能评估
在线阅读 下载PDF
Web挖掘技术在服装领域的应用
15
作者 耿增民 周毅灵 《北京服装学院学报(自然科学版)》 CAS 北大核心 2010年第3期36-40,共5页
服装行业与国民经济及人民的生活消费密切相关,发展迅速.服装工作者为了把握时尚、紧跟国际潮流,需要利用信息获取技术,从数据海洋中获取服装知识,故有必要采用互联网时代的新技术——Web挖掘技术.Web数据挖掘技术如何应用到服装领域在... 服装行业与国民经济及人民的生活消费密切相关,发展迅速.服装工作者为了把握时尚、紧跟国际潮流,需要利用信息获取技术,从数据海洋中获取服装知识,故有必要采用互联网时代的新技术——Web挖掘技术.Web数据挖掘技术如何应用到服装领域在国内外尚属空白,本文论述了数据挖掘和Web挖掘的概念并给出了挖掘技术在服装领域可能的研究方向,对服装专业的教学、科研和服装设计生产单位有一定的指导意义. 展开更多
关键词 WEB挖掘 自动分类 自动文摘
在线阅读 下载PDF
Web文本分类中的标签权重自动优化研究 被引量:4
16
作者 钟旭东 黄章进 +1 位作者 顾乃杰 张旭 《小型微型计算机系统》 CSCD 北大核心 2016年第5期890-894,共5页
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题... Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率. 展开更多
关键词 WEB文本分类 自动权重调优 差分进化算法 半结构特征
在线阅读 下载PDF
一种改进空间向量模型的东巴文本表示方法 被引量:3
17
作者 耿巧曼 徐小力 +1 位作者 吴国新 夏欣雨 《北京信息科技大学学报(自然科学版)》 2018年第3期57-60,共4页
东巴文本的模型表示是实现东巴文本自动分类的基础。通过分析常用文本表示模型,选择空间向量模型用于东巴文本的表示;通过引入词性因子改进传统的TF-IDF权重计算函数。实验表明,改进后的TF-IDF权重计算函数有助于增强空间向量模型对东... 东巴文本的模型表示是实现东巴文本自动分类的基础。通过分析常用文本表示模型,选择空间向量模型用于东巴文本的表示;通过引入词性因子改进传统的TF-IDF权重计算函数。实验表明,改进后的TF-IDF权重计算函数有助于增强空间向量模型对东巴文本的表示能力,在一定程度上改善了文本分类效果。 展开更多
关键词 东巴文本 文本自动分类 向量空间模型 TF-IDF函数
在线阅读 下载PDF
基于文献结构的自动文摘的初探 被引量:6
18
作者 沈玮杰 《现代图书情报技术》 CSSCI 北大核心 2002年第3期23-27,34,共6页
首先阐述了人们进行自动文摘研究的必要性,并介绍了自动文摘的技术背景。然后着重论述了基于文献结构的自动文摘的特点和实现方法,并对已有的数学模型进行评价,提出了作者的一些改进想法。指出了传统自动文摘方法的缺陷,并根据基于文献... 首先阐述了人们进行自动文摘研究的必要性,并介绍了自动文摘的技术背景。然后着重论述了基于文献结构的自动文摘的特点和实现方法,并对已有的数学模型进行评价,提出了作者的一些改进想法。指出了传统自动文摘方法的缺陷,并根据基于文献结构的自动文摘的特点提出了解决问题的办法。本文在最后还探讨了自动文摘在“知识发现”和文本信息挖掘领域内的初步应用。 展开更多
关键词 自动文献 文献结构 数学模型 关联网络 关系数据库 仿人算法 文本信息挖掘 知识发现
在线阅读 下载PDF
基于多视图融合的论文自动分类方法研究 被引量:4
19
作者 杨秀璋 夏换 +2 位作者 于小民 杨琪 汪瑜斌 《现代电子技术》 北大核心 2020年第8期120-124,共5页
为科研工作者精准推荐所需的学术论文,从而节约检索时间和精力,提高科研效率,并进一步提升论文自动分类的准确度。该文在传统单视图论文分类基础上,提出了一种基于多视图融合的论文自动分类方法,考虑论文标题、关键词、摘要三个视图的... 为科研工作者精准推荐所需的学术论文,从而节约检索时间和精力,提高科研效率,并进一步提升论文自动分类的准确度。该文在传统单视图论文分类基础上,提出了一种基于多视图融合的论文自动分类方法,考虑论文标题、关键词、摘要三个视图的互补性和协调性,实现对海量论文的自动分类。文中抓取了中国知网9个主题的1 710篇论文作为实验语料,并构建决策树、K最近邻、随机森林、支持向量机、朴素贝叶斯分类器进行实验。结果表明,基于多视图融合的论文分类方法在准确率、召回率和F值上都有所提升,优于单视图的论文分类方法,且可以为论文自动分类、推荐系统、文本挖掘提供有效支撑,具有一定的应用前景和实用价值。 展开更多
关键词 论文自动分类 多视图融合 数据处理 语料获取 智能推荐 文本挖掘
在线阅读 下载PDF
文本挖掘技术在电力工单数据分析中的应用 被引量:15
20
作者 邹云峰 何维民 +2 位作者 赵洪莹 程雅梦 杨红 《现代电子技术》 北大核心 2016年第17期149-152,共4页
文本挖掘技术为文本分析提供了方法和技术支持,以文本挖掘中的文本分类技术为基础,简要介绍文本预处理、文本分类器模型构建的方法和过程,并以供电服务过程中客户通过供电服务中心反映的热点事件为实例,建立95598工单文本自动分类的模型... 文本挖掘技术为文本分析提供了方法和技术支持,以文本挖掘中的文本分类技术为基础,简要介绍文本预处理、文本分类器模型构建的方法和过程,并以供电服务过程中客户通过供电服务中心反映的热点事件为实例,建立95598工单文本自动分类的模型,通过验证实现95598工单文本快速精准的自动分类,及时准确地挖掘出隐藏的重要信息,并且为分析供电服务对客户的用电诉求的影响提供依据和数据基础。 展开更多
关键词 95598工单 文本挖掘 文本分类 自动分类 用电诉求
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部