期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
基于语言无关性语义Kernel学习的短文本分类 被引量:1
1
作者 易欣 郭武士 《计算机应用与软件》 CSCD 2015年第7期314-318,共5页
针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最... 针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最后,根据三个标注层次计算文档之间的相似度,并根据相似度完成分类。在英语和汉语数据集上的实验验证了该方法的有效性。实验结果表明,相比其他几种核方法,该方法取得了更好的分类性能。 展开更多
关键词 短文本分类 语义核学习 相似性度量 语言无关性 标注层 模式语义标注
在线阅读 下载PDF
基于版权认证的文本匹配模型研究
2
作者 刘晓飞 莫秀良 《天津理工大学学报》 2025年第1期90-96,共7页
面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发... 面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发展,解决文本匹配任务的方法也得到了很好的发展。在已有的基于核的文档排序神经模型(a kernel based neural model for document ranking, KNRM)上进一步地研究和创新,提出融合KNRM和轻量级梯度提升机(light gradient boosting machine, LightGBM)算法的文本匹配模型,在交互矩阵转化的直方图上采用kernel-pooling的方式来提取相关局部特征信息,引入K个不同大小的核函数,来捕捉不同细粒度的相关匹配信号,获取高斯核特征,将LightGBM算法作为分类器,进行分类处理工作,预测最后的匹配结果。通过多个数据集验证模型效果,实验表明,融合模型KNRM-LightGBM在准确率方面优于原模型KNRM,能够达到更好的文本匹配效果。 展开更多
关键词 文本匹配 基于核的文档排序神经模型 轻量级梯度提升机 数字版权
在线阅读 下载PDF
基于选择性大核和空间关系的文本检测方法
3
作者 窦泽亚 赵歆波 《中国体视学与图像分析》 2025年第2期175-186,共12页
基于分割的文本检测方法可以准确的定位到任意形状的文本区域,但目前基于分割的任意形状文本检测方法有两个需要解决的问题:①准确检测图像中的文本需要更加广泛的背景信息,不同形状的文本所需的上下文信息不同;②现存方法往往没有结合... 基于分割的文本检测方法可以准确的定位到任意形状的文本区域,但目前基于分割的任意形状文本检测方法有两个需要解决的问题:①准确检测图像中的文本需要更加广泛的背景信息,不同形状的文本所需的上下文信息不同;②现存方法往往没有结合上下文特征,没有充分利用各个尺度特征,从而忽略了各个阶段特征图之间的联系。针对上述问题,本文提出了一种任意形状场景文本检测方法LSRNet,在该网络中设计选择性大核网络,通过动态调整感受野,更有效地处理了不同形状文本所需背景信息差异,还在增加感受野的同时减少了模型参数量的增加;此外,还提出一种利用上下文特征的空间关系网络,充分利用不同阶段特征图之间的联系。在公开数据集上进行的实验表明,本文提出的方法在任意形状的文本检测方面都取得了良好的性能。 展开更多
关键词 任意形状文本检测 选择性大核网络 空间关系网络
原文传递
基于改进蒸馏学习的医学文本相似度计算
4
作者 关慧 赵凌波 杨伟琛 《计算机工程与设计》 北大核心 2025年第9期2473-2479,共7页
针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行... 针对医学领域文本相似度计算存在的样本少、领域词多、学习效率低的问题,提出一种结合医学领域词嵌入和掩码语言模型的数据增强方法,并基于细粒度蒸馏思想提出一种结合中心核对齐算法的蒸馏模型。将原始医学数据集利用数据增强方法进行扩充后,输出的文本在蒸馏模型中通过特征向量中心核对齐方式进行特征间高维相似性度量。增强后的医学数据集在两种医学领域基线模型上的皮尔逊系数较未增强前分别提升了2.9%和1.7%。改进后的蒸馏模型在增强后的医学数据集皮尔逊值为81.1%,达到12层教师模型的95%,参数减少了近7倍。 展开更多
关键词 自然语言处理 相似度计算 医学文本相似度 数据增强 蒸馏学习 动态蒸馏 中心核对齐
在线阅读 下载PDF
基于Kernel-XGBoost的跨语言术语对齐方法 被引量:2
5
作者 于娟 张晨 《计算机科学》 CSCD 北大核心 2022年第S02期126-131,共6页
跨语言术语对齐是跨语言文本数据分析与知识发现的关键基础。针对跨语言术语对齐研究多为单词术语对齐且严重依赖向量空间对齐的现状,提出一种能够实现跨语言单词及多词术语间一对多对齐的Kernel-XGBoost方法。给定跨语言平行语料库,该... 跨语言术语对齐是跨语言文本数据分析与知识发现的关键基础。针对跨语言术语对齐研究多为单词术语对齐且严重依赖向量空间对齐的现状,提出一种能够实现跨语言单词及多词术语间一对多对齐的Kernel-XGBoost方法。给定跨语言平行语料库,该方法分两步得到同义的跨语言术语对:1)跨语言术语提取与候选术语对生成;2)基于跨语言词嵌入的术语对齐。汉语-西班牙语以及汉语-法语的术语对齐实验表明,该方法在Top-5的准确率可达到80%,能有效支持跨语言信息检索、本体构建等跨语言文本数据挖掘任务。 展开更多
关键词 跨语言 文本分析 术语对齐 kernel-XGBoost 汉语 法语 西班牙语
在线阅读 下载PDF
文本核重建与扩展实现任意形状文本检测
6
作者 邓胜军 陈念年 《计算机工程与应用》 CSCD 北大核心 2024年第9期228-236,共9页
基于分割的方法对自然场景中的文本进行像素级预测,大幅度提升了对任意形状文本的检测效果,但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而,网络预测文本核时... 基于分割的方法对自然场景中的文本进行像素级预测,大幅度提升了对任意形状文本的检测效果,但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而,网络预测文本核时舍弃了文本核外大部分信息,降低了基于分割的文本检测方法的性能。为了解决这个问题,提出了一种文本核重建算法,将文本核的生成放在后处理阶段,通过网络预测的方向场将文本实例向内收缩形成文本核。同时,提出了一种文本核扩展算法用于将文本核恢复为完整的文本实例。实验表明,所提方法在Total-Text(88.66%)、CTW-1500(87.28%)和MSRA-TD500(90.65%)三个数据集上取得了相似或最好的检测性能。 展开更多
关键词 场景文本检测 任意形状 文本核
在线阅读 下载PDF
面向法院电子卷宗的文本分类方法研究 被引量:1
7
作者 王霄 万玉晴 《计算机应用与软件》 北大核心 2024年第6期101-107,133,共8页
针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效... 针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效率;使用基于RLS(Recursive Least Squares)的序列优化模型KOS-ELM,通过新样本对模型参数迭代更新,使分类模型具备在线自学习的能力,减少了对初始样本的依赖。对比实验证明,基于高斯核的KELM分类模型在正确率上比BP网络模型和LSSVM分别提高了2.66百分点和4.43百分点,但训练时间只有两者的1/6和1/10;采用多维度语义表示方法为模型提供输入,在正确率上比文本向量和词向量表示方法分别提高了8.84百分点和2.33百分点;采用基于RLS的序列优化模型KOS-ELM对弱分类器进行迭代优化,以4种不同步长迭代20次后,分类正确率均得到显著提升。 展开更多
关键词 法院电子卷宗 文本分类 语义表示 核极限学习机 递归最小二乘
在线阅读 下载PDF
东北三省旅游资源时空分布特征研究 被引量:1
8
作者 杜平 《测绘与空间地理信息》 2024年第2期123-125,128,共4页
随着人们生活水平的提高,旅游总收入占东北各省市GDP总量的比例逐年升高。为了更好地了解东北旅游资源,发展东北旅游业,本文利用从旅游网站爬取的景点和评论数据,综合运用核密度分析、莫兰指数、热点分析、词云分析和文本情感分析等多... 随着人们生活水平的提高,旅游总收入占东北各省市GDP总量的比例逐年升高。为了更好地了解东北旅游资源,发展东北旅游业,本文利用从旅游网站爬取的景点和评论数据,综合运用核密度分析、莫兰指数、热点分析、词云分析和文本情感分析等多种方法对东北三省的旅游资源分布进行了分析,以便为东北三省之间旅游产业的发展提供科学依据。 展开更多
关键词 莫兰指数 核密度分析 热点分析 词云分析 文本情感分析
在线阅读 下载PDF
一种半监督局部线性嵌入算法的文本分类方法 被引量:9
9
作者 夏士雄 李佑文 周勇 《计算机应用研究》 CSCD 北大核心 2010年第1期64-67,共4页
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使... 针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。 展开更多
关键词 局部线性嵌入算法 半监督学习 流形学习 文本分类 核函数
在线阅读 下载PDF
一种改进的多项式核支持向量机文本分类器 被引量:5
10
作者 熊忠阳 江帆 +1 位作者 张玉芳 李智星 《计算机应用研究》 CSCD 北大核心 2009年第8期2905-2907,共3页
多项式核函数由于具有良好的泛化性能而受到重视,并被研究用于文本分类问题。针对多项式核学习能力较差的缺点,将学习能力较强的条件正定核与多项式核构成一个混合核函数作为改进的多项式核。实验表明,改进的多项式核SVM文本分类器的分... 多项式核函数由于具有良好的泛化性能而受到重视,并被研究用于文本分类问题。针对多项式核学习能力较差的缺点,将学习能力较强的条件正定核与多项式核构成一个混合核函数作为改进的多项式核。实验表明,改进的多项式核SVM文本分类器的分类效果要好于多项式核SVM文本分类器。 展开更多
关键词 支持向量机 多项式核 条件正定核 文本分类
在线阅读 下载PDF
基于IA参数寻优组合核的SVM文本分类研究 被引量:6
11
作者 段文影 饶泓 +1 位作者 段隆振 马海亮 《南昌大学学报(理科版)》 CAS 北大核心 2018年第3期289-292,共4页
支持向量机在解决非线性及高维模式识别中表现出许多特有的优势,被广泛应用在文本分类领域。但是其核函数及其参数的选择对分类效果具有很大的影响,单一核函数难以很好地解决文本分类问题。因此,本文选取了三个常用的核函数进行两两组合... 支持向量机在解决非线性及高维模式识别中表现出许多特有的优势,被广泛应用在文本分类领域。但是其核函数及其参数的选择对分类效果具有很大的影响,单一核函数难以很好地解决文本分类问题。因此,本文选取了三个常用的核函数进行两两组合,利用加权组合核的形式来弥补单核自身特点可能带来的缺点,然后利用人工免疫算法(Immune algorithm,IA)对组合核进行参数寻优,以提高文本分类效果。实验分析证明,此方法有效。 展开更多
关键词 支持向量机 文本分类 组合核 IA参数寻优
在线阅读 下载PDF
基于SVM和KNN的文本分类研究 被引量:16
12
作者 张华鑫 庞建刚 《现代情报》 CSSCI 北大核心 2015年第5期73-77,共5页
本文在详细介绍文本自动分类流程的基础上,通过实验对SVM和KNN两种算法进行比较研究,实验结果表明:SVM算法使用多项式核函数的分类准确性高于使用径向基核函数的分类准确性,且多项式核函数的分类准确性随着参数q的增大而提高;SVM采用多... 本文在详细介绍文本自动分类流程的基础上,通过实验对SVM和KNN两种算法进行比较研究,实验结果表明:SVM算法使用多项式核函数的分类准确性高于使用径向基核函数的分类准确性,且多项式核函数的分类准确性随着参数q的增大而提高;SVM采用多项式核函数进行分类的准确性普遍高于采用KNN的分类准确性;采用多项式核函数的SVM和KNN两种算法对短文本的召回率高于对长文本的召回率。 展开更多
关键词 文本分类 KNN 支持向量机 核函数
在线阅读 下载PDF
副词“可”的语义分化及其语用解释 被引量:20
13
作者 罗晓英 邵敬敏 《暨南学报(哲学社会科学版)》 CSSCI 北大核心 2006年第2期102-107,共6页
通过对比方法分化副词“可”的语义,建立起不同层级的语义框架:“可1”与“可2”显示顺承与逆承的对立,“可21”与“可22”显示“弱式转折”与“强式转折”的区别,“可211”与“可212”显示“隐性对比”与“显性对比”的不同,“可221”... 通过对比方法分化副词“可”的语义,建立起不同层级的语义框架:“可1”与“可2”显示顺承与逆承的对立,“可21”与“可22”显示“弱式转折”与“强式转折”的区别,“可211”与“可212”显示“隐性对比”与“显性对比”的不同,“可221”与“可222”显示“隐性转折”与“显性转折”的不同。最后通过语义特征和焦点理论分析了它的语用特点。 展开更多
关键词 副词“可” 顺承 逆承 弱式转折 强式转折 焦点理论
在线阅读 下载PDF
用于文本相似度计算的新核函数 被引量:4
14
作者 王秀红 鞠时光 《通信学报》 EI CSCD 北大核心 2012年第12期43-48,共6页
为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数。结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适... 为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数。结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新核函数,并根据Mercer定理证明了所构造函数可以作为核函数。实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核、潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。 展开更多
关键词 信息检索 文本相似度 核函数 S_Wang核 潜在语义核 CAUCHY核 CLA复合核
在线阅读 下载PDF
基于核向量空间模型的专利分类 被引量:12
15
作者 丁月华 文贵华 郭炜强 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第8期58-61,共4页
提出了一种利用核函数改进向量空间的新模型:核向量空间模型.该模型利用Mercer核,把输入空间的样本映射到高维特征空间,在高维特征空间中按向量空间模型操作,然后用核向量空间模型实现专利分类.理论分析及在专利分类中的实验表明,所提... 提出了一种利用核函数改进向量空间的新模型:核向量空间模型.该模型利用Mercer核,把输入空间的样本映射到高维特征空间,在高维特征空间中按向量空间模型操作,然后用核向量空间模型实现专利分类.理论分析及在专利分类中的实验表明,所提出的模型比经典向量空间模型有更高的正确分类率. 展开更多
关键词 文本分类 向量空间模型 核函数
在线阅读 下载PDF
文本分类中的语义核函数研究 被引量:8
16
作者 张玉峰 王志芳 《情报科学》 CSSCI 北大核心 2010年第7期970-975,979,共7页
传统的很多文本分类算法都是基于文本特征的数值统计信息来进行分类,只考虑特征在文本中的出现频率,而忽略了文本特征之间的语义相关性。针对文本分类任务,本文提出一种基于本体的语义核函数的构造方法,设计和实现了基于WordNet的语义... 传统的很多文本分类算法都是基于文本特征的数值统计信息来进行分类,只考虑特征在文本中的出现频率,而忽略了文本特征之间的语义相关性。针对文本分类任务,本文提出一种基于本体的语义核函数的构造方法,设计和实现了基于WordNet的语义核函数算法,并将该语义核函数嵌入支持向量机分类器中进行文本分类实验,在20NewsGroups数据集上的分类结果表明,基于语义核函数的支持向量机的分类效果明显优于基于线性核的支持向量机的分类效果。 展开更多
关键词 文本分类 语义核函数 本体 支持向量机
原文传递
支持向量机分类算法研究 被引量:11
17
作者 周宽久 张世荣 《计算机工程与应用》 CSCD 北大核心 2009年第1期159-162,182,共5页
支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,进而提出了一种改进的NN-SVM算法——K... 支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,进而提出了一种改进的NN-SVM算法——KCNN-SVM。实验数据表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。 展开更多
关键词 支持向量机 核空间 文本分类
在线阅读 下载PDF
基于支撑向量置换核函数的一种领域知识与模型融合的技术 被引量:5
18
作者 李辉 史忠植 +1 位作者 何清 许卓群 《计算机学报》 EI CSCD 北大核心 2002年第8期860-868,共9页
提出了一种修正支撑向量核函数的理论与方法 .与传统的方法相比 ,置换核函数的引入为领域知识与学习模型的融合提供了理论基础与方法论 .该文借助于置换的概念 ,对关于事物模式组成的不变性常识进行了形式化 ,求取了可以定量表述事物模... 提出了一种修正支撑向量核函数的理论与方法 .与传统的方法相比 ,置换核函数的引入为领域知识与学习模型的融合提供了理论基础与方法论 .该文借助于置换的概念 ,对关于事物模式组成的不变性常识进行了形式化 ,求取了可以定量表述事物模式扰动的置换变换矩阵 ;在分类不变性的约束下 ,运用置换变换矩阵对核函数进行修正 ,获得了改进的学习模型 .文本分类的实验表明 ,学习算法将文本领域内的知识有效地融合到了学习模型中 ,获得了更高的分辨率与泛化能力 . 展开更多
关键词 置换核函数 领域知识 模型融合 支撑向量机 文本分类 机器学习
在线阅读 下载PDF
利用改进的多项式核函数支持向量机进行文本分类 被引量:2
19
作者 赖苏 熊忠阳 +1 位作者 江帆 唐蓉君 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第S1期41-45,共5页
针对多项式核函数学习能力差的缺点,将学习能力较强的条件正定核与多项式核构成一个混合核函数作为改进的多项式核支持向量机文本分类器。混合核函数不仅具有良好的泛化和良好的学习能力,而且其结构与文本向量的相似性度量有一定的联系... 针对多项式核函数学习能力差的缺点,将学习能力较强的条件正定核与多项式核构成一个混合核函数作为改进的多项式核支持向量机文本分类器。混合核函数不仅具有良好的泛化和良好的学习能力,而且其结构与文本向量的相似性度量有一定的联系。将混合核函数与多项式核函数在相同的数据集上进行了对比实验,比较其分类效果,检验了混合核函数优于传统的多项式核函数文本分类器。通过实验发现:一阶多项式核与二阶条件正定核作为支持向量机的核函数其分类效果可能是等价的。 展开更多
关键词 支持向量机 多项式核 条件正定核 文本分类
原文传递
基于多卷积核DPCNN的维吾尔语文本分类联合模型 被引量:8
20
作者 加米拉·吾守尔 吴迪 +3 位作者 王路路 古丽尼格尔·阿不都外力 买合木提·买买提 吐尔根·依布拉音 《中文信息学报》 CSCD 北大核心 2021年第7期63-71,共9页
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通... 由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于现有主流深度学习模型,验证了该模型在不同语种、语义表达稀疏和语义丰富各种情况下的鲁棒性。 展开更多
关键词 维吾尔语 文本分类 多卷积核DPCNN Bi-LSTM+CNN
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部