期刊文献+
共找到253篇文章
< 1 2 13 >
每页显示 20 50 100
基于相关性及语义的n-grams特征加权算法 被引量:2
1
作者 邱云飞 刘世兴 +1 位作者 林明明 邵良杉 《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期992-1001,共10页
n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-gr... n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生. 展开更多
关键词 最大相关度最小冗余度(mRMR) 语义相似度 n-grams 特征加权
在线阅读 下载PDF
基于基尼系数的n-grams特征约简加权算法
2
作者 张金美 舒希勇 《淮阴工学院学报》 CAS 2016年第1期25-28,共4页
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得... 目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权结果。通过支持向量机中的实验结果表明,经过基尼系数约简和加权后的n-grams特征在分类结果上要优于TF(Term Frequency)等加权方法,验证了算法的有效性。 展开更多
关键词 n-grams特征 基尼指数 洛伦茨曲线 支持向量机
在线阅读 下载PDF
基于关键n-grams和门控循环神经网络的文本分类模型 被引量:4
3
作者 赵倩 吴悦 刘宗田 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第3期544-552,共9页
提出一种基于关键n-grams和门控循环神经网络的文本分类模型.模型采用更为简单高效的池化层替代传统的卷积层来提取关键的n-grams作为重要语义特征,同时构建双向门控循环单元(gated recurrent unit,GRU)获取输入文本的全局依赖特征,最... 提出一种基于关键n-grams和门控循环神经网络的文本分类模型.模型采用更为简单高效的池化层替代传统的卷积层来提取关键的n-grams作为重要语义特征,同时构建双向门控循环单元(gated recurrent unit,GRU)获取输入文本的全局依赖特征,最后将两种特征的融合模型应用于文本分类任务.在多个公开数据集上评估模型的质量,包括情感分类和主题分类.与传统模型的实验对比结果表明:所提出的文本分类模型可有效改进文本分类的性能,在语料库20newsgroup上准确率提高约1.95%,在语料库Rotton Tomatoes上准确率提高约1.55%. 展开更多
关键词 文本分类 门控循环单元(gated recurrent unit GRU) n-grams 自然语言处理
在线阅读 下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:9
4
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 n-gram R-Gram
在线阅读 下载PDF
基于多尺度的n-grams特征选择加权及匹配算法 被引量:1
5
作者 刘世兴 《智能计算机与应用》 2020年第1期61-66,共6页
n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准... n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准确,进而导致最终分类结果的偏差。为解决上述问题,根据词性、语义及词汇的内在偏序关系,提出一种结合词汇、词性和语义的特征选择加权及匹配算法,使n-grams特征权值区分明显的同时避免在训练和测试过程中产生大量稀疏数据。在美国当代英语语料库和北京BBC汉语语料库中的实验结果表明,与传统的n-grams特征选择加权及匹配算法相比,基于多尺度的n-grams特征选择加权及匹配算法中得到的n-grams特征权值区分明显且稀疏数据大幅减少,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。 展开更多
关键词 n-grams 特征选择 特征加权 偏序集 词性 语义近似度
在线阅读 下载PDF
基于混合分词与动态平滑的藏文N-gram语言模型优化及性能分析
6
作者 曼拉才让 安见才让 仁欠扎西 《信息技术与信息化》 2026年第2期54-58,共5页
藏语自然语言处理的发展是推动藏语言信息化进程的核心支撑。针对藏语屈折性与黏着性复合形态特征,文章提出一种融合藏语特性优化混合分词策略与“黏着性因子α”动态平滑技术的语言模型构建方案。基于SRILM工具与Python并行计算技术,完... 藏语自然语言处理的发展是推动藏语言信息化进程的核心支撑。针对藏语屈折性与黏着性复合形态特征,文章提出一种融合藏语特性优化混合分词策略与“黏着性因子α”动态平滑技术的语言模型构建方案。基于SRILM工具与Python并行计算技术,完成1~7元N-gram模型的高效训练与系统评估,重点分析不同N值对模型性能的影响。实验结果显示,综合模型困惑度(PPL)与文本生成质量,当N值处于3~6范围时模型表现较优,其中N=4时效果最佳。该系统在分词灵活性、平滑技术适配性及计算效率上实现显著提升,不仅为藏语这一低资源、形态复杂语言的N-gram模型优化及基础参数确立提供了有效路径,也为后续更复杂藏语神经网络模型的研究奠定了坚实基准。 展开更多
关键词 藏语NLP n-gram模型 混合分词 低资源语言 黏着性因子
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
7
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 n-gram 中文分词
在线阅读 下载PDF
融合N-Gram的水产养殖长文本实体关系联合抽取 被引量:1
8
作者 毕甜甜 张思佳 +3 位作者 孙旭菲 王水涛 王祎涵 安宗诗 《哈尔滨理工大学学报》 北大核心 2025年第2期91-103,共13页
针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiL... 针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiLSTM提取深层次特征。然后逐层提取融合N-Gram算法预处理的长文本切片矩阵特征,建模切片矩阵的相对位置和绝对位置。在自构建的水产养殖长文本数据集和SKE公共数据集上的实验效果与基准模型相比有了明显提升。实验结果表明,该方法能够充分获取并处理水产养殖长文本中的语义信息,有效提高了实体关系抽取的准确性和完整性。 展开更多
关键词 水产养殖 长文本 实体关系联合抽取 n-gram算法 多模型融合算法
在线阅读 下载PDF
基于N-gram频率和1D-CAN-DAT的网络入侵检测模型
9
作者 郑淳戈 安洋 +1 位作者 赵利辉 孟迪 《火力与指挥控制》 北大核心 2025年第9期54-64,共11页
为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构... 为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构建关联特征,并提取深层次会话特征。实验结果表明,不同攻击类型的加权检测准确率达到了97.68%,同部分现有研究相比有所提升。 展开更多
关键词 入侵检测 n-gram频率 CNN 可变形注意力机制 时间感知 Transformer
在线阅读 下载PDF
基于N-gram语言模型和语料库的智能翻译语法纠正技术研究
10
作者 周东妮 《自动化与仪器仪表》 2025年第10期193-197,共5页
为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,... 为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,并设计了基于N-gram语言模型的反馈过滤机制。结果显示,拼音检测算法的检测准确率、耗时和内存占用率最大值分别为96.78%、42 ms和12.55%。研究设计纠正模型在公开数据集+增广数据下的准确率是更高的,且句子困惑度更低。结合拼音检测和数据增广的语法纠正模型准确率最大值为82.68%,最小值为75.14%,且F 0.5 最大值为60.73。所设计的拼音检测算法、数据增广策略和纠正模型皆具有良好的性能,能为英语智能翻译质量的提升提供语法纠正技术上的支持。 展开更多
关键词 n-gram 语料库 英语 翻译 数据增广 纠正 拼音
原文传递
一种改进的基于n-gram的古汉语断句与标点方法
11
作者 秦瑞琳 《集美大学学报(自然科学版)》 2025年第2期198-204,共7页
古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元... 古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元组到五元组的上下文信息,加权计算当前位置标点的概率,并据此辅助计算前后位置标点的概率,从而反映出前后标点间的相互影响。在多种古籍语料上的实验表明,所提方法在断句任务上能够取得比现有n-gram和GRU-RNN模型更高的F 1值,且在部分语料上的断句与标点性能优于BiLSTM+CRF模型。 展开更多
关键词 古汉语 断句 标点 n-gram模型 深度学习
在线阅读 下载PDF
基于N-gram相似度增强蛋白质肽段组装的方法——面向质谱数据分析
12
作者 邵赟 倪申环 +3 位作者 杨程珲 庞明威 孔韧 常珊 《电脑知识与技术》 2025年第18期1-6,共6页
蛋白质肽段组装是确定蛋白质全长序列的重要步骤之一。然而,由于测序数据的不完整性及测序错误,传统de Bruijn图方法ALPS在肽段组装中存在覆盖率低和准确率不足的问题。因此,文章提出了一种基于N-gram相似度增强肽段组装的方法。利用N-g... 蛋白质肽段组装是确定蛋白质全长序列的重要步骤之一。然而,由于测序数据的不完整性及测序错误,传统de Bruijn图方法ALPS在肽段组装中存在覆盖率低和准确率不足的问题。因此,文章提出了一种基于N-gram相似度增强肽段组装的方法。利用N-gram算法改进了ALPS方法的组装路径选择,通过计算肽段子串之间的相似性,对de Bruijn图中断裂子串处进行容错性补充,从而提升了肽段组装序列的覆盖率与BLAST比对的得分。验证结果表明,该方法的组装效果优于ALPS,Huamn-H与Mouse-H数据集上的序列覆盖率分别由77%提升至95%和60%提升至82%,BLAST比对的得分分别从702提升至845和从556提升至742。在Human-L与Mouse-L数据集上,两种方法效果相当。文章的主要贡献如下:1)提出利用N-gram算法改进ALPS组装方法;2)在4个数据集上进行实验验证,该方法有效提升了肽段组装的覆盖率与BLAST比对的得分。 展开更多
关键词 n-gram相似度算法 de Bruijn图 容错性 肽段组装 BLAST比对
在线阅读 下载PDF
状态感知的可信执行环境内核模糊测试方法
13
作者 邱云飞 郭梦鋆 张强 《信息安全研究》 北大核心 2026年第3期198-209,共12页
可信执行环境(trusted execution environment,TEE)被广泛使用,其内核安全已成为一个重要的关注领域.模糊测试作为识别操作系统内核漏洞的有效方法,已广泛应用于TEE安全研究.然而,传统的模糊测试工具由于TEE的隔离性而不能直接用于TEE内... 可信执行环境(trusted execution environment,TEE)被广泛使用,其内核安全已成为一个重要的关注领域.模糊测试作为识别操作系统内核漏洞的有效方法,已广泛应用于TEE安全研究.然而,传统的模糊测试工具由于TEE的隔离性而不能直接用于TEE内核.覆盖引导的模糊器通常会丢弃触发新状态而覆盖相同代码的测试用例,限制了它们在发现漏洞方面的有效性.针对以上问题,提出了一种状态感知的TEE内核模糊测试方法.首先,设计了一种建模和跟踪方法,通过状态变量的值表示程序状态,保留触发新状态的测试用例,克服了覆盖引导的模糊器的局限性.其次,提出了新的通信方案以解决TEE的隔离性引发的问题.并提出了新的种子保存和选择算法,以更好地引导模糊器探索漏洞.最后,结合N-Gram模型指导测试用例生成过程,优化测试框架性能.目前已经实现了一个Trusty-Statefuzz原型,并在fuchsia、自主开发的微内核操作系统nebula以及OP-TEE上进行了模糊测试并评估.结果表明,Trusty-Statefuzz在发现新代码和漏洞方面是有效的.它发现了9个未知漏洞和23个已知漏洞,比现有模糊测试工具Syzkaller提升13%的代码覆盖率和27%的状态覆盖率. 展开更多
关键词 模糊测试 可信执行环境 程序状态 内核 n-gram模型
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
14
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
15
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
在线阅读 下载PDF
N-gram语言模型的数据平滑技术 被引量:11
16
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
在线阅读 下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:19
17
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 n-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
在线阅读 下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
18
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
19
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fastText 类别特征 词汇信息熵 n-gram
在线阅读 下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:17
20
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部