期刊文献+
共找到942篇文章
< 1 2 48 >
每页显示 20 50 100
融合N-Gram的水产养殖长文本实体关系联合抽取 被引量:1
1
作者 毕甜甜 张思佳 +3 位作者 孙旭菲 王水涛 王祎涵 安宗诗 《哈尔滨理工大学学报》 北大核心 2025年第2期91-103,共13页
针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiL... 针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiLSTM提取深层次特征。然后逐层提取融合N-Gram算法预处理的长文本切片矩阵特征,建模切片矩阵的相对位置和绝对位置。在自构建的水产养殖长文本数据集和SKE公共数据集上的实验效果与基准模型相比有了明显提升。实验结果表明,该方法能够充分获取并处理水产养殖长文本中的语义信息,有效提高了实体关系抽取的准确性和完整性。 展开更多
关键词 水产养殖 长文本 实体关系联合抽取 n-gram算法 多模型融合算法
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
2
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 n-gram 中文分词
在线阅读 下载PDF
Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features 被引量:10
3
作者 Zachary Miller Brian Dickinson Wei Hu 《International Journal of Intelligence Science》 2012年第4期143-148,共6页
The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts... The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts to learn about the author of the text through subtle variations in the writing styles that occur between gender, age and social groups. Such information has a variety of applications including advertising and law enforcement. One of the most accessible sources of user-generated data is Twitter, which makes the majority of its user data freely available through its data access API. In this study we seek to identify the gender of users on Twitter using Perceptron and Nai ve Bayes with selected 1 through 5-gram features from tweet text. Stream applications of these algorithms were employed for gender prediction to handle the speed and volume of tweet traffic. Because informal text, such as tweets, cannot be easily evaluated using traditional dictionary methods, n-gram features were implemented in this study to represent streaming tweets. The large number of 1 through 5-grams requires that only a subset of them be used in gender classification, for this reason informative n-gram features were chosen using multiple selection algorithms. In the best case the Naive Bayes and Perceptron algorithms produced accuracy, balanced accuracy, and F-measure above 99%. 展开更多
关键词 TWITTER GEnDER Identification STREAM MInInG n-gram Feature Selection TEXT MInInG
暂未订购
基于N-gram频率和1D-CAN-DAT的网络入侵检测模型
4
作者 郑淳戈 安洋 +1 位作者 赵利辉 孟迪 《火力与指挥控制》 北大核心 2025年第9期54-64,共11页
为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构... 为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构建关联特征,并提取深层次会话特征。实验结果表明,不同攻击类型的加权检测准确率达到了97.68%,同部分现有研究相比有所提升。 展开更多
关键词 入侵检测 n-gram频率 Cnn 可变形注意力机制 时间感知 Transformer
在线阅读 下载PDF
Random forest algorithm reveals novel sites in HA protein that shift receptor binding preference of the H9N2 avian influenza virus
5
作者 Yuncong Yin Wen Li +7 位作者 Rujian Chen Xiao Wang Yiting Chen Xinyuan Cui Xingbang Lu David M.Irwin Xuejuan Shen Yongyi Shen 《Virologica Sinica》 2025年第1期109-117,共9页
A switch from avian-typeα-2,3 to human-typeα-2,6 receptors is an essential element for the initiation of a pandemic from an avian influenza virus.Some H9N2 viruses exhibit a preference for binding to human-typeα-2,... A switch from avian-typeα-2,3 to human-typeα-2,6 receptors is an essential element for the initiation of a pandemic from an avian influenza virus.Some H9N2 viruses exhibit a preference for binding to human-typeα-2,6 receptors.This identifies their potential threat to public health.However,our understanding of the molecular basis for the switch of receptor preference is still limited.In this study,we employed the random forest algorithm to identify the potentially key amino acid sites within hemagglutinin(HA),which are associated with the receptor binding ability of H9N2 avian influenza virus(AIV).Subsequently,these sites were further verified by receptor binding assays.A total of 12 substitutions in the HA protein(N158D,N158S,A160 N,A160D,A160T,T163I,T163V,V190T,V190A,D193 N,D193G,and N231D)were predicted to prefer binding toα-2,6 receptors.Except for the V190T substitution,the other substitutions were demonstrated to display an affinity for preferential binding toα-2,6 receptors by receptor binding assays.Especially,the A160T substitution caused a significant upregulation of immune-response genes and an increased mortality rate in mice.Our findings provide novel insights into understanding the genetic basis of receptor preference of the H9N2 AIV. 展开更多
关键词 H9n2 Hemagglutinin(HA) Receptor binding preference Random forest algorithm Host shift Interspecies transmission
原文传递
基于N-gram语言模型和语料库的智能翻译语法纠正技术研究
6
作者 周东妮 《自动化与仪器仪表》 2025年第10期193-197,共5页
为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,... 为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,并设计了基于N-gram语言模型的反馈过滤机制。结果显示,拼音检测算法的检测准确率、耗时和内存占用率最大值分别为96.78%、42 ms和12.55%。研究设计纠正模型在公开数据集+增广数据下的准确率是更高的,且句子困惑度更低。结合拼音检测和数据增广的语法纠正模型准确率最大值为82.68%,最小值为75.14%,且F 0.5 最大值为60.73。所设计的拼音检测算法、数据增广策略和纠正模型皆具有良好的性能,能为英语智能翻译质量的提升提供语法纠正技术上的支持。 展开更多
关键词 n-gram 语料库 英语 翻译 数据增广 纠正 拼音
原文传递
一种改进的基于n-gram的古汉语断句与标点方法
7
作者 秦瑞琳 《集美大学学报(自然科学版)》 2025年第2期198-204,共7页
古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元... 古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元组到五元组的上下文信息,加权计算当前位置标点的概率,并据此辅助计算前后位置标点的概率,从而反映出前后标点间的相互影响。在多种古籍语料上的实验表明,所提方法在断句任务上能够取得比现有n-gram和GRU-RNN模型更高的F 1值,且在部分语料上的断句与标点性能优于BiLSTM+CRF模型。 展开更多
关键词 古汉语 断句 标点 n-gram模型 深度学习
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
8
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
基于N-Gram的文本语种识别研究 被引量:6
9
作者 王昊 李思舒 邓三鸿 《现代图书情报技术》 CSSCI 北大核心 2013年第4期54-61,共8页
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于... 基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。 展开更多
关键词 ngram 多语种识别 语料库 文本分类
原文传递
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
10
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
在线阅读 下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
11
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 ngram 贝叶斯模型 特征选择
在线阅读 下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:9
12
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 n-gram R-gram
在线阅读 下载PDF
基于N⁃gram算法的网络安全风险检测系统设计 被引量:13
13
作者 蒋荣萍 《现代电子技术》 2021年第1期25-28,共4页
针对传统网络安全风险检测系统存在数据包检测性能较差的问题,设计一种基于N⁃gram算法的网络安全风险检测系统。系统的硬件模块包括数据预处理模块、协同分析模块,其中数据预处理模块主要负责处理被捕获的、存在安全风险的数据包,由检... 针对传统网络安全风险检测系统存在数据包检测性能较差的问题,设计一种基于N⁃gram算法的网络安全风险检测系统。系统的硬件模块包括数据预处理模块、协同分析模块,其中数据预处理模块主要负责处理被捕获的、存在安全风险的数据包,由检测引擎与包解码器组成;协同分析模块主要由协同采集器、协同分析器、协同传感器以及协同管理器构成。基于N⁃gram算法设计网络安全风险检测模块,该模块主要通过协议分析与特征匹配实现网络安全风险检测,其中协议分析主要通过构建协议分析树实现;而特征匹配则主要通过N⁃gram算法实现。为了证明该系统的数据包检测性能,将传统网络安全风险检测系统与该系统进行对比实验,实验结果证明该系统的数据包检测性能优于传统网络安全风险检测系统,实现了性能跃升。 展开更多
关键词 网络安全 风险检测 n⁃gram算法 数据包检测 协同分析 特征匹配
在线阅读 下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
14
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
在线阅读 下载PDF
基于N-gram的Web用户浏览模式分类算法研究 被引量:2
15
作者 朱志国 邓贵仕 孔立平 《情报学报》 CSSCI 北大核心 2009年第3期389-394,共6页
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览... Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架。系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档。最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度。 展开更多
关键词 n-gram方法 Web内容抽取 用户浏览模式 分类算法
在线阅读 下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
16
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
在线阅读 下载PDF
大规模汉语语料库中任意n的n-gram统计算法及知识获取方法 被引量:4
17
作者 张民 李生 赵铁军 《情报学报》 CSSCI 北大核心 1997年第1期28-35,共8页
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所... 本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。 展开更多
关键词 n元语法 统计 信息熵 知识获取 汉语语料库
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
18
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fastText 类别特征 词汇信息熵 n-gram
在线阅读 下载PDF
N-Gram模型下网络客户端病毒防御方法仿真 被引量:2
19
作者 孙茜 吴鸣 《计算机仿真》 北大核心 2022年第10期400-404,共5页
针对当前的客户端病毒防御方法无法获取病毒的特征向量,导致病毒防御不具有针对性等问题,提出一种基于N-Gram模型的网络客户端病毒防御方法。分析不同长度的N-Gram特征对网络客户端病毒检测的效果,并通过N-Gram模型获取病毒的特征向量,... 针对当前的客户端病毒防御方法无法获取病毒的特征向量,导致病毒防御不具有针对性等问题,提出一种基于N-Gram模型的网络客户端病毒防御方法。分析不同长度的N-Gram特征对网络客户端病毒检测的效果,并通过N-Gram模型获取病毒的特征向量,整合特征选择的详细操作步骤。将距离相似度检测技术和决策算法相结合检测网络客户端病毒,设计网络客户端病毒防御流程。当检测到病毒入侵后,评估病毒危险等级,制定病毒防御策略。仿真证明了所提方法能够有效防御网络客户端病毒。 展开更多
关键词 模型 网络客户端 病毒防御 决策算法
在线阅读 下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:19
20
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 n-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
在线阅读 下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部