期刊文献+
共找到387篇文章
< 1 2 20 >
每页显示 20 50 100
融合N-Gram和多重注意力机制的能源领域新词发现方法
1
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 n-gram 中文分词
在线阅读 下载PDF
融合N-Gram的水产养殖长文本实体关系联合抽取 被引量:1
2
作者 毕甜甜 张思佳 +3 位作者 孙旭菲 王水涛 王祎涵 安宗诗 《哈尔滨理工大学学报》 北大核心 2025年第2期91-103,共13页
针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiL... 针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiLSTM提取深层次特征。然后逐层提取融合N-Gram算法预处理的长文本切片矩阵特征,建模切片矩阵的相对位置和绝对位置。在自构建的水产养殖长文本数据集和SKE公共数据集上的实验效果与基准模型相比有了明显提升。实验结果表明,该方法能够充分获取并处理水产养殖长文本中的语义信息,有效提高了实体关系抽取的准确性和完整性。 展开更多
关键词 水产养殖 长文本 实体关系联合抽取 n-gram算法 多模型融合算法
在线阅读 下载PDF
基于N-gram频率和1D-CAN-DAT的网络入侵检测模型
3
作者 郑淳戈 安洋 +1 位作者 赵利辉 孟迪 《火力与指挥控制》 北大核心 2025年第9期54-64,共11页
为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构... 为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构建关联特征,并提取深层次会话特征。实验结果表明,不同攻击类型的加权检测准确率达到了97.68%,同部分现有研究相比有所提升。 展开更多
关键词 入侵检测 n-gram频率 CNN 可变形注意力机制 时间感知 Transformer
在线阅读 下载PDF
基于N-gram语言模型和语料库的智能翻译语法纠正技术研究
4
作者 周东妮 《自动化与仪器仪表》 2025年第10期193-197,共5页
为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,... 为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,并设计了基于N-gram语言模型的反馈过滤机制。结果显示,拼音检测算法的检测准确率、耗时和内存占用率最大值分别为96.78%、42 ms和12.55%。研究设计纠正模型在公开数据集+增广数据下的准确率是更高的,且句子困惑度更低。结合拼音检测和数据增广的语法纠正模型准确率最大值为82.68%,最小值为75.14%,且F 0.5 最大值为60.73。所设计的拼音检测算法、数据增广策略和纠正模型皆具有良好的性能,能为英语智能翻译质量的提升提供语法纠正技术上的支持。 展开更多
关键词 n-gram 语料库 英语 翻译 数据增广 纠正 拼音
原文传递
一种改进的基于n-gram的古汉语断句与标点方法
5
作者 秦瑞琳 《集美大学学报(自然科学版)》 2025年第2期198-204,共7页
古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元... 古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元组到五元组的上下文信息,加权计算当前位置标点的概率,并据此辅助计算前后位置标点的概率,从而反映出前后标点间的相互影响。在多种古籍语料上的实验表明,所提方法在断句任务上能够取得比现有n-gram和GRU-RNN模型更高的F 1值,且在部分语料上的断句与标点性能优于BiLSTM+CRF模型。 展开更多
关键词 古汉语 断句 标点 n-gram模型 深度学习
在线阅读 下载PDF
基于N-gram相似度增强蛋白质肽段组装的方法——面向质谱数据分析
6
作者 邵赟 倪申环 +3 位作者 杨程珲 庞明威 孔韧 常珊 《电脑知识与技术》 2025年第18期1-6,共6页
蛋白质肽段组装是确定蛋白质全长序列的重要步骤之一。然而,由于测序数据的不完整性及测序错误,传统de Bruijn图方法ALPS在肽段组装中存在覆盖率低和准确率不足的问题。因此,文章提出了一种基于N-gram相似度增强肽段组装的方法。利用N-g... 蛋白质肽段组装是确定蛋白质全长序列的重要步骤之一。然而,由于测序数据的不完整性及测序错误,传统de Bruijn图方法ALPS在肽段组装中存在覆盖率低和准确率不足的问题。因此,文章提出了一种基于N-gram相似度增强肽段组装的方法。利用N-gram算法改进了ALPS方法的组装路径选择,通过计算肽段子串之间的相似性,对de Bruijn图中断裂子串处进行容错性补充,从而提升了肽段组装序列的覆盖率与BLAST比对的得分。验证结果表明,该方法的组装效果优于ALPS,Huamn-H与Mouse-H数据集上的序列覆盖率分别由77%提升至95%和60%提升至82%,BLAST比对的得分分别从702提升至845和从556提升至742。在Human-L与Mouse-L数据集上,两种方法效果相当。文章的主要贡献如下:1)提出利用N-gram算法改进ALPS组装方法;2)在4个数据集上进行实验验证,该方法有效提升了肽段组装的覆盖率与BLAST比对的得分。 展开更多
关键词 n-gram相似度算法 de Bruijn图 容错性 肽段组装 BLAST比对
在线阅读 下载PDF
基于N-gram改进特征的ACFG在GCC编译器版本识别中的应用
7
作者 陈舒 董晨洋 +2 位作者 叶慧斌 韩铨 钟秀艺 《数学建模及其应用》 2024年第4期86-98,共13页
探讨基于N-gram改进特征的ACFG,与优化后的LightGBM分类器相结合,以实现对GCC编译器版本的精确识别.研究重点在于关键特征的提取和判别函数的构建.在识别编译结果的关键特征时,构建了N-gram关联模型,以关联寄存器与操作码的统计特征,确... 探讨基于N-gram改进特征的ACFG,与优化后的LightGBM分类器相结合,以实现对GCC编译器版本的精确识别.研究重点在于关键特征的提取和判别函数的构建.在识别编译结果的关键特征时,构建了N-gram关联模型,以关联寄存器与操作码的统计特征,确保代码块内部的局部特征得到充分保留.此外,在改进的ACFG框架基础上,通过N-gram关联的聚合图特征,有效捕捉了指令序列代码块之间的上下文信息.在判别函数的构建过程中,实验验证了LightGBM分类器在处理复杂特征方面的显著优势,并采用了贝叶斯算法进行超参数优化.文章最后提出了通过生成对抗网络(GAN)优化等策略进一步提升模型性能的建议. 展开更多
关键词 GCC编译器版本识别 n-gram ACFG LightGBM
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
8
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
基于N-gram剪枝技术的隐患文本自动评估模型
9
作者 叶洪胜 刘洪 +4 位作者 周宝山 兰莉 邹巧兰 周啟梦 王海宇 《矿山工程》 2024年第3期388-394,共7页
为了自动分析海上钻井平台隐患文本中蕴含的隐患响应程度信息,量化隐患严重程度,提出一种基于N-gram词袋向量的隐患响应等级量化评估模型。首先针对1565条钻井平台的现场隐患记录进行分词与过滤处理;其次再以N-gram作为特征单元重塑词... 为了自动分析海上钻井平台隐患文本中蕴含的隐患响应程度信息,量化隐患严重程度,提出一种基于N-gram词袋向量的隐患响应等级量化评估模型。首先针对1565条钻井平台的现场隐患记录进行分词与过滤处理;其次再以N-gram作为特征单元重塑词袋维度;然后提出使用逆TF-IDF值来强化特征值;最后,使用朴素贝叶斯构建隐患量化模型。结果表明:使用该方法的隐患量化评估模型具有较高的精确率、召回率及F1值。 展开更多
关键词 语义分析 钻井平台 n-gram 词袋向量 隐患量化
在线阅读 下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
10
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
在线阅读 下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:9
11
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 n-gram R-Gram
在线阅读 下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:19
12
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 n-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
在线阅读 下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:17
13
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
在线阅读 下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
14
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
15
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fastText 类别特征 词汇信息熵 n-gram
在线阅读 下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
16
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
在线阅读 下载PDF
N-gram语言模型的数据平滑技术 被引量:11
17
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
在线阅读 下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
18
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
在线阅读 下载PDF
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
19
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
在线阅读 下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:6
20
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元n-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部