期刊文献+
共找到4,663篇文章
< 1 2 234 >
每页显示 20 50 100
马铃薯GRAM基因家族鉴定与表达分析 被引量:1
1
作者 刘涛 王志淇 +4 位作者 吴文博 石文婷 王超楠 杜崇 杨中敏 《生物技术通报》 北大核心 2025年第4期145-155,共11页
【目的】GRAM(Glucosyltransferases,Rab-like GTPase activators and Myotubularins)是普遍存在于动、植物蛋白中的结构域,在植物生长发育及响应逆境胁迫等过程中发挥着重要功能。在马铃薯全基因组中鉴定GRAM基因家族成员,分析马铃薯G... 【目的】GRAM(Glucosyltransferases,Rab-like GTPase activators and Myotubularins)是普遍存在于动、植物蛋白中的结构域,在植物生长发育及响应逆境胁迫等过程中发挥着重要功能。在马铃薯全基因组中鉴定GRAM基因家族成员,分析马铃薯GRAM家族基因在盐胁迫下的表达模式,探究GRAM家族在马铃薯盐胁迫过程中的作用。【方法】采用生物信息学方法鉴定马铃薯中GRAM家族成员,并对蛋白理化性质、染色体定位、亚细胞定位、基因结构、motif及共线性等方面进行分析。利用转录组测序和荧光定量PCR(RT-qPCR)对该家族成员在盐胁迫下的表达模式进行研究。【结果】在马铃薯中共鉴定到26个GRAM家族基因,不均匀地分布于7条染色体上;理化性质分析显示StGRAM全部为亲水性蛋白,大部分为碱性蛋白;亚细胞定位预测StGRAM蛋白大部分存在于叶绿体和细胞核;根据系统进化分析可将StGRAM家族分为3个亚族,同一亚族成员具有相似的基因结构及motif分布;通过马铃薯物种内共线性分析发现StGRAM仅有一对同源基因,物种间共线性显示StGRAM在水稻和拟南芥中分别存在5对和3对同源基因;在StGRAM基因启动子区发现大量的激素响应元件和逆境胁迫响应元件;转录组测序分析和RT-qPCR分析显示,StGRAM基因受盐胁迫的诱导表达,可能参与了马铃薯对盐胁迫的响应过程,StGRAM25基因可能对中性盐和碱性盐有不同的响应模式。【结论】StGRAM基因家族在马铃薯盐胁迫响应和信号转导过程中发挥着重要作用。 展开更多
关键词 马铃薯 gram基因家族 生物信息学 盐胁迫 表达分析
在线阅读 下载PDF
融合N-Gram和多重注意力机制的能源领域新词发现方法
2
作者 王祎涵 张思佳 +2 位作者 曹恒 刘珈宁 张正龙 《科学技术与工程》 北大核心 2025年第18期7668-7677,共10页
随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据... 随着能源行业的快速发展和技术革新,大量的专业术语和表达方式不断更新,新词不断涌现。然而,传统的新词发现方法通常依赖于词典或规则,且难以高效率地处理和更新大量的专业术语,特别是在快速变化的能源领域。因此,结合能源领域文本数据特性,提出了一种融合N-Gram和多重注意力机制的能源领域新词发现方法(new word discovery method in the energy field combining N-Gram and multiple attention mechanism, ENFM)。该方法首先利用N-Gram模型对能源领域的文本数据进行初步处理,通过统计和分析词频来生成新词候选列表。随后,引入融合多重注意力机制的ERNIE-BiLSTM-CRF模型,以进一步提升新词发现的准确性和效率。与传统的新词发现技术相比,在新词的准确识别和整体效率上均有显著提升,将其于能源领域政策文本数据集,准确率、召回率和F1分别为95.71%、95.56%、95.63%。实验结果表明,该方法能够准确地在能源领域的大量文本数据中识别新词,有效识别出能源领域特有的词汇和表达方式,显著提高了中文分词任务中对能源领域专业术语的识别能力。 展开更多
关键词 能源领域 新词发现 预训练模型 N-gram 中文分词
在线阅读 下载PDF
融合N-Gram的水产养殖长文本实体关系联合抽取 被引量:1
3
作者 毕甜甜 张思佳 +3 位作者 孙旭菲 王水涛 王祎涵 安宗诗 《哈尔滨理工大学学报》 北大核心 2025年第2期91-103,共13页
针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiL... 针对水产养殖长文本中存在大量与目标主题无关的信息,导致模型误判和丢失有效信息的问题,提出了融合N-Gram的水产养殖长文本实体关系联合抽取方法。该方法首先采用多模型融合算法提取基于BERT初始化的文本矩阵特征图,进一步利用级联BiLSTM提取深层次特征。然后逐层提取融合N-Gram算法预处理的长文本切片矩阵特征,建模切片矩阵的相对位置和绝对位置。在自构建的水产养殖长文本数据集和SKE公共数据集上的实验效果与基准模型相比有了明显提升。实验结果表明,该方法能够充分获取并处理水产养殖长文本中的语义信息,有效提高了实体关系抽取的准确性和完整性。 展开更多
关键词 水产养殖 长文本 实体关系联合抽取 N-gram算法 多模型融合算法
在线阅读 下载PDF
基于GRAM矩阵的粒感知机
4
作者 吴少华 陈玉明 《计算机科学》 北大核心 2025年第S2期664-670,共7页
感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,... 感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,提出一种基于GRAM矩阵的粒感知机模型。该模型优化感知机的对偶形式,构造新的粒感知机模型。为处理非线性分类问题,引入核函数,构造基于粒向量的核GRAM矩阵,并给出GRAM粒感知机的损失函数和学习方法。最后,从收敛性、非线性处理能力、参考样本的数量以及模型分类效果4方面进行实验分析,结果表明了GRAM粒感知机的有效性与正确性。 展开更多
关键词 粒计算 感知机 gram矩阵 非线性分类 核函数
在线阅读 下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:29
5
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 N-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
在线阅读 下载PDF
基于N-gram频率和1D-CAN-DAT的网络入侵检测模型
6
作者 郑淳戈 安洋 +1 位作者 赵利辉 孟迪 《火力与指挥控制》 北大核心 2025年第9期54-64,共11页
为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构... 为解决网络入侵检测中信息利用不充分、特征维度不完整的问题,提出一种基于N-gram频率和1DCAN-DAT的网络入侵检测模型。该模型通过1D-CAN分别提取流量包头和有效载荷特征,创新性地使用N-gram频率表示有效载荷上下文信息。引入1D-DAT构建关联特征,并提取深层次会话特征。实验结果表明,不同攻击类型的加权检测准确率达到了97.68%,同部分现有研究相比有所提升。 展开更多
关键词 入侵检测 N-gram频率 CNN 可变形注意力机制 时间感知 Transformer
在线阅读 下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:9
7
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 N-gram R-gram
在线阅读 下载PDF
采用Skip-Gram和双向长短期记忆网络模型的自动谱曲机器人研究
8
作者 袁家琰 李嘉欣 《自动化与仪器仪表》 2025年第9期145-150,共6页
为了实现钢琴练习曲的自动谱曲,研究提出了一种基于Skip-Gram模型和双向长短期记忆网络的自动谱曲方法。具体来说,研究首先采用了改进的基本轮廓线算法来获取主旋律。其次,通过Skip-Gram模型来对主旋律音符序列进行转换,并将其作为后续... 为了实现钢琴练习曲的自动谱曲,研究提出了一种基于Skip-Gram模型和双向长短期记忆网络的自动谱曲方法。具体来说,研究首先采用了改进的基本轮廓线算法来获取主旋律。其次,通过Skip-Gram模型来对主旋律音符序列进行转换,并将其作为后续谱曲模型的输入。最后,研究构建了结合双向长短期记忆网络和自注意力机制的自动谱曲模型。结果显示,改进轮廓线算法在主旋律提取平均相似度和均方根误差上的最小值分别为86.55%和0.357。Skip-Gram模型的转换准确率最大值为95.37%,耗时平均值为72 ms。所设计自动谱曲模型的音符预测准确率最大值为96.17%,且生成速度均值为82 ms。生成钢琴曲中的音符分布是较为和谐的,取值范围为[4,17],且12种音符的分布概率差别不大。同时该曲谱的悦耳程度与和谐性专业得分均值分别为8.247分和7.958分,均大于对比模型。所设计模型具有良好的钢琴曲谱生成性能,能够在钢琴教学中给学生带来启迪和思考。 展开更多
关键词 Skip-gram Bi-LSTM 钢琴 谱曲 音符
原文传递
基于N-gram语言模型和语料库的智能翻译语法纠正技术研究
9
作者 周东妮 《自动化与仪器仪表》 2025年第10期193-197,共5页
为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,... 为了提升英语智能翻译中语法纠正的准确率,研究设计了基于音节树的汉语拼音检测算法,以避免模型将正确的汉语拼音误判为英语拼写错误。同时,研究提出了一种数据增广策略,以扩充语料库。最后,研究提出了基于Transformer的语法纠正模型,并设计了基于N-gram语言模型的反馈过滤机制。结果显示,拼音检测算法的检测准确率、耗时和内存占用率最大值分别为96.78%、42 ms和12.55%。研究设计纠正模型在公开数据集+增广数据下的准确率是更高的,且句子困惑度更低。结合拼音检测和数据增广的语法纠正模型准确率最大值为82.68%,最小值为75.14%,且F 0.5 最大值为60.73。所设计的拼音检测算法、数据增广策略和纠正模型皆具有良好的性能,能为英语智能翻译质量的提升提供语法纠正技术上的支持。 展开更多
关键词 N-gram 语料库 英语 翻译 数据增广 纠正 拼音
原文传递
一种改进的基于n-gram的古汉语断句与标点方法
10
作者 秦瑞琳 《集美大学学报(自然科学版)》 2025年第2期198-204,共7页
古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元... 古汉语文本的自动断句与标点对提高我国古籍整理的自动化水平具有重要意义。现有古汉语断句与标点算法大多缺少对前后标点间相互影响的考虑。针对这一问题,本文提出一种改进的基于n-gram的古汉语断句与标点方法。该方法综合考虑了二元组到五元组的上下文信息,加权计算当前位置标点的概率,并据此辅助计算前后位置标点的概率,从而反映出前后标点间的相互影响。在多种古籍语料上的实验表明,所提方法在断句任务上能够取得比现有n-gram和GRU-RNN模型更高的F 1值,且在部分语料上的断句与标点性能优于BiLSTM+CRF模型。 展开更多
关键词 古汉语 断句 标点 N-gram模型 深度学习
在线阅读 下载PDF
关于Gram行列式两个问题的解答
11
作者 朱小琨 《华中师范大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第4期457-460,共4页
研究了在通常Riemann积分的意义下Gram不等式的积分形式等号成立的充要条件.同时,还给出了向量组α1,a2,…,ak可由向量组β1,β2,…,βk线性表示时,两向量组的Gram行列式的关系.
关键词 向量组 线性相关 gram行列式 gram不等式
在线阅读 下载PDF
内积空间中Gram矩阵的半正定性
12
作者 姬小龙 李铁军 《益阳师专学报》 2001年第6期10-12,共3页
首先将Euclid空间与酉空间中基的Gram矩阵概念作了推广 ,得到内积空间中向量组的Gram矩阵 ,讨论了Gram矩阵的半正定性 ,最后给出内积空间中关于Gram行列式的不等式 .
关键词 EUCLID空间 酉空间 内积空间 gram矩阵 半正定性 不等式 gram行列式
在线阅读 下载PDF
基于Gram Schmidt变换的高光谱遥感图像改进融合方法 被引量:33
13
作者 于海洋 闫柏琨 +2 位作者 甘甫平 迟文学 武法东 《地理与地理信息科学》 CSCD 北大核心 2007年第5期39-42,共4页
遥感图像融合的目的是综合来自不同空间分辨率和光谱分辨率的遥感信息,生成一幅具有新空间和波谱特征的合成图像。针对高光谱图像的特点,对基于Gram Schmidt变换的图像融合方法进行改进,首先采用光谱重采样方法模拟产生Gram Schmidt变... 遥感图像融合的目的是综合来自不同空间分辨率和光谱分辨率的遥感信息,生成一幅具有新空间和波谱特征的合成图像。针对高光谱图像的特点,对基于Gram Schmidt变换的图像融合方法进行改进,首先采用光谱重采样方法模拟产生Gram Schmidt变换的第一分量,通过Gram Schmidt变换将高光谱图像转换到正交空间,再利用高空间分辨率图像替换Gram Schmidt变换的第一分量,最后通过Gram Schmidt反变换获得融合图像。利用EO1-Hyperion航天高光谱数据与ALI全色波段进行融合试验,发现改进方法可有效提高高光谱遥感图像与全色高分辨率图像的融合质量。 展开更多
关键词 gram Schmidt变换 高光谱图像 光谱重采样 图像融合
在线阅读 下载PDF
Gram矩阵及其行列式
14
作者 贾正华 《安庆师范学院学报(自然科学版)》 1998年第3期4-6,25,共4页
许多专家学者对Gram矩阵作过探讨,这里就Gram矩阵的性质和它的行列式的上界再作进一步的探析。
关键词 gram矩阵 gram行列式 正定矩阵 半正定矩阵
在线阅读 下载PDF
基于设计结构化Gram矩阵的ISAR运动补偿方法 被引量:12
15
作者 俞翔 朱岱寅 +1 位作者 张劲东 蒋锐 《电子学报》 EI CAS CSCD 北大核心 2014年第3期452-461,共10页
运动补偿是ISAR(Inverse Synthetic Aperture Radar)成像算法中的重要步骤.本文将运动补偿归结为多参数估计问题,基于设计结构化Gram矩阵的最优化理论提出了一种运动补偿方法.该方法可分为距离对准和相位补偿两部分,其中距离对准算法通... 运动补偿是ISAR(Inverse Synthetic Aperture Radar)成像算法中的重要步骤.本文将运动补偿归结为多参数估计问题,基于设计结构化Gram矩阵的最优化理论提出了一种运动补偿方法.该方法可分为距离对准和相位补偿两部分,其中距离对准算法通过让所有距离像之间的相关性同时逼近最大值的准则实现偏移量的估计,而相位补偿算法则通过分析信号模型推导出最优矩阵从而利用最优化方法提取相位误差.实测数据处理结果表明,这两种算法都具有较强的鲁棒性和较高的估计精度,是一种有效的运动补偿方法. 展开更多
关键词 ISAR 结构化gram矩阵 距离对准 相位补偿 压缩感知
在线阅读 下载PDF
改进的基于梯度投影的Gram观测矩阵优化算法 被引量:5
16
作者 刘杰平 杨朝煜 +1 位作者 方杰 韦岗 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第8期62-65,共4页
针对压缩感知中观测矩阵优化问题,在分析观测矩阵列向量间的独立性、观测矩阵与稀疏基间的相关性对重构信号质量影响的基础上,采用QR分解增强观测矩阵列向量的独立性,将QR分解与基于梯度投影的Gram观测矩阵优化算法相结合,提出了改进的... 针对压缩感知中观测矩阵优化问题,在分析观测矩阵列向量间的独立性、观测矩阵与稀疏基间的相关性对重构信号质量影响的基础上,采用QR分解增强观测矩阵列向量的独立性,将QR分解与基于梯度投影的Gram观测矩阵优化算法相结合,提出了改进的基于梯度投影的Gram矩阵优化算法.该算法采用等角紧框架逼近Welch界,减小观测矩阵和稀疏基的相关性;采用梯度投影方法求解观测矩阵;再对观测矩阵进行QR分解,增大观测矩阵列向量之间的独立性.仿真实验表明:与基于梯度投影的Gram矩阵优化算法比较,本算法提高了重构信号的质量. 展开更多
关键词 压缩感知 观测矩阵 QR分解 gram矩阵 优化算法
原文传递
基于点估计和Gram-Charlier展开的含风电电力系统概率潮流实用算法 被引量:67
17
作者 艾小猛 文劲宇 +2 位作者 吴桐 孙树敏 李广磊 《中国电机工程学报》 EI CSCD 北大核心 2013年第16期16-22,共7页
概率潮流(probabilistic load flow,PLF)计算是评估风电并网影响的基础。风电功率具有随机性和波动性,其分布特征难以用常见的概率密度函数进行拟合,而且潮流计算的输出变量与输入变量之间是非线性关系。针对上述特点,提出一种基于点估... 概率潮流(probabilistic load flow,PLF)计算是评估风电并网影响的基础。风电功率具有随机性和波动性,其分布特征难以用常见的概率密度函数进行拟合,而且潮流计算的输出变量与输入变量之间是非线性关系。针对上述特点,提出一种基于点估计(point estimate method,PEM)和Gram-Charlier展开的概率潮流实用算法(PG算法),无需知道输入随机变量的概率密度函数,仅根据其样本数据,在有n个输入随机变量的情况下仅需计算2n+1次潮流便可估计出输出随机变量的期望、方差、累积分布等统计信息。对IEEE 16机系统的仿真结果表明:该方法精度高,计算量小。此外,本文提出的PG算法还可用于分析其他考虑不确定因素但其概率密度函数未知的电力系统问题。 展开更多
关键词 概率潮流 风电功率 概率密度函数 点估计 gram-Charlier展开 累积分布
原文传递
快速Gram-Schmidt回归方法 被引量:5
18
作者 王惠文 夏棒 孟洁 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第9期1259-1262,1268,共5页
提出一种快速的变量筛选与回归建模方法.该方法将在建模过程中,一方面筛选出对因变量有最佳解释作用的信息;另一方面基于Gram-Schmidt正交变换,识别和检验模型中的冗余变量,以便能够及时和成批量地删除所有冗余信息.仿真分析指出,在自... 提出一种快速的变量筛选与回归建模方法.该方法将在建模过程中,一方面筛选出对因变量有最佳解释作用的信息;另一方面基于Gram-Schmidt正交变换,识别和检验模型中的冗余变量,以便能够及时和成批量地删除所有冗余信息.仿真分析指出,在自变量数量巨大,同时变量之间的多重相关程度又非常高的情形下,与经典的逐步回归相比,该方法的计算速度更快,建模过程更加简洁有效. 展开更多
关键词 gram—Schmidt正交变换 冗余变量 变量筛选 快速建模
原文传递
结合Gram-Schmidt变换的高光谱影像谐波分析融合算法 被引量:31
19
作者 张涛 刘军 +2 位作者 杨可明 罗文杉 张育育 《测绘学报》 EI CSCD 北大核心 2015年第9期1042-1047,共6页
针对高光谱影像谐波分析融合(HAF)算法在影像融合时不顾及地物光谱曲线整体反射率这一缺陷,提出了结合Gram-Schmidt变换的高光谱影像谐波分析融合(GSHAF)改进算法。GSHAF算法可在完全保留融合前后像元光谱曲线波形形态的基础上,将高光... 针对高光谱影像谐波分析融合(HAF)算法在影像融合时不顾及地物光谱曲线整体反射率这一缺陷,提出了结合Gram-Schmidt变换的高光谱影像谐波分析融合(GSHAF)改进算法。GSHAF算法可在完全保留融合前后像元光谱曲线波形形态的基础上,将高光谱影像融合简化为各像元光谱曲线的谐波余相组成的二维影像与高空间分辨率影像之间的融合。它是在原始高光谱影像光谱曲线被谐波分解为谐波余项、振幅和相位后,首先将其谐波余项与高空间分辨率影像进行GS变换融合,这样便可有效地修正融合后像元光谱曲线的反射率特征,随后再利用该融合影像与谐波振幅、相位进行谐波逆变换,完成高光谱影像谐波融合。本文最后利用Hyperion高光谱遥感影像与ALI高空间分辨率影像对GSHAF算法进行可行性分析,再以HJ-1A等卫星数据对其进行普适性验证,试验结果表明,GSHAF算法不仅可以完全地保留光谱曲线波形形态,而且融合后影像的地物光谱曲线反射率更接近真实地物。 展开更多
关键词 摄影测量与遥感 高光谱遥感 谐波分析 gram-Schmidt变换 影像融合
在线阅读 下载PDF
基于N-Gram的文本语种识别研究 被引量:6
20
作者 王昊 李思舒 邓三鸿 《现代图书情报技术》 CSSCI 北大核心 2013年第4期54-61,共8页
基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于... 基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。 展开更多
关键词 N—gram 多语种识别 语料库 文本分类
原文传递
上一页 1 2 234 下一页 到第
使用帮助 返回顶部