期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Skip-ngram模型解决数据稀疏问题的研究 被引量:2
1
作者 鲁一冰 刘驰 《自动化技术与应用》 2015年第3期35-37 46,46,共4页
本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,... 本文首先对ngram语言模型和数据稀疏问题寄给予了重点介绍。进而通过在4gram语言模型上使用一种类skip-ngram语言模型的形式,并添加一些规则和预处理,通过在ngram模型中发生backoff处添加skip-ngram激励,减少由数据稀疏问题引发的错误,提升句子识别正确率。 展开更多
关键词 自然语言处理 ngram语言模型 数据稀疏 skip-ngram语言模型
在线阅读 下载PDF
关键词组鉴别的新方法——双向型高搭配力度ngram链 被引量:1
2
作者 苗永 《昭通师范高等专科学校学报》 2009年第2期13-16,25,共5页
候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用了一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长)。经过对得到的ngrams消除冗余,可以得... 候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用了一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长)。经过对得到的ngrams消除冗余,可以得到一些结构比较规范的ngrams,可以作为文章的候选关键词组。 展开更多
关键词 ngram 搭配 中国英语语料库 关键词组 双向型高搭配力度ngram
在线阅读 下载PDF
关键词组鉴别的新方法——双向型高搭配力度ngram链
3
作者 苗永 汪宏 于洋 《平顶山学院学报》 2009年第2期118-121,共4页
候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用了一种新的数据结构:双向型高搭配力度ngram链.这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右2个方向延伸(生长).经过对得到的ngrams消除冗余,可以得到一... 候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用了一种新的数据结构:双向型高搭配力度ngram链.这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右2个方向延伸(生长).经过对得到的ngrams消除冗余,可以得到一些结构比较规范的ngrams,可以作为文章的候选关键词组. 展开更多
关键词 ngram 搭配 中国英语语料库 关键词组 双向型高搭配力度ngram
在线阅读 下载PDF
基于Ngram+Bi-GRU的多家族恶意域名检测 被引量:6
4
作者 王娟娟 刘雄飞 晏榕璟 《中国电子科学研究院学报》 北大核心 2021年第12期1270-1275,1282,共7页
针对现有恶意域名检测方法存在检测精度不高和检测范围局限等问题,提出一种基于Ngram+Bi-GRU的多家族恶意域名检测算法。首先,利用Ngram模型对去除顶级域名的剩余域名级进行分割,获取到包含上下文语义信息的多个域名字符片段序列,并将... 针对现有恶意域名检测方法存在检测精度不高和检测范围局限等问题,提出一种基于Ngram+Bi-GRU的多家族恶意域名检测算法。首先,利用Ngram模型对去除顶级域名的剩余域名级进行分割,获取到包含上下文语义信息的多个域名字符片段序列,并将域名字符片段序列转换成向量;然后,利用双向门控循环型网络(Bi-Directional Gated Recurrent Unit, Bi-GRU)自动学习域名向量的特征;最后,利用Softmax分类器实现合法域名与恶意域名的分类。通过在360Netlab和Malware Domain List等多家族恶意域名集上进行测试,算法运行结果表明,本文模型可对19种家族恶意域名保持检测精度在93%以上,平均检测精度为94.92%,并与当前主流的基于域名字符特征的恶意域名检测算法相比,本文模型在保持检测精度较高的基础上具有更广的检测范围。 展开更多
关键词 多家族恶意域名检测 ngram 双向门控循环网络 上下文语义信息
在线阅读 下载PDF
基于Google Ngram Viewer词频统计的英语语言演化趋势的实证研究 被引量:1
5
作者 詹菊红 陆阳 蒋跃 《郑州航空工业管理学院学报(社会科学版)》 2017年第6期77-82,共6页
基于新版谷歌图书语料库(Google Books Corpus),借助谷歌图书词频统计(Google Books Ngram Viewer)交互界面提供的检索功能和高级操作,采用词频统计的方法,对1800-2000年英语书面语是否经历了口语化和信息密集化的演化趋势进行考察验证... 基于新版谷歌图书语料库(Google Books Corpus),借助谷歌图书词频统计(Google Books Ngram Viewer)交互界面提供的检索功能和高级操作,采用词频统计的方法,对1800-2000年英语书面语是否经历了口语化和信息密集化的演化趋势进行考察验证。考察发现(动词的)缩约形式、疑问句和半情态动词使用频率增加,"of结构"使用频率减少,这些语言现象与口语化进程密切相关。同时,考察也发现,实词相对于虚词使用比例增加,"名词修饰名词"结构使用频率也呈上升趋势,这些现象例证了英语语言经历了信息密集化的进程。统计结果支持了英语书面语经历了口语化和密集化这两个演化趋势的假设。 展开更多
关键词 谷歌图书语料库 谷歌图书词频统计 英语语言演化 口语化 密集化
在线阅读 下载PDF
基于nGram2vec与词义演化的词相似度计算方法 被引量:1
6
作者 汪玉珠 王永滨 《软件导刊》 2020年第2期96-99,共4页
词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔... 词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔逊相关系数对比人工定义词语相似度。通过实验将该方法与基于知网和同义词林的方法进行对比,根据随时间改变而词义有无变化选取15对词语进行测试,结果表明后者比前者提高了28%。由此可以看出,基于语料与语义词典的方法明显比单纯基于语义词典的方法好,但仍有较大改进空间。 展开更多
关键词 词相似度 ngram2vec 同义词林 知网 词义演化
在线阅读 下载PDF
关键词组鉴别的新方法——双向型高搭配力度ngram链
7
作者 苗永 《新余高专学报》 2009年第2期67-69,共3页
候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长),经过对得到的ngram s消除冗余,可以得到... 候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中采用一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长),经过对得到的ngram s消除冗余,可以得到一些结构比较规范的ngram s,可以作为文章的候选关键词组。 展开更多
关键词 ngram 搭配 中国英语语料库 关键词组
在线阅读 下载PDF
双向型高搭配力度ngram链在语料库建设中的应用
8
作者 苗永 《十堰职业技术学院学报》 2009年第1期80-83,共4页
对搭配的研究是语言研究的焦点之一,搭配研究不仅包括两个词之间的搭配,还包括各种扩展的搭配,最常见的对搭配的扩展是搭配在频数上的扩展,通常称为词串(lexical bun-dles)。本文研究的是搭配的另外一种维度的扩展——按照搭配力度的双... 对搭配的研究是语言研究的焦点之一,搭配研究不仅包括两个词之间的搭配,还包括各种扩展的搭配,最常见的对搭配的扩展是搭配在频数上的扩展,通常称为词串(lexical bun-dles)。本文研究的是搭配的另外一种维度的扩展——按照搭配力度的双向扩展,称为双向型高搭配力度ngram链,即把搭配力度最强的多词序列提取出来,然后进行分析。分析发现:双向型高搭配力度ngram链中大部分序列与文本内容相关度比较高,并且结构相对完整,可以作为候选的关键词组。 展开更多
关键词 中国英语语料库 关键词组 双向型高搭配力度ngram
在线阅读 下载PDF
Activity-dependent remodeling of genome architecture in engram cells facilitates memory formation and recall
9
作者 Asaf Marco 《Neural Regeneration Research》 SCIE CAS CSCD 2022年第5期991-993,共3页
The formation and preservation of longterm memories critically depend upon coordinated activity of neuronal circuits,intracellular signaling cascades and synaptic remodeling(Josselyn et al.,2015).These essential proce... The formation and preservation of longterm memories critically depend upon coordinated activity of neuronal circuits,intracellular signaling cascades and synaptic remodeling(Josselyn et al.,2015).These essential processes occur in specific cell populations known as the engram ensemble(Josselyn et al.. 展开更多
关键词 REMODELING ngram
暂未订购
基于NGram的无词典中文分词算法
10
作者 周密 燕继坤 《电信技术研究》 2002年第9期6-9,共4页
本文提出的无词典分词方法,仅依靠未标注语料里面包含的统计信息进行分词。这个方法分为两步:第一步通过统计得到NGram的统计信息;第二步根据这些NGram信息对新的语料进行分词,实验表明该方法在没有词典支持的情况下能够比较正确地... 本文提出的无词典分词方法,仅依靠未标注语料里面包含的统计信息进行分词。这个方法分为两步:第一步通过统计得到NGram的统计信息;第二步根据这些NGram信息对新的语料进行分词,实验表明该方法在没有词典支持的情况下能够比较正确地分词,特别对于短文本有比较好的效果。 展开更多
关键词 无词典 中文分词算法 ngram 自动分词
在线阅读 下载PDF
基于局部上下文特征的组合的中文真词错误自动校对研究 被引量:8
11
作者 刘亮亮 曹存根 《计算机科学》 CSCD 北大核心 2016年第12期30-35,共6页
中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆... 中文的真词错误类似于英文的真词错误,指一个中文词错成另一个词典中的词。提出一种基于混淆集的真词错误发现方法,通过对目标词的局部特征的提取,形成局部左邻接二元、右邻接二元及3个三元特征,然后通过和目标词对应的混淆集中的混淆词来估计二元概率和三元概率。最后提出一种多特征融合的模型,然后利用规则来判断中文文本中的真词错误。将查错结果分为标记错误和更改错误两种类型,采用18组混淆集,构造2万行的测试语料进行实验。实验表明,该方法能有效地发现中文文本中的真词错误,并且能给出真词错误的修改建议。该方法是一种集自动查错和自动纠错于一体的中文文本自动校对方法。 展开更多
关键词 真词错误 混淆集 上下文特征 ngram模型
在线阅读 下载PDF
语料库候选关键词组的自动鉴别
12
作者 苗永 《武汉科技大学学报(社会科学版)》 2009年第2期96-99,共4页
候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中我们采用了一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长)。经过对得到的ngrams消除冗余,可... 候选关键词组鉴别是关键词组自动化提取的第一步,在这个过程中我们采用了一种新的数据结构:双向型高搭配力度ngram链。这种链式结构以搭配力度高者优先为延伸(生长)原则,可以向左右两个方向延伸(生长)。经过对得到的ngrams消除冗余,可以得到一些结构比较规范的ngrams作为文章的候选关键词组。 展开更多
关键词 ngram 搭配 中国英语语料库 关键词组 双向型高搭配力度ngram
在线阅读 下载PDF
1993~2008年公众对公正关注的变化与群体事件的关系
13
作者 李原 《中国社会心理学评论》 CSSCI 2016年第1期32-43,共12页
西方有关群体事件行为动机的一种经典解释基于资源动员理论,认为在社会变迁背景下群体事件数量的增多主要是由于行为参与者对于经济利益的关注。近年来,也有学者提出我国群体事件数量在上升,可能是公众对于公平正义的关注度提高所致。... 西方有关群体事件行为动机的一种经典解释基于资源动员理论,认为在社会变迁背景下群体事件数量的增多主要是由于行为参与者对于经济利益的关注。近年来,也有学者提出我国群体事件数量在上升,可能是公众对于公平正义的关注度提高所致。本研究根据谷歌图书中包括的中文简体字版的正式出版书籍,通过Google Ngram Viewer分析工具考察'公正'与'经济'两类关键词的词频变化趋势,探讨1993~2008年我国社会变迁过程中相关价值观的发展规律,从宏观层面对上述两个对立的理论假设进行检验。研究结果验证了前述两个假设:(1)随着我国社会经济的发展和经济实力的增强,人们越来越关注公平正义,而对于经济利益的关注度则在降低;(2)近年来群体事件数量的增多,更可能是由于人们对于公平正义的关注度日益提高,而不是由于经济利益所驱动。 展开更多
关键词 GOOGLE ngram VIEWER 群体事件 公正关注 资源动员理论
在线阅读 下载PDF
基于关键词精化和句法树的商品图像句子标注 被引量:5
14
作者 张红斌 姬东鸿 +2 位作者 尹兰 任亚峰 牛正雨 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2542-2555,共14页
商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,... 商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,进一步优选能准确刻画图像内容的单词,完成第2次关键词精化.设计词序列"拼积木"算法,把关键词拼装成N元词序列.针对句法结构错误,提出句法树思想:基于N元词序列和句法子树递归地构建一棵完整的句法树,遍历该树叶子结点输出句子,标注商品图像.实验结果表明:关键词精化和句法树均有助于改善标注性能,句中的语义信息兼容性和句法模式兼容性得以保持,句子内容更连贯、流畅. 展开更多
关键词 图像标注 商品图像 句子标注 关键词精化 句法树 词序列“拼积木” N元词序列 自然语言生成
在线阅读 下载PDF
Words as tracers in the history of science and technology:the case of photogrammetry and remote sensing 被引量:1
15
作者 Laurent Polidori 《Geo-Spatial Information Science》 SCIE CSCD 2021年第1期167-177,I0018,共12页
The evolution of terminology in a given field of science and technology is a good indicator of the context in which inventions originated and how concepts have evolved.This is the case of photogrammetry,remote sensing... The evolution of terminology in a given field of science and technology is a good indicator of the context in which inventions originated and how concepts have evolved.This is the case of photogrammetry,remote sensing and related methods,whose terminology evolved,first under the influence of the early inventors Laussedat and Meydenbauer,in French and German,respectively,and then in English and other languages as an international professional community developed.The development of space remote sensing and analytical photogrammetry led to the modification of old concepts and the renewal of terminology,and more recently,the advent of digital photography has blurred the boundaries between different fields and the meaning of the terms.This article proposes an analysis of the evolution of technical terms through the Google Ngram Viewer tool,which allows the visualization of the occurrence of terms in documents accessible on the web.Despite its biases,this tool allows an interpretation of the evolution of the terminology over a long period of time,as well as a comparison of the evolution observed in the different languages.In particular,it makes it possible to highlight the periods when these methods were very popular,as well as a recent decline in the use of classical terms such as photogrammetry and remote sensing in favor of a new vocabulary,due to the blurring of boundaries between disciplines and to the emergence of new solutions related to UAVs,computer vision,etc.,which have renewed the potential of classical methods. 展开更多
关键词 PHOTOGRAMMETRY remote sensing TERMINOLOGY ngram Viewer
原文传递
一种传统蒙古文拼写检查系统的实现 被引量:1
16
作者 斯·劳格劳 白斯勤 白庆格勒图 《中央民族大学学报(哲学社会科学版)》 CSSCI 北大核心 2021年第1期158-168,共11页
文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面... 文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面的技术不能满足蒙古文需求。本文在借鉴中文、英文、阿拉伯文、印度文等多种语言拼写检查技术的基础上,介绍了一种基于混合策略的蒙古文非词检查及纠错建议生成方法。在非词检查阶段融合正字法词典和相关语法规则,研制了蒙古文有限状态自动机,大大提高了词语识别速度和非词查准率。在纠错建议生成阶段,首先以3500万词文本语料为基础,构建蒙古文全词词典,并解决了动词纠错建议的生成问题。之后以上述文本语料为基础,构建了蒙古文Ngram模型,并将最小编辑距离和词根Bigram融合,研制了六种候选词排序算法。经试验,本文提出的基于字符相似度的编辑距离计算方法以及与Bigram值加权融合的排序算法表现最好,正确候选词排在第一位和前三位的准确率分别达到了92.01%和96.51%,并且已实现在商业化校对软件Mongolian Editor Version 6.0中。 展开更多
关键词 传统蒙古文 文本校对 有限自动机 N元模型 编辑距离
原文传递
ROUGE-SN:基于跨越N元语法的机器翻译评测方法 被引量:3
17
作者 于俊婷 何宏业 +1 位作者 刘伍颖 易绵竹 《数码设计》 2017年第3期1-5,共5页
本文在ROUGE-S的基础上提出一种基于跨越N元语法的ROUGE-SN机器翻译评测方法,在跨越二元语法(Skip-bigram)的基础上尽量延长N元语法的长度,使更多的句子连贯信息得以体现。并通过设置N元语法的阈值、综合系统运行代价和译文匹配效率等... 本文在ROUGE-S的基础上提出一种基于跨越N元语法的ROUGE-SN机器翻译评测方法,在跨越二元语法(Skip-bigram)的基础上尽量延长N元语法的长度,使更多的句子连贯信息得以体现。并通过设置N元语法的阈值、综合系统运行代价和译文匹配效率等因素选定ROUGE-S6对ROUGE-S进行改进。在俄汉双语句子数据集上对谷歌、百度、必应、有道在线翻译系统的俄汉翻译输出译文进行评测,ROUGE-S6方法与传统ROUGE-S以及BLEUS的评测结果一致且性能优于ROUGE-S和BLEUS;且基于跨越N元语法的ROUGE-S6使得ROUGE-S的性能得以提升,对于百度系统而言,ROUGE-S性能提升44.52%,对于谷歌系统而言,提升50.45%,对必应系统提升42.19%,有道系统中ROUGE-S性能提升40.01%。 展开更多
关键词 跨越N元语法 ROUGE-SN ROUGE-S 机器翻译评测
在线阅读 下载PDF
关于准确性的质疑
18
作者 陈婧 《IT经理世界》 2017年第8期66-70,共5页
据参与Ngram Viewer开发的威尔·布鲁克曼(Will Brockman)和乔恩·欧文特(Jon Orwant)表示,自上线以来,这个工具每分钟的使用频率至少达到50次,用户生成的数据图表超过了4500万张,透过这些词汇,人们发现文字背后的人... 据参与Ngram Viewer开发的威尔·布鲁克曼(Will Brockman)和乔恩·欧文特(Jon Orwant)表示,自上线以来,这个工具每分钟的使用频率至少达到50次,用户生成的数据图表超过了4500万张,透过这些词汇,人们发现文字背后的人类社会与历史。其中,粘度非常高的用户有语言学家、历史学家、图书学家。 展开更多
关键词 质疑 历史学家 ngram 使用频率 人类社会 语言学家 图书学 用户
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部