-
题名面向机器辅助翻译的汉语语块自动抽取研究
被引量:12
- 1
-
-
作者
姜柄圭
张秦龙
谌贻荣
常宝宝
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期9-16,共8页
-
基金
国家973资助项目(2004CB318102)
国家863计划资助项目(2001AA1142102002AA117010)
-
文摘
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。
-
关键词
人工智能
机器翻译
语块抽取
串频统计
内部结合
紧密度
信息熵
语块组合规则
-
Keywords
artificial intellgence
machine translation
chunk
nagao's algorithm
M. I
log-likelihood
entropy
chunk formation rules
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于串频统计的汉语和孟加拉语专有名词识别
被引量:2
- 2
-
-
作者
柯修
王惠临
于薇
-
机构
北京大学信息管理系
中国科学技术信息研究所
-
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第12期31-38,共8页
-
基金
中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2011-6)的研究成果之一
-
文摘
基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现基于串频统计的跨语言专有名词识别系统。实验表明,系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。
-
关键词
专有名词识别
串频统计
nagao算法
SSR算法
-
Keywords
Proper noun recognition String statistics nagao algorithm SSR algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SARIMA模型的高校人工智能就业趋势研究
- 3
-
-
作者
王玉萍
冯青文
-
机构
郑州科技学院信息工程学院
-
出处
《信息与电脑》
2023年第3期99-101,共3页
-
基金
河南省高等学校重点科研项目(项目编号:22B520045)。
-
文摘
文章利用大数据相关技术,采用Nagao算法、单尺度Retinex(Single Scale Retinex,SSR)算法、季节性差分自回归滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型,对人工智能专业的就业趋势和供需关系进行分析和预测。研究表明,人工智能专业的就业形势较为乐观,未来几年将持续保持高速增长。同时,及时掌握人工智能专业的就业趋势和供需关系,提高毕业生的实践能力,加强对人工智能专业毕业生就业市场的研究,并深入挖掘人工智能技术的应用价值,以期为社会提供更多的高质量人工智能人才。
-
关键词
nagao算法
季节性差分自回归滑动平均(SARIMA)模型
单尺度Retinex(SSR)算法
人工智能
就业趋势
-
Keywords
nagao algorithm
Seasonal Autoregressive Integrated Moving Average(SARIMA)model
Single Scale Retinex(SSR)algorithm
artificial intelligence
employment trends
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-