-
题名基于EM算法的汉语自动分词方法
被引量:24
- 1
-
-
作者
李家福
张亚非
-
机构
解放军理工大学通信工程学院
解放军理工大学理学院
-
出处
《情报学报》
CSSCI
北大核心
2002年第3期269-272,共4页
-
基金
国家自然科学基金项目 (编号 6 9975 0 2 4)
国家自然科学基金重点项目 (编号 6 9931040 )资助
-
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
-
关键词
em算法
语料库
hmm
中文信息处理
汉语自动分词
自然语言处理
极大似然原则
零阶马尔可夫模型
-
Keywords
word segmentation,em algorithm,corpus,hmm.
-
分类号
G254.1
[文化科学—图书馆学]
-
-
题名基于HMM的算法优化在中文分词中的应用
被引量:6
- 2
-
-
作者
朱咸军
洪宇
黄雅琳
张馨予
肖芳雄
-
机构
金陵科技学院软件工程学院、网络安全学院
江苏省软件测试工程实验室
-
出处
《金陵科技学院学报》
2019年第3期1-7,共7页
-
基金
江苏省高等学校自然科学研究面上项目(18KJB520018)
金陵科技学院高层次人才科研启动基金(jit-b-201703,jit-rcyj-201802)
+1 种基金
金陵科技学院教育教改课题(jyjg2017-21)
江苏省现代教育技术研究课题(2018-R-63099)
-
文摘
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生的结果作为附加信息,添加到HMM模型中,在不改动HMM模型的情况下,有效地增加了HMM模型的分词效果。实验结果表明,改进HMM算法能显著提高中文分词的准确率、召回率和F值。
-
关键词
隐马尔科夫模型
优化hmm
中文分词
-
Keywords
hmm
optimization-hmm algorithms
Chinese word segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于概率模型的分词系统
被引量:16
- 3
-
-
作者
李家福
张亚非
-
机构
解放军理工大学通信工程学院
解放军理工大学理学院
-
出处
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
-
基金
国家自然科学基金项目(编号: 69975024)
国家自然科学基金重点项目(编号: 69931040)
-
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
-
关键词
概率模型
分词系统
em算法
语料库
系统仿真
汉语自动分词
中文信息处理
-
Keywords
word segmentation
em algorithm
corpus
hmm, system simulation
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于粗分和词性标注的中文分词方法
被引量:7
- 4
-
-
作者
姜芳
李国和
岳翔
吴卫江
洪云峰
刘智渊
程远
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
石大兆信数字身份管理与物联网技术研究院
中海油研究总院信息数据中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第6期204-207,265,共5页
-
基金
国家高新技术研究发展计划(No.2009AA062802)
国家自然科学基金(No.60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
-
文摘
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。
-
关键词
分词
词性标注
隐马尔可夫模型
VITERBI算法
-
Keywords
word segmentation
part-of-speech tagging
Hidden Markov Model(hmm)
Viterbi algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Multigram语言模型的主动学习中文分词
被引量:6
- 5
-
-
作者
冯冲
陈肇雄
黄河燕
关真珍
-
机构
中国科学技术大学计算机科学与技术系
中国科学院计算机语言信息工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2006年第1期50-58,共9页
-
基金
国家自然科学基金资助项目(60272088)
国家863资助项目(2002AA11401)
-
文摘
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
-
关键词
计算机应用
中文信息处理
分词
无督导机器学习
主动学习
em算法
-
Keywords
computer application
Chinese information processing
word segmentation
unsupervised machine learning
active learning
em algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-