期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于EM算法的汉语自动分词方法 被引量:24
1
作者 李家福 张亚非 《情报学报》 CSSCI 北大核心 2002年第3期269-272,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectat... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 展开更多
关键词 em算法 语料库 hmm 中文信息处理 汉语自动分词 自然语言处理 极大似然原则 零阶马尔可夫模型
在线阅读 下载PDF
基于HMM的算法优化在中文分词中的应用 被引量:6
2
作者 朱咸军 洪宇 +2 位作者 黄雅琳 张馨予 肖芳雄 《金陵科技学院学报》 2019年第3期1-7,共7页
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生... 随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生的结果作为附加信息,添加到HMM模型中,在不改动HMM模型的情况下,有效地增加了HMM模型的分词效果。实验结果表明,改进HMM算法能显著提高中文分词的准确率、召回率和F值。 展开更多
关键词 隐马尔科夫模型 优化hmm 中文分词
在线阅读 下载PDF
一种基于概率模型的分词系统 被引量:16
3
作者 李家福 张亚非 《系统仿真学报》 CAS CSCD 2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。 展开更多
关键词 概率模型 分词系统 em算法 语料库 系统仿真 汉语自动分词 中文信息处理
在线阅读 下载PDF
基于粗分和词性标注的中文分词方法 被引量:7
4
作者 姜芳 李国和 +4 位作者 岳翔 吴卫江 洪云峰 刘智渊 程远 《计算机工程与应用》 CSCD 北大核心 2015年第6期204-207,265,共5页
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性... 中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。 展开更多
关键词 分词 词性标注 隐马尔可夫模型 VITERBI算法
在线阅读 下载PDF
基于Multigram语言模型的主动学习中文分词 被引量:6
5
作者 冯冲 陈肇雄 +1 位作者 黄河燕 关真珍 《中文信息学报》 CSCD 北大核心 2006年第1期50-58,共9页
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,... 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。 展开更多
关键词 计算机应用 中文信息处理 分词 无督导机器学习 主动学习 em算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部