期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于EM算法的汉语自动分词方法
被引量:
24
1
作者
李家福
张亚非
《情报学报》
CSSCI
北大核心
2002年第3期269-272,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectat...
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
展开更多
关键词
em
算法
语料库
hmm
中文信息处理
汉语自动分词
自然语言处理
极大似然原则
零阶马尔可夫模型
在线阅读
下载PDF
职称材料
基于HMM的算法优化在中文分词中的应用
被引量:
6
2
作者
朱咸军
洪宇
+2 位作者
黄雅琳
张馨予
肖芳雄
《金陵科技学院学报》
2019年第3期1-7,共7页
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生...
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生的结果作为附加信息,添加到HMM模型中,在不改动HMM模型的情况下,有效地增加了HMM模型的分词效果。实验结果表明,改进HMM算法能显著提高中文分词的准确率、召回率和F值。
展开更多
关键词
隐马尔科夫模型
优化
hmm
中文分词
在线阅读
下载PDF
职称材料
一种基于概率模型的分词系统
被引量:
16
3
作者
李家福
张亚非
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio...
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
展开更多
关键词
概率模型
分词系统
em
算法
语料库
系统仿真
汉语自动分词
中文信息处理
在线阅读
下载PDF
职称材料
基于粗分和词性标注的中文分词方法
被引量:
7
4
作者
姜芳
李国和
+4 位作者
岳翔
吴卫江
洪云峰
刘智渊
程远
《计算机工程与应用》
CSCD
北大核心
2015年第6期204-207,265,共5页
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性...
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。
展开更多
关键词
分词
词性标注
隐马尔可夫模型
VITERBI算法
在线阅读
下载PDF
职称材料
基于Multigram语言模型的主动学习中文分词
被引量:
6
5
作者
冯冲
陈肇雄
+1 位作者
黄河燕
关真珍
《中文信息学报》
CSCD
北大核心
2006年第1期50-58,共9页
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,...
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
展开更多
关键词
计算机应用
中文信息处理
分词
无督导机器学习
主动学习
em
算法
在线阅读
下载PDF
职称材料
专门领域中文文本的无监督分析
6
作者
邓柯
包弼德
+2 位作者
Kate J.Li
Jun S.Liu
陈大龙(译)
《数字人文》
2023年第3期13-29,共17页
随着数字化文本数据在公共与私人领域运用的日益增长,使用高效的计算工具来自动提取文本信息的需求也高涨起来。因为中文与字母文字的语言最显著的差异就是没有明确的词边界,所以,现有中文文本挖掘方法大都需要预先设定词库和(或)大量...
随着数字化文本数据在公共与私人领域运用的日益增长,使用高效的计算工具来自动提取文本信息的需求也高涨起来。因为中文与字母文字的语言最显著的差异就是没有明确的词边界,所以,现有中文文本挖掘方法大都需要预先设定词库和(或)大量的相关训练语料,但是这在某些应用中却可能无法获得。而TopWORDS是一种无监督方法,可以从大规模的非结构化中文文本中自上而下地同时进行词语发现和切分,然后还可以使用一些方法对所发现的词进行排序以及更高级的语境分析。TopWORDS尤其适用于线上和专门领域文本挖掘,因为这些文本中底层词汇是未知的,或与可用的训练语料差异显著。将TopWORDS的输出投喂给诸如主题建模、词嵌入和关联模式发现等语境分析工具,其结果不劣于甚至优于有监督的切分方法。
展开更多
关键词
词语发现
文本切分
em
算法
中国史
博客
在线阅读
下载PDF
职称材料
题名
基于EM算法的汉语自动分词方法
被引量:
24
1
作者
李家福
张亚非
机构
解放军理工大学通信工程学院
解放军理工大学理学院
出处
《情报学报》
CSSCI
北大核心
2002年第3期269-272,共4页
基金
国家自然科学基金项目 (编号 6 9975 0 2 4)
国家自然科学基金重点项目 (编号 6 9931040 )资助
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。
关键词
em
算法
语料库
hmm
中文信息处理
汉语自动分词
自然语言处理
极大似然原则
零阶马尔可夫模型
Keywords
word segmentation
,
em algorithm
,
corpus
,
hmm.
分类号
G254.1 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
基于HMM的算法优化在中文分词中的应用
被引量:
6
2
作者
朱咸军
洪宇
黄雅琳
张馨予
肖芳雄
机构
金陵科技学院软件工程学院、网络安全学院
江苏省软件测试工程实验室
出处
《金陵科技学院学报》
2019年第3期1-7,共7页
基金
江苏省高等学校自然科学研究面上项目(18KJB520018)
金陵科技学院高层次人才科研启动基金(jit-b-201703,jit-rcyj-201802)
+1 种基金
金陵科技学院教育教改课题(jyjg2017-21)
江苏省现代教育技术研究课题(2018-R-63099)
文摘
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生的结果作为附加信息,添加到HMM模型中,在不改动HMM模型的情况下,有效地增加了HMM模型的分词效果。实验结果表明,改进HMM算法能显著提高中文分词的准确率、召回率和F值。
关键词
隐马尔科夫模型
优化
hmm
中文分词
Keywords
hmm
optimization-
hmm
algorithm
s
Chinese
word segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于概率模型的分词系统
被引量:
16
3
作者
李家福
张亚非
机构
解放军理工大学通信工程学院
解放军理工大学理学院
出处
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
基金
国家自然科学基金项目(编号: 69975024)
国家自然科学基金重点项目(编号: 69931040)
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
关键词
概率模型
分词系统
em
算法
语料库
系统仿真
汉语自动分词
中文信息处理
Keywords
word segmentation
em algorithm
corpus
hmm
, syst
em
simulation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于粗分和词性标注的中文分词方法
被引量:
7
4
作者
姜芳
李国和
岳翔
吴卫江
洪云峰
刘智渊
程远
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
石大兆信数字身份管理与物联网技术研究院
中海油研究总院信息数据中心
出处
《计算机工程与应用》
CSCD
北大核心
2015年第6期204-207,265,共5页
基金
国家高新技术研究发展计划(No.2009AA062802)
国家自然科学基金(No.60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(No.05E7013)
国家重大专项子课题(No.G5800-08-ZS-WX)
文摘
中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。
关键词
分词
词性标注
隐马尔可夫模型
VITERBI算法
Keywords
word segmentation
part-of-speech tagging
Hidden Markov Model(
hmm
)
Viterbi
algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于Multigram语言模型的主动学习中文分词
被引量:
6
5
作者
冯冲
陈肇雄
黄河燕
关真珍
机构
中国科学技术大学计算机科学与技术系
中国科学院计算机语言信息工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2006年第1期50-58,共9页
基金
国家自然科学基金资助项目(60272088)
国家863资助项目(2002AA11401)
文摘
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
关键词
计算机应用
中文信息处理
分词
无督导机器学习
主动学习
em
算法
Keywords
computer application
Chinese information processing
word segmentation
unsupervised machine learning
active learning
em algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
专门领域中文文本的无监督分析
6
作者
邓柯
包弼德
Kate J.Li
Jun S.Liu
陈大龙(译)
机构
清华大学统计学中心
美国哈佛大学东亚语言与文化系
美国萨福克大学索耶商学院
美国哈佛大学统计学系
浙江大学国际联合学院
出处
《数字人文》
2023年第3期13-29,共17页
基金
美国科学基金委员会,项目号为DMS-1208771
中国国家自然科学基金委员会的支持,项目号为11401338
文摘
随着数字化文本数据在公共与私人领域运用的日益增长,使用高效的计算工具来自动提取文本信息的需求也高涨起来。因为中文与字母文字的语言最显著的差异就是没有明确的词边界,所以,现有中文文本挖掘方法大都需要预先设定词库和(或)大量的相关训练语料,但是这在某些应用中却可能无法获得。而TopWORDS是一种无监督方法,可以从大规模的非结构化中文文本中自上而下地同时进行词语发现和切分,然后还可以使用一些方法对所发现的词进行排序以及更高级的语境分析。TopWORDS尤其适用于线上和专门领域文本挖掘,因为这些文本中底层词汇是未知的,或与可用的训练语料差异显著。将TopWORDS的输出投喂给诸如主题建模、词嵌入和关联模式发现等语境分析工具,其结果不劣于甚至优于有监督的切分方法。
关键词
词语发现
文本切分
em
算法
中国史
博客
Keywords
word
Discovery
Text
segmentation
s
em algorithm
Chinese History
Blogs
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
G203 [文化科学—传播学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于EM算法的汉语自动分词方法
李家福
张亚非
《情报学报》
CSSCI
北大核心
2002
24
在线阅读
下载PDF
职称材料
2
基于HMM的算法优化在中文分词中的应用
朱咸军
洪宇
黄雅琳
张馨予
肖芳雄
《金陵科技学院学报》
2019
6
在线阅读
下载PDF
职称材料
3
一种基于概率模型的分词系统
李家福
张亚非
《系统仿真学报》
CAS
CSCD
2002
16
在线阅读
下载PDF
职称材料
4
基于粗分和词性标注的中文分词方法
姜芳
李国和
岳翔
吴卫江
洪云峰
刘智渊
程远
《计算机工程与应用》
CSCD
北大核心
2015
7
在线阅读
下载PDF
职称材料
5
基于Multigram语言模型的主动学习中文分词
冯冲
陈肇雄
黄河燕
关真珍
《中文信息学报》
CSCD
北大核心
2006
6
在线阅读
下载PDF
职称材料
6
专门领域中文文本的无监督分析
邓柯
包弼德
Kate J.Li
Jun S.Liu
陈大龙(译)
《数字人文》
2023
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部