基于聚类的语料库分词评价方法研究被引量：4

Evaluation Method of the Corpus Segmentation Based on Clustering

下载PDF

导出

摘要对大规模汉语文本语料库分词正确率的评价提出了新的见解 ,即在分层抽样基础上对文本样本进行聚类 .通过聚类可提高检验精度或减少样本量 .该方法采用了一种新的样本相似性度量公式 ,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性 .通过对聚类结果的动态评价 ,调整聚类的类别数和相似性因子 ,提高了聚类的效率和质量 . A testing model of the large-scale corpus segmentation is proposed. The sample clustering method based on hierarchical sampling is adopted in the model. We conduct the operation of the sample clustering method according to a new measurement formula for the similarity of the samples, in which the distance of the sample vector and the linear correlation among the components of the sample vector are taken into consideration comprehensively. Through the dynamic evaluation of the clustering results, the clustering parameters are adjusted, and meanwhile, the clustering efficiency and quality are improved. Compared with the random sampling method, the sample clustering method can reduce the sample number by 63.3% under the large-scale circumstances. The experiment still shows that this method improves the testing precision by 60%.

作者宋礼鹏郑家恒

机构地区山西大学计算机科学系

出处《计算机学报》 EI CSCD 北大核心 2004年第2期192-196,共5页 Chinese Journal of Computers

基金国家"八六三"高技术研究发展计划 (2 0 0 1AA114 0 3 1)资助

关键词汉语语料库分词评价相似性因子样本聚类语言学分层抽样 Classification (of information) Computer selection and evaluation Indexing (of information) Sampled data control systems Sampling Vectors

分类号 O212.2 [理学—概率论与数理统计]

引文网络
相关文献

参考文献8

1Kirk M.Wolter. Introduction to Variance Estimation. Beijing: Statistics Press of China,1998(in Chinese)(科克沃尔特著,王吉利,李毅等译.方差估计引论. 北京:中国统计出版社, 1998)
2Lars Bretzner, Ivan Laptev, Tony Lindeberg. Hand gesture recognition using Multi-Scale colour features, hierarchical models and particle filtering. In: Proceedings of Face and Gesture 2002, Washington DC, 2002, 423～428
3杨俊龙,金勇进.分层抽样技术在应收账款审计中的应用[J].经济经纬,2002,19(5):88-90. 被引量：2
4Feng Shi-Yong, Ni Jia-Xun, Zou Guo-Hua. Theories and Methods of Sampling Survey. Beijing; Statistics Press of China, 1998(in Chinese)(冯士雍,倪加勋,邹国华. 抽样调查理论与方法. 北京:中国统计出版社, 1998)
5刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75
6Sun Ji-Xiang et al. Modern Pattern Recognition. Changsha: Press of National University of Defence Technology, 2002(in Chinese)(孙即祥等. 现代模式识别. 长沙:国防科技大学出版社, 2002)
7Hall D.J., Ball D.J.. ISODATA: A novel method of data analysis and pattern classification. Stanford Research Institute, Menlo Park CA:Technical Report AD 699616, 1965
8Judith T.Lessler, William D. Kalsbeek. Nonsampling Error in Surveys. Beijing: Statistics Press of China, 1997(in Chinese)(J.T.莱斯勒等著,金勇进译.调查中的非抽样误差.北京:中国统计出版社,1997)

二级参考文献7

1黄萱菁.大规模中文文本的检索、分类与摘要研究.复旦大学博士学位论文[M].,1998..
2[美]W.G.科克伦张尧庭等（译）.抽样技术[M].北京:中国统计出版社,-..
3张月杰,姚天顺.基于特征相关性的汉语文本自动分类模型的研究[J].小型微型计算机系统,1998,19(8):49-55. 被引量：21
4邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
5李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：19
6李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
7鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

共引文献75

1高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：24
3胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
4徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
5李嘉佑,何清,史忠植.机器学习与网络信息处理[J].计算机工程与应用,2004,40(33):189-191. 被引量：3
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：57
7丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
8万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
9寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
10王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13

同被引文献50

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2约翰·辛克莱,王建华.关于语料库的建立[J].语言文字应用,2000(2):63-71. 被引量：16
3朱玉祥,苗春生,孙承佼.基于遗传算法的试题库智能组卷系统研究[J].南京气象学院学报,2006,29(2):282-285. 被引量：13
4林陈雷,郭安源等.Visual Basic教育信息化系统开发实例导航[M].北京:人民邮电出版社,2004.
5杨伦标高英仪编.模糊数学原理及应用[M].广州：华南理工大学出版社,1998.94-132.
6谌红.模糊数学在国民经济中的应用[M].武汉:华中理工大学出版社,1993..
7Ishihara Y , Asakawa C, Fukuzawa H. Studies on sulfur dioxides removal from fuel gas by dry limestone injection procees[J]. J. Fule Soc. Jan, 1997 (54).
8Jaime G. Carbonell, Ralf D. Brown. The generalized examplebased machine translation [EB/OL]. http://www-2.cs.cmu. edu/～ralf/ebmt.html.
9李维刚,刘挺,王震,等.双语语料库段落重组对齐方法研究[A].孙茂松,陈群秀.语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003.332-338.
10Christopher D. Manning. Foundations of statistical natural language processing [M]. Massachusetts Institute of Technology,Fifth Printing,2002.

引证文献4

1胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
2单晓云,高志芳,赵树果,牛国强.模糊聚类分析优化炼焦配煤的研究[J].煤炭科学技术,2005,33(6):68-71. 被引量：7
3康桂珍.试题自动提取系统的设计与实现[J].现代教育技术,2012,22(1):103-106. 被引量：5
4屈鹏.开放环境科技语料库质量评价研究[J].情报理论与实践,2016,39(5):79-85. 被引量：5

二级引证文献22

1周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
2王爽,熊德兰,王晓霞.基于实例的古文机器翻译设计与实现[J].许昌学院学报,2009,28(5):88-91. 被引量：6
3吴全娥,熊海灵.一种综合多特征的句子相似度计算方法[J].计算机系统应用,2010,19(11):110-114. 被引量：9
4刘春梅.基于最小二乘原理的炼焦配煤控制方案[J].制造业自动化,2012,34(5):73-76. 被引量：1
5刘春梅.基于BP神经网络的炼焦煤质量预测研究[J].煤炭技术,2012,31(4):247-249. 被引量：4
6田华,魏登峰.高校作业管理系统的开发与应用[J].科技信息,2012(34):183-184.
7王宗舞,丁可轩.基于区间模糊规划方法的炼焦配煤优化模型[J].煤炭转化,2013,36(1):55-58. 被引量：3
8康桂珍.程序设计课程教学探析[J].中国教育信息化（高教职教）,2012(10):61-63. 被引量：1
9赵宝峰.基于MATLAB模糊聚类分析法治理矿井水害[J].煤炭科学技术,2013,41(7):89-92. 被引量：11
10王东,熊世桓.用不同语义单元度量的句子相似度计算[J].信阳师范学院学报（自然科学版）,2014,27(1):145-148. 被引量：2

1包玉娥,赵博,郭丽.关于区间向量空间上的度量及其完备性[J].模糊系统与数学,2015,29(3):108-113. 被引量：1
2丁政.搭配词量化分析的统计学原理[J].洛阳师范学院学报,2011,30(11):117-119.
3张爱平,陈志彬.多属性数据聚类的一种因子分析新方法[J].湖南工业大学学报,2014,28(3):83-87.
4张晓,丽娜.EXMARaLDA在濒危语言语料库建设中的应用[J].伊犁师范学院学报（自然科学版）,2017,11(1):85-88. 被引量：2
5梁道雷,金健,施国生.一种含影响力因子的模糊聚类算法[J].浙江理工大学学报（自然科学版）,2009,26(4):619-623.
6GE Tianqin.Can Physical Parts of Substances Be Substances？ The Dual Models of Analysis in Aristotle＇s Notion of Substance[J].Frontiers of Philosophy in China,2015,10(3):474-491.
7徐一萍.长三角地区高新技术产业竞争力的动态评价——基于2004—2010年面板数据的实证分析[J].科技与经济,2012,25(2):50-54. 被引量：4
8奉国和,朱思铭.基于聚类的大样本支持向量机研究[J].计算机科学,2006,33(4):145-147. 被引量：15
9刘高峰,钱霜.不完备决策表中条件属性的重要性度量[J].内江师范学院学报,2008,23(4):8-10.
10Carolina Staiger,马玮,徐斌艳.对初中学生数学能力的动态评价[J].数学教学,2011(2):3-5.

计算机学报

2004年第2期

浏览历史

内容加载中请稍等...

基于聚类的语料库分词评价方法研究被引量：4

参考文献8

二级参考文献7

共引文献75

同被引文献50

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于聚类的语料库分词评价方法研究 被引量：4

参考文献8

二级参考文献7

共引文献75

同被引文献50

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于聚类的语料库分词评价方法研究被引量：4