超大规模分类语料库构建被引量：6

Construction of a Super Classed and Denoted Corpus

下载PDF

导出

摘要针对文本分类中训练(测试)集获得较难、分类系统不合理的问题,我们构建了一个超大规模层级网页分类语料库。该语料库字段信息丰富,分类系统科学,存储格式可扩展性强、语义结构化。适合构建文本分类、话题识别和信息检索的大型训练(测试)集。 Aimming at the problem of training and test eorpus in text classing, we have built a super classed and denoted corpus, which has abundant field information, scientific class system, extensible storage format and structured semantic denotations. It adapts to the construction of training and test corpus for text classing,topic identify and IR.

作者刘华

机构地区暨南大学华文学院

出处《现代图书情报技术》 CSSCI 北大核心 2006年第1期71-73,70,共4页 New Technology of Library and Information Service

关键词内容解析字段信息分类体系 XML Content parsing Field information Class system XML

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献3

1冯是聪,单松巍,龚笔宏,张志刚,李晓明.“天网”目录导航服务研究[J].计算机研究与发展,2004,41(4):653-659. 被引量：8
2朱凯等.因特网语料自动下载分析软件的设计..北京:第一届学生计算语言学研讨会论文集.,2002..
3黄昌宁李涓子.语料库语言学[M].北京:商务印书馆,2002..

二级参考文献10

1WebInfomallWebsitshttp://net.cs.pku.edu.cn/-webg/infomall/index.html . 2002
2TianwangsearchengineWebsits http://e.pku.edu.cn . 1997
3http://cn.yahoo.com . 2003
4YYang,XLiu.Are examinationoftextcategorizationmethods[].ACMSIGIRConfonResearchandDevelopmentinInformationRetrieval.1999
5FengShicong,ShanSongwei,ZhangZhigongetal.AdatasetofChineseWebpagesanditscategorization[].ProcoftheCross straitInformationTechnologyWorkshop.2002
6YYang,JanOPedersen.Acomparativestudyonfeatureselectionintextcategorization[].ThethInt’’lConfonMachineLearning.1997
7YYang.Astudyonthresholdingstrategiesfortextcategoriza tion[].ACMSIGIRConfonResearchandDevelopmentinInforma tionRetrieval.2001
8SChakrabarti.Dataminingforhypertext:Atutorialsurvey[].ACMSIGKDDExplorations.2000
9LeiMing,WangJianyong,ChenBaojueetal.Improvedrele vancerankinginwebgather[].JournalofComputerScienceandTechnology.2001
10WangJianyong,ShanSongwei,LeiMingetal.Websearchen gine:Characteristicsofuserbehaviorsandtheirimplication[].Sci enceinChinaSeriesF.2001

共引文献25

1德.萨日娜.蒙古语句子切分知识库的建立与应用[J].内蒙古社会科学,2006,27(6):165-167.
2刘璐,郑家恒.动词—动词搭配关系的自动标注方法[J].计算机工程,2004,30(20):47-49.
3范云,黄萍,黄俊红.汉英平行语料库双语语义对应空位研究[J].重庆大学学报（社会科学版）,2005,11(2):84-87. 被引量：1
4金纯.浅谈计算机自然语言理解[J].浙江中医学院学报,2005,29(3):72-73. 被引量：4
5毕丽克孜.语料库语言学的应用和维吾尔语语料库词频统计的意义[J].新疆师范大学学报（哲学社会科学版）,2005,26(2):226-228. 被引量：4
6张姝,赵铁军,杨沐昀,李生.面向事件的多语平行语料库构建研究[J].计算机应用研究,2005,22(11):23-24. 被引量：4
7淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学,2006,27(1):140-144. 被引量：6
8徐紫云.古代汉语标注语料库的建设与应用[J].华东交通大学学报,2005,22(6):159-162. 被引量：4
9谷峰,刘晨曦,吴扬扬.基于序列数据挖掘的中文网页特征选择方法[J].山东大学学报（理学版）,2006,41(3):97-100. 被引量：2
10刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5

同被引文献146

1昝红英,刘涛,牛常勇,赵悦淑,张坤丽,穗志方.面向儿科疾病的命名实体及实体关系标注语料库构建及应用[J].中文信息学报,2020,34(5):19-26. 被引量：22
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：91
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4罗振声.清华大学TH大型通用汉语语料库系统的研制[J].清华大学学报（哲学社会科学版）,1996,11(1):94-98. 被引量：5
5高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
6贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
7才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
8代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
9张姝,赵铁军,杨沐昀,李生.面向事件的多语平行语料库构建研究[J].计算机应用研究,2005,22(11):23-24. 被引量：4
10赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21

引证文献6

1才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
2何焱,丁玲.关于领域语料库的研究[J].山东农业大学学报（自然科学版）,2014,45(3):360-365.
3张钰莎,蒋盛益.微博公共事件演化分析研究综述[J].广东工业大学学报,2015,32(2):58-63. 被引量：1
4刘华.全球华语语料库建设及功能研究[J].江汉学术,2020,39(1):46-52. 被引量：1
5黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：63
6荣光,张化祥.文本分类在搜索引擎性能中的应用[J].科技致富向导,2008,0(12X):14-15. 被引量：1

二级引证文献79

1叶君武.农林英汉术语平行语料库的构建研究[J].现代英语,2024(7):82-84.
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3许行健.多语种军事综合语料库平台建设与应用[J].电声技术,2023,47(1):66-69. 被引量：1
4高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
5华却才让.藏汉句子局部对齐策略的研究[J].青海师范大学学报（自然科学版）,2010,26(4):39-43. 被引量：2
6胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
7才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
8赵栋材.面向藏语自然语言处理的藏语语言资源建设[J].西藏科技,2012(9):74-77. 被引量：2
9熊维,吴健,刘汇丹,张立强.基于短语串实例的汉藏辅助翻译[J].中文信息学报,2013,27(3):84-90. 被引量：2
10刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6

1唐静.浅谈关于中国日语学习者的中日对译语料库构建的研究[J].群文天地（下半月）,2011(9):76-76. 被引量：1
2陈伟.文化背景知识对英语学习的影响[J].民营科技,2009(12):87-87. 被引量：1
3解秀玉.高职语文教学活动中的情感因素与有效沟通研究[J].时代文学（下半月）,2015,0(9):134-135.
4毛小华.新《课程要求》内容解析及实施要则[J].成人教育,2010,30(5):75-76. 被引量：1
5熊兵.基于英汉双语平行语料库的翻译教学模式研究[J].外语界,2015(4):2-10. 被引量：61
6李炀,佟晓敏.论小规模语料库的构建[J].考试周刊,2010(25):128-128. 被引量：1
7丁皓.计算机辅助翻译的现状和发展前景[J].兰州教育学院学报,2017,33(4):151-152. 被引量：4
8李文良,朱燕.英美文学语料库构建及其应用价值探析[J].唐山师范学院学报,2009,31(4):121-123. 被引量：5
9徐玉臣.名词化的生成机制、类型及功能的新视界[J].外语教学理论与实践,2009(2):32-38. 被引量：21
10刘慧琴.中西文化差异对习语英汉互译的影响[J].太原大学教育学院学报,2010,28(4):56-58. 被引量：1

现代图书情报技术

2006年第1期

浏览历史

内容加载中请稍等...

超大规模分类语料库构建被引量：6

参考文献3

二级参考文献10

共引文献25

同被引文献146

引证文献6

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

超大规模分类语料库构建 被引量：6

参考文献3

二级参考文献10

共引文献25

同被引文献146

引证文献6

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

超大规模分类语料库构建被引量：6