摘要
正则表达式能充分描述检索的条件,实现语言数据的精确提取。本文探讨正则表达式用于汉语语料检索的问题,分析了汉语元字符使用的特殊性,提出了反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果。
Regular expression (regex for short) can specify retrieval conditions with precision for concise matching of strings in a given corpus. Much research has contributed to the use of regex to search for English corpus, however, little is done to use regex in Chinese data retrieval. This paper focuses on the use of metacharacters particular to Mandarin Chinese, and attempts to work out query patterns operable for the matching of strings in Chinese texts.
出处
《外国语文》
北大核心
2013年第6期74-79,共6页
Foreign Languages and Literature
基金
国家社科基金重大项目"大规模英汉平行语料库的建立与加工"(10&ZD127)
国家社科基金课题"历时语料类比中的翻译与现代汉语互动研究"(10BYY008)的阶段性基础研究成果
关键词
语料库
正则表达式
元字符
数据检索
corpus
regular expression
naetacharacter
data retrieval