基于大语言模型的BCC语料库自然语言检索

Natural Language Retrieval of BCC Corpus Based on Large Language Models

下载PDF

导出

摘要语料库在语言学和自然语言处理领域至关重要。北京语言大学的BCC语料库,资源丰富且检索高效,备受推崇。然而,BCC检索式的复杂性限制了其普及。为此,本文提出TextToBCC模型,目标是实现自然语言对BCC语料库的检索。本文首先构建了一个均衡的BCC检索式数据集,利用大语言模型为BCC检索式生成自然语言描述。其次,微调大语言模型使其能够支持自然语言到BCC检索式的转换。实验结果证明了TextToBCC模型的优异性能。这一成果不仅降低了BCC语料库的使用难度,而且有助于促进其在更广泛领域的传播和应用,为语言学研究和自然语言处理实践带来便利。 Corpora play a vital role in the fields of linguistics and natural language processing.The BCC corpus developed by Beijing Language and Culture University is known for its rich resources and efficient retrieval capabilities.However,the complexity of its search query language limits its accessibility and widespread use.To address this issue,this paper introduces the TextToBCC model,which enables natural language retrieval over the BCC corpus.A balanced dataset of BCC search queries was first constructed,and corresponding natural language descriptions were generated using a large language model.The model was then fine-tuned to support the conversion from natural language to BCC search queries.Experimental results demonstrate the strong performance of the proposed TextToBCC model.This work not only reduces the learning curve associated with using the BCC corpus but also promotes its broader dissemination and application,facilitating research and development in linguistics and natural language processing.

作者刘廷超鲁鹿鸣荀恩东靳泽莹杨兆勇 Tingchao Liu;Luming Lu;Endong Xun;Zeying Jin;Zhaoyong Yang

机构地区北京语言大学

出处《语料库语言学》 2025年第1期1-16,共16页 Corpus Linguistics

关键词语料库检索式大语言模型微调 corpus search query large language model fine-tuning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：767
2吴良平.CQP语法赋能语言研究及语言学习[J].语料库语言学,2023,10(1):98-114. 被引量：2
3奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：245
4荀恩东,饶高琦,肖晓悦,臧娇娇.大数据背景下BCC语料库的研制[J].语料库语言学,2016,3(1):93-109. 被引量：337
5荀恩东,饶高琦,谢佳莉,黄志娥.现代汉语词汇历时检索系统的建设与应用[J].中文信息学报,2015,29(3):169-176. 被引量：22
6俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：133
7詹卫东,郭锐,常宝宝,谌贻荣,陈龙.北京大学CCL语料库的研制[J].语料库语言学,2019,6(1):71-86. 被引量：56

二级参考文献38

1葛晓帅,张现荣.借助Docker容器技术实现CQPweb系统的Windows部署[J].语料库语言学,2021(2):148-157. 被引量：1
2李宇明.权威方言在语言规范中的地位[J].清华大学学报（哲学社会科学版）,2004,19(5):24-29. 被引量：10
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
5金观涛,刘青峰.观念史研究[M].北京:法律出版社,2009:178.
6洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
7葛本仪.词汇的动态研究与词汇规范[A].载《词汇学理论与应用》苏新春,苏宝荣主编.北京:商务印书馆.2004.社.2011.
8张仲民."局部真实"的观念史研究.《东方早报》2010年5月23日B05版.
9Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Mil- lions of Digitized Books. Science 331, 176 (2011).
10教育部语言文字信息管理司.中国语言生活状况报告[M].北京:商务印书馆,2009:525-534.

共引文献1508

1郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
2杜娟.现代汉语排除构式与准排除构式的对比研究[J].忻州师范学院学报,2022,38(4):73-76.
3杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
4林倩.汉字字母化传播研究[J].新闻传播,2023(14):157-159. 被引量：1
5刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
6吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：38
7孙铭辰.DiSCUSS现代汉语平衡口语语料库的创建[J].语料库语言学,2022,9(2):127-135. 被引量：1
8苏杭,傅忆馨.汉语学术口语语料库的研制与应用[J].语料库语言学,2021,8(2):106-117. 被引量：1
9黄辉.基于BCC历时语料库的招呼语“你好”实证研究[J].语料库语言学,2021(1):66-80.
10崔希亮.基于语料库的新媒体语言透视[J].汉语应用语言学研究,2019,0(1):39-54.

1张伟.规范数据检索系统设计与实现[J].电脑与电信,2025(6):24-28.
2冯鹏飞.基于知识图谱的竹藤文献信息管理系统构建[J].世界竹藤通讯,2025,23(4):92-97.
3董仁静.妊娠糖尿病检测的研究热点分析[J].实验室检测,2026,4(3):156-159.
4郭煜华,庄研梦.基于KANO模型的高校图书馆学科服务优化策略研究[J].情报探索,2025(11):95-103.
5张芸,杨玉竹,罗杰,叶卫健.融合知识图谱与BERT-CRF的智慧康养问答方法研究[J].电脑知识与技术,2026,22(2):32-35.
6王聪.专利视角下AI辅助蛋白质工程技术发展态势分析[J].中国医药生物技术,2026,21(3):222-228.
7崔广炎,李宇杰,李熙,沈忱,李琨,刘可.基于DeepSeek-LoRA微调的列车运行环境风险目标识别方法[J].太赫兹科学与电子信息学报,2025,23(12):1269-1277.
8胡逸飘,蒋国星,成雄根.Fenton氧化法用于煤化工含酚废水的处理实践[J].化工设计通讯,2026,52(1):11-13.
9本刊稿约[J].外国语言文学,2026,43(1).
10张现荣,苗兴伟.介入系统重构下的话语主观性建构研究[J].外国语,2026,49(1):2-11.

语料库语言学

2025年第1期

浏览历史

内容加载中请稍等...

基于大语言模型的BCC语料库自然语言检索

参考文献7

二级参考文献38

共引文献1508

相关作者

相关机构

相关主题

浏览历史