基于众包标注的语文教材句子难易度评估研究被引量：6

Assessing Sentence Difficulty in Chinese Textbooks Based on Crowdsourcing

下载PDF

导出

摘要该文提出了一种基于成对比较的众包标注方法,该方法可以通过非专业人士的简单判断获取标准统一的句子难度标注结果。基于该方法,构建了基于语文教材的由18411个句子组成的汉语句子难度语料库。面向单句绝对难度评估和句对相对难度评估两项基本的句子难易度评估任务,使用机器学习方法训练汉语句子难度评估模型,并进一步探讨了不同层面语言特征对模型性能的影响。实验结果显示,基于机器学习的分类模型可以有效预测句子的绝对难度和相对难度,最高准确率分别为63.37%和67.95%。语言特征可以帮助提升模型的性能,相比于词汇和句法层面的特征,加入汉字层面特征的模型在两项任务上的准确率最高。 We propose a crowd-sourcing annotation approach based on pairwise comparison. With this approach, non-experts annotators’ comparative judgements would lead to labelled data with a uniform standard. We construct a textbook-based corpus with 18,411 Chinese sentences and utilize it to train a machine learning model which is capable of predicting the difficulty of sentences and the relative difficulty of sentence-pairs. We also explore the impact of multi-level linguistic features in two difficulty prediction tasks, in which our model achieves 63.37% and 67.95% accuracy respectively. The results show that Chinese character-level features are of greatest prediction among all the features in the two tasks.

作者于东吴思远耿朝阳唐玉玲 YU Dong;WU Siyuan;GENG Zhaoyang;TANG Yuling(College of Information Science,Beijing Language and Culture University,Beijing 100083,China;Research Institute of International Chinese Language Education,Beij ing Language and Culture University,Beijing 100083,China)

机构地区北京语言大学信息科学学院北京语言大学汉语国际教育研究院

出处《中文信息学报》 CSCD 北大核心 2020年第2期16-26,共11页 Journal of Chinese Information Processing

基金国家社会科学基金(17ZDA305) 教育部人文社会科学研究青年基金项目(19YJCZH230) 北京语言大学中青年学术骨干支持计划。

关键词句子难易度评估可读性研究众包标注语文教材语料库 sentence difficulty assessment readability research crowdsourcing textbook corpus

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1吴思远,蔡建永,于东,江新.文本可读性的自动分析研究综述[J].中文信息学报,2018,32(12):1-10. 被引量：20
2沈烈敏,朱晓平.汉字识别中笔画数与字频效应的研究[J].心理科学,1994,17(4):245-247. 被引量：12
3郭望皓.基于CRITIC加权赋值的汉语句子难度测定[J].语文学刊,2016,36(24):10-12. 被引量：3
4吴思远,于东,江新.汉语文本可读性特征体系构建和效度验证[J].世界汉语教学,2020,34(1):81-97. 被引量：43
5王蕾.可读性公式的内涵及研究范式--兼议对外汉语可读性公式的研究任务[J].语言教学与研究,2008(6):46-53. 被引量：40
6吴建国,俞庆英,吴海辉.汉字笔画若干数据的统计方法研究与应用[J].安徽大学学报（自然科学版）,2005,29(3):14-20. 被引量：14

二级参考文献52

1赵金铭.论对外汉语教材评估[J].语言教学与研究,1998(3):4-19. 被引量：222
2沈烈敏,朱晓平.汉字识别中笔画数与字频效应的研究[J].心理科学,1994,17(4):245-247. 被引量：12
3张宁志.汉语教材语料难度的定量分析[J].世界汉语教学,2000,14(3):83-88. 被引量：89
4李绍山.易读性研究概述[J].解放军外国语学院学报,2000,23(4):1-5. 被引量：107
5黄希庭,陈传锋,余华.结构对称汉字识别的加工机制(I)——整字识别的实验研究[J].心理科学,2002,25(1):4-6. 被引量：5
6吴建国,俞庆英,吴海辉.汉字笔画若干数据的统计方法研究与应用[J].安徽大学学报（自然科学版）,2005,29(3):14-20. 被引量：14
7余美根.论可读性程式设计的不充分性[J].国外外语教学,2005(3):7-12. 被引量：5
8王佶旻.HSK[基础]阅读理解难度的影响因素研究[J].云南师范大学学报（对外汉语教学与研究版）,2006,4(3):19-22. 被引量：6
9张卫国.阅读:覆盖率、识读率和字词比[J].语言文字应用,2006(3):102-109. 被引量：15
10Fry, E. 2002. Readability Versus Leveling, The Reading Teacher, 56 (3), 286 - 291.

共引文献109

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：13
2胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：23
3吴继峰,陆小飞.不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用,2021(1):121-131. 被引量：25
4黄伟.汉字简化中的字形复杂度统计特征稳定性研究[J].语言文字应用,2021(1):53-64. 被引量：4
5强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：4
6何晓琴.党内法规文本中“或者”连词的规范分析[J].法律方法,2022(1):351-370. 被引量：4
7孟艳华.美国汉语教材的文本因素考察——基于三套教材的定量分析[J].对外汉语研究,2018,0(1):30-41.
8刘颂浩.对外汉语阅读教学研究四十年[J].国际汉语教育（中英文）,2018,0(4):63-75. 被引量：6
9史惠善.面向国际中文教育的文言文词汇排序研究初探——基于CRITIC法[J].国际汉语文化研究,2023(1):217-231.
10殷晓君.文本可读性自动分析研究综述及展望[J].国际汉语文化研究,2023(1):80-89.

同被引文献24

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：13
2蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：94
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：15
4柏小寅,张永伟,李骥,李玥,钱家鸣.我国克罗恩病相关互联网医学科普信息质量评估和可读性初析[J].中华炎性肠病杂志（中英文）,2018,2(2):102-107. 被引量：3
5王蕾.可读性公式的内涵及研究范式--兼议对外汉语可读性公式的研究任务[J].语言教学与研究,2008(6):46-53. 被引量：40
6朱勇,邹沛辰.《中文天天读》易读性研究[J].云南师范大学学报（对外汉语教学与研究版）,2012,10(3):41-46. 被引量：9
7朱雷,熊军.医疗网站信息服务质量评价标准[J].中华医学图书情报杂志,2012,21(6):1-7. 被引量：13
8左虹,朱勇.中级欧美留学生汉语文本可读性公式研究[J].世界汉语教学,2014,28(2):263-276. 被引量：60
9吴思远,蔡建永,于东,江新.文本可读性的自动分析研究综述[J].中文信息学报,2018,32(12):1-10. 被引量：20
10郭望皓.基于CRITIC加权赋值的汉语句子难度测定[J].语文学刊,2016,36(24):10-12. 被引量：3

引证文献6

1殷晓君.文本可读性自动分析研究综述及展望[J].国际汉语文化研究,2023(1):80-89.
2唐玉玲,张宇飞,于东.结合深度学习和语言难度特征的句子可读性计算方法[J].中文信息学报,2022,36(2):29-39. 被引量：8
3律睿慜,席旭.基于标注点分析字体结构与系统设计[J].传感器与微系统,2022,41(12):90-94.
4李文彪,吴云芳.基于神经网络模型的汉语文本难度分级[J].中文信息学报,2023,37(2):158-168. 被引量：3
5杨丽娜,王小杰,芮燕,张永谦,汤思怡,于东,吴安石,魏昌伟.我国分娩镇痛相关网络科普教育资料现状分析[J].中华麻醉学杂志,2024,44(7):850-855.
6倪佳成.基于XLNet-TB的中文文本可读性评估研究[J].信息技术与信息化,2025(4):66-69.

二级引证文献9

1杨丽姣,徐会丹,宋培彦.数字技术与资源建设赋能青少年阅读教育的路径及趋势研究[J].中国电化教育,2024(6):23-31. 被引量：12
2邹静,丁福.机器学习在网络健康资料质量评估中的研究进展[J].护士进修杂志,2024,39(12):1291-1295.
3杨丽娜,王小杰,芮燕,张永谦,汤思怡,于东,吴安石,魏昌伟.我国分娩镇痛相关网络科普教育资料现状分析[J].中华麻醉学杂志,2024,44(7):850-855.
4谭可人,兰韵诗,张杨,丁安琪.基于多层级语言特征融合的中文文本可读性分级模型[J].中文信息学报,2024,38(5):41-52. 被引量：6
5倪佳成.基于XLNet-TB的中文文本可读性评估研究[J].信息技术与信息化,2025(4):66-69.
6康翔宇,潘夏星.汉语母语者和汉语二语学习者语言能力发展特征对比——基于母语教材和国际中文教材文本可读性的回归分析[J].外语学刊,2025(3):1-7. 被引量：1
7杨智渤.基于机器学习的汉语儿童阅读材料可读性评估方法研究[J].情报科学,2025,43(3):91-98.
8曾锦山,彭香龙,肖文艳,叶文俊,童贤超.基于信息增益与层次分类的中文文本可读性评估方法[J].中文信息学报,2025,39(10):167-177.
9李文文.基于语料库的BBC Science Focus科普文章词汇概况及可读性研究[J].现代语言学,2025,13(8):1109-1116.

1周东杰,郑泽芝.可读性研究综述[J].泉州师范学院学报,2020,38(1):55-63. 被引量：7
2陈鹏举.南方散养鸡肠炎的综合防控措施研究[J].兽药市场指南,2019,0(11):25-27.
3谢锦涛,何丰,王如岑.Double DQN在坦克对战游戏中的应用[J].福建电脑,2020,36(5):120-121. 被引量：1
4赵凤娇.汉语分级阅读的词汇影响因素研究[J].语文学刊,2020,40(1):12-17. 被引量：1
5周寅.以一节“浮力”复习课为例浅谈中考一轮复习设计策略[J].中学物理,2020,38(8):19-22. 被引量：2
6田淇元,呼铂,邓南涛,徐博.新时代自然资源领域数据中心发展建设[J].中国科技信息,2020(11):100-102.
7尚贺军,钟宝石,赵丽美,赵峰,牛余兵.内台阶环形锻件模具环轧成形综合工艺方案[J].大型铸锻件,2020,0(2):19-21.
8石菲.技术升级带来标准化与个性化深度融合[J].中国信息化,2020(5):29-31.
9丁宣文,李小鹏,陈菲.基于相量测量单元数据的电网故障诊断[J].自动化与仪器仪表,2020(5):197-200. 被引量：3
10于艳英,易可.翻译转换理论视阈下石油英语词汇和句法的特征及翻译技巧[J].云南化工,2020,47(5):161-163. 被引量：2

中文信息学报

2020年第2期

浏览历史

内容加载中请稍等...

基于众包标注的语文教材句子难易度评估研究被引量：6

参考文献6

二级参考文献52

共引文献109

同被引文献24

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于众包标注的语文教材句子难易度评估研究 被引量：6

参考文献6

二级参考文献52

共引文献109

同被引文献24

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于众包标注的语文教材句子难易度评估研究被引量：6