陆空通话口语考试机器评分和人工评分的对比研究

Comparative Study of Automatic Scoring and Human Scoring of Radiotelephony Communication Oral Test

下载PDF

导出

摘要为了分析ICE (Intelligent Communication Environment:智能陆空通话自主训练平台)软件计算机自动评分的有效性,邀请8位评分员分别为2021-2023学年736名学生的27227条陆空通话口语考试数据评分,利用Pearson相关性系数、人机评分一致性系数和等级一致率对比分析机评分和人评分。结果表明:机器评分比人工评分稍低,尤其是汉译英题目;人、机评分相关性系数、一致性系数和一致率均较好。利用Many-Facet Rasch模型分析可知人工评分员内在的一致性和稳定性较好,但评分的严厉度还是存在显著差异。 In order to analyze the validity of ICE(Intelligent Communication Environment)software automatic scoring,8 experts are invited to manually score the 27227 pieces of radiotelephony voice data from 736 students in academic year of 2021-2023.The Pearson correlation coefficient,consistency rate and the percentage agreement of human-automatic scoring are used to compare and analyze the automatic rating and the human rating.The results indicate the automatic scoring is slightly lower than human scoring,especially the Chinese-English translation questions.The correlation coefficient,consistency rate and the percentage agreement between human scoring and automatic scoring is good in the radiotelephony communication oral test.The analysis with Many-Facet Rasch model reveals that the intra-rater consistency and reliability of human raters are acceptable,whereas the severity of human raters has significant differences.

作者赵琦王万乐宋祥波赵德斌杨越李学明 Zhao Qi;Wang Wanle;Song Xiangbo;Zhao Debin;Yang Yue;Li Xueming(College of Air Traffic Management,Civil Aviation University of China,Tianjin 300300 China)

机构地区中国民航大学空中交通管理学院

出处《中国民航飞行学院学报》 2025年第6期70-75,共6页 Journal of Civil Aviation Flight University of China

基金中国民航大学教育教学研究项目(CAUC-2021-C2-028)。

关键词陆空通话口语考试 ICE软件机器自动评分人工评分有效性 Radiotelephony communication oral test ICE Software Automatic scoring Human scoring Validity

分类号 H319.3 [语言文字—英语] V323 [航空宇航科学与技术—人机与环境工程]

引文网络
相关文献

参考文献8

1孙海洋,张敏.英语口语机器评分和人工评分的对比研究[J].外语研究,2020,37(4):57-62. 被引量：11
2蒋同海,张俊博,潘复平,颜永红.英语篇章朗读质量的自动评分[J].应用声学,2011,30(6):418-426. 被引量：4
3孙海洋.国内外英语口语自动评分研究综述[J].外语教育研究前沿,2021,4(2):28-36. 被引量：12
4王妍,彭恒利.汉语口语开放性试题计算机自动评分的效度验证[J].中国考试,2019,0(9):63-71. 被引量：3
5李萌涛,杨晓果,冯国栋,吴敏,陈纪梁,胡国平.大规模大学英语口语测试朗读题型机器阅卷可行性研究与实践[J].外语界,2008(4):88-95. 被引量：37
6范鹏.大规模英语口语考试自动评卷可行性研究[J].中国轻工教育,2014,17(6):40-42. 被引量：3
7金艳,王伟,张晓艺,赵英华.大学英语四级口语考试自动评分效度初探[J].中国考试,2020(7):25-33. 被引量：14
8胡国平,竺博,盛志超,严峻.人工智能在教育评测领域的实践[J].信息技术与标准化,2017(11):27-29. 被引量：5

二级参考文献33

1杨惠中.大学英语口语考试设计原则[J].外语界,1999(3):48-57. 被引量：211
2黄申,李宏言,王士进,梁家恩,徐波.辅助语音评分系统中一种流利度自动评分方法[J].清华大学学报（自然科学版）,2009(S1):1349-1355. 被引量：5
3严可,胡国平,魏思,戴礼荣,李萌涛,杨晓果,冯国栋.面向大规模英语口语机考的复述题自动评分技术[J].清华大学学报（自然科学版）,2009(S1):1356-1362. 被引量：18
4张逸岗,顾奕.“外教社大学英语口语考试系统”刍议[J].外语界,2005(6):74-78. 被引量：5
5高霞,朱正才,杨惠中.朗读在外语教学和测试中的作用[J].外语界,2006(2):64-71. 被引量：76
6黄骁勇,虞维平.语音识别技术在外语口语学习中的应用[J].计算机系统应用,2006,15(6):18-21. 被引量：6
7高霞,杨惠中,朱正才.朗读与外语能力测量[J].现代外语,2006,29(4):401-408. 被引量：25
8丁卫平,邓伟,顾翔.基于Web智能阅卷考试系统的设计与实现[J].电气电子教学学报,2007,29(3):102-105. 被引量：9
9张颂.1992，朗读学[M].北京：北京广播学院出版社.
10Bachman L F. Fundamental Considerations in Language Testing [ M ]. Oxford : Oxford University Press, 1990.

共引文献70

1范晨.英语口语测试评分研究[J].学园,2022,15(10):46-48.
2黄华,张睿,潘鑫.AI+环境下学生科学探究能力测评研究[J].物理与工程,2022,32(6):49-56. 被引量：3
3訾韦力.iTEST系统及其在CET-4网考培训中的应用研究[J].西南民族大学学报（人文社会科学版）,2012,33(S1):273-275. 被引量：9
4韩军娥.普通高校大学英语口语测试模式研究述评[J].语文学刊（外语教育与教学）,2013(9):151-152.
5刘浩,王芳,杨鲁新.新教学模式下的大学英语研究——回顾与思考[J].佳木斯教育学院学报,2012(9):297-299. 被引量：1
6陈旭红.形成性评估应用于大学英语课程口语测试的实证研究[J].外语与外语教学,2009(7):22-25. 被引量：43
7陈旭红.新型评价方式应用于大学英语口试的研究[J].中南林业科技大学学报（社会科学版）,2009,3(4):126-129. 被引量：4
8郑厚尧,王静,黎蓉,颜娜.二语习得背景下我国英语朗读研究[J].长江大学学报（社会科学版）,2010,33(2):71-74. 被引量：8
9李萌涛,冯国栋.大规模英语口语测试中复述题的效度研究[J].教育与现代化,2010(2):52-57. 被引量：2
10甘昕.浅析国内英语口语测试研究现状[J].考试周刊,2010(31):8-9. 被引量：1

1于蕊,胡恒杰,田兴勇.采用Inception-LSTM模型的锂电池健康状态估计与剩余寿命预测研究[J].时代汽车,2025(18):114-117. 被引量：1
2马广林,任晋,师一华,张海刚,王莉,杨金锋.多任务学习型民航陆空通话语音识别Conformer模型[J].计算机应用与软件,2025,42(10):183-190.
3杨昌其,张雨萱.基于语音特征的管制员疲劳识别[J].科学技术与工程,2025,25(29):12732-12738.
4王锦,饶培玲.血清miR-19b与冠心病PCI术后炎症反应及心血管不良事件发生率的关系研究[J].中国医学工程,2025,33(9):41-46.
5曲蓓蕾,李文杰,张薇,贾博.个体化营养干预联合儿童保健对婴幼儿生长发育的影响[J].智慧健康,2025,11(25):139-142.
6田金茹,王孟丽.外泌体miR-20a、miR-21表达与慢性乙型肝炎病情进展的关联研究[J].现代医药卫生,2025,41(10):2366-2370.
7杨彦松,陈志功,李太平.POT1、PTEN与垂体瘤病灶侵袭程度及预后的相关性[J].实用癌症杂志,2025,40(10):1578-1582.
8王帅南,曹松真,王莹莹.孕早期血清CTRP3、FGF-19对妊娠期糖尿病不良妊娠结局的预测效能研究[J].中国医学工程,2025,33(10):81-85.
9杨雷,兰丹阳,韩鹍,罗雪红,郭雷,史学杰.基于DBO-SVR算法的电力系统短期负荷预测[J].信息技术,2025,49(10):146-153.
10姚丽杰,姚丽,刘惠洁.血清CD40L、DcR3与重症肺炎伴呼吸衰竭患者预后的相关性研究[J].中国卫生工程学,2025,24(5):680-682.

中国民航飞行学院学报

2025年第6期

浏览历史

内容加载中请稍等...

陆空通话口语考试机器评分和人工评分的对比研究

参考文献8

二级参考文献33

共引文献70

相关作者

相关机构

相关主题

浏览历史