为了分析ICE (Intelligent Communication Environment:智能陆空通话自主训练平台)软件计算机自动评分的有效性,邀请8位评分员分别为2021-2023学年736名学生的27227条陆空通话口语考试数据评分,利用Pearson相关性系数、人机评分一致性...为了分析ICE (Intelligent Communication Environment:智能陆空通话自主训练平台)软件计算机自动评分的有效性,邀请8位评分员分别为2021-2023学年736名学生的27227条陆空通话口语考试数据评分,利用Pearson相关性系数、人机评分一致性系数和等级一致率对比分析机评分和人评分。结果表明:机器评分比人工评分稍低,尤其是汉译英题目;人、机评分相关性系数、一致性系数和一致率均较好。利用Many-Facet Rasch模型分析可知人工评分员内在的一致性和稳定性较好,但评分的严厉度还是存在显著差异。展开更多
文摘为了分析ICE (Intelligent Communication Environment:智能陆空通话自主训练平台)软件计算机自动评分的有效性,邀请8位评分员分别为2021-2023学年736名学生的27227条陆空通话口语考试数据评分,利用Pearson相关性系数、人机评分一致性系数和等级一致率对比分析机评分和人评分。结果表明:机器评分比人工评分稍低,尤其是汉译英题目;人、机评分相关性系数、一致性系数和一致率均较好。利用Many-Facet Rasch模型分析可知人工评分员内在的一致性和稳定性较好,但评分的严厉度还是存在显著差异。