现有基于预训练语言模型(PLM)的作文自动评分(AES)方法偏向于直接使用从PLM提取的全局语义特征表示作文的质量,却忽略了作文质量与更细粒度特征关联关系的问题。聚焦于中文AES研究,从多种文本角度分析和评估作文质量,提出利用图神经网络...现有基于预训练语言模型(PLM)的作文自动评分(AES)方法偏向于直接使用从PLM提取的全局语义特征表示作文的质量,却忽略了作文质量与更细粒度特征关联关系的问题。聚焦于中文AES研究,从多种文本角度分析和评估作文质量,提出利用图神经网络(GNN)对作文的多尺度特征进行联合学习的中文AES方法。首先,利用GNN分别获取作文在句子级别和段落级别的篇章特征;然后,将这些篇章特征与作文的全局语义特征进行联合特征学习,实现对作文更精准的评分;最后,构建一个中文AES数据集,为中文AES研究提供数据基础。在所构建的数据集上的实验结果表明,所提方法在6个作文主题上的平均二次加权Kappa(QWK)系数相较于R2-BERT(Bidirectional Encoder Representations from Transformers model with Regression and Ranking)提升了1.1个百分点,验证了在AES任务中进行多尺度特征联合学习的有效性。同时,消融实验结果进一步表明了不同尺度的作文特征对评分效果的贡献。为了证明小模型在特定任务场景下的优越性,与当前流行的通用大语言模型GPT-3.5-turbo和DeepSeek-V3进行了对比。结果表明,使用所提方法的BERT(Bidirectional Encoder Representations from Transformers)模型在6个作文主题上的平均QWK比GPT-3.5-turbo和DeepSeek-V3分别高出了65.8和45.3个百分点,验证了大语言模型(LLMs)在面向领域的篇章级作文评分任务中,因缺乏大规模有监督微调数据而表现不佳的观点。展开更多
文摘现有基于预训练语言模型(PLM)的作文自动评分(AES)方法偏向于直接使用从PLM提取的全局语义特征表示作文的质量,却忽略了作文质量与更细粒度特征关联关系的问题。聚焦于中文AES研究,从多种文本角度分析和评估作文质量,提出利用图神经网络(GNN)对作文的多尺度特征进行联合学习的中文AES方法。首先,利用GNN分别获取作文在句子级别和段落级别的篇章特征;然后,将这些篇章特征与作文的全局语义特征进行联合特征学习,实现对作文更精准的评分;最后,构建一个中文AES数据集,为中文AES研究提供数据基础。在所构建的数据集上的实验结果表明,所提方法在6个作文主题上的平均二次加权Kappa(QWK)系数相较于R2-BERT(Bidirectional Encoder Representations from Transformers model with Regression and Ranking)提升了1.1个百分点,验证了在AES任务中进行多尺度特征联合学习的有效性。同时,消融实验结果进一步表明了不同尺度的作文特征对评分效果的贡献。为了证明小模型在特定任务场景下的优越性,与当前流行的通用大语言模型GPT-3.5-turbo和DeepSeek-V3进行了对比。结果表明,使用所提方法的BERT(Bidirectional Encoder Representations from Transformers)模型在6个作文主题上的平均QWK比GPT-3.5-turbo和DeepSeek-V3分别高出了65.8和45.3个百分点,验证了大语言模型(LLMs)在面向领域的篇章级作文评分任务中,因缺乏大规模有监督微调数据而表现不佳的观点。