基于机器学习的学位论文质量自动评估系统研究

Research on automatic assessment system for thesis quality based on machine learning

下载PDF

导出

摘要随着学术论文数量的持续增长,传统依赖专家评审的人工评审方式在效率低、主观性强和一致性差等方面面临严峻挑战,难以满足大规模、高质量评估的需求。为此,文章提出并实现了一种基于机器学习的学位论文质量自动评估系统。该系统以构建多维度综合评估指标体系为核心,涵盖结构、内容、语言、格式和规范等多个方面并从中提取40余项特征向量。系统采用Stacking集成学习框架,整合随机森林、XGBoost和LightGBM模型,结合SMOTE算法解决数据不平衡问题。该系统基于Python技术栈,实现了端到端的自动化处理流程,包括PDF文本解析、预处理、特征工程、模型训练与评估以及API服务。实验结果表明,该系统在测试集上的评估准确率超过85%,能够有效区分不同质量等级的学位论文。这项研究不仅在技术上提供了提升评审效率、降低人工成本的可行方案,还为教育质量保障和科研管理提供了新的思路和工具支持。 With the rapid growth in the number of academic theses,traditional expert-based manual review methods are increasingly challenged by inefficiency,subjectivity,and lack of consistency,making them inadequate for large-scale,high-quality evaluation.This paper proposes and implements an automatic thesis quality assessment system based on machine learning.The system is centered on a comprehensive multi-dimensional evaluation framework covering structure,content,language,format,and standardization,from which more than 40 features are extracted.A Stacking ensemble learning approach integrates Random Forest,XGBoost,and LightGBM,with the SMOTE algorithm employed to address class imbalance.The entire workflow is automated using the Python technology stack,including PDF parsing(PyPDF2,pdfplumber),preprocessing(jieba),feature engineering,model training and evaluation,and API services(Flask).Experimental results demonstrate that the system achieves an evaluation accuracy exceeding 85% on the test set and effectively distinguishes theses across different quality levels.Beyond offering a feasible technical solution for improving review efficiency and reducing human costs,this study also provides novel insights and methodological contributions to educational quality assurance and research management.

作者吴怡李灿 WU Yi;LI Can(School of Artificial Intelligence and Information Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China)

机构地区南京中医药大学人工智能与信息技术学院

出处《无线互联科技》 2025年第22期52-56,共5页 Wireless Internet Science and Technology

基金南京中医药大学教育教学研究课题,项目名称:高校学位论文质量保障体系构建与优化,项目编号:NZYJY2024-Z-18。

关键词学位论文质量评估机器学习特征工程集成学习自然语言处理 thesis quality assessment machine learning feature engineering ensemble learning natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王延伟,钱凯,李治,孙昌盛,颜荣涛.基于人工智能技术的硕士学位论文质量评价研究[J].现代商贸工业,2023,44(24):246-248. 被引量：2
2阚运奇.毕业论文格式检测系统的设计与研究[J].无线互联科技,2012,9(11):17-17. 被引量：4
3焦嘉,刘婷.机器学习中集成模型的应用问题研究[J].无线互联科技,2022,19(21):166-168. 被引量：1
4陈德鑫,占袁圆,杨兵.深度学习技术在教育大数据挖掘领域的应用分析[J].电化教育研究,2019,40(2):68-76. 被引量：60
5杨秀璋,武帅,杨琪,项美玉,李娜,周既松,赵小明.多视图融合TextRCNN的论文自动推荐算法[J].计算机工程与应用,2023,59(2):110-119. 被引量：4
6孙嘉豪,孟翔斯,张浩运,常小林,徐燕,关庄.基于改进PBFT的区块链知识产权保护模型[J].计算机工程,2020,46(12):134-141. 被引量：13
7梁译方,季铎.基于文本分类模型的公安民情分类[J].网络安全技术与应用,2024(2):48-51. 被引量：3
8陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：84

二级参考文献72

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：31
3郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
4张卫丰,周国强.毕业设计文档管理技术探索及实践[J].教育与教学研究,2009,23(11):58-60. 被引量：5
5许海洋,李庆,唐平,高明琴.学位论文排版规范性自动检测系统设计[J].广东工业大学学报,2009,26(4):54-57. 被引量：5
6孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61
7魏韡,向阳,陈千.计算术语间语义相似度的混合方法[J].计算机应用,2010,30(6):1668-1670. 被引量：7
8葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：67
9田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：184
10秦玉平,冷强奎,王秀坤,王春立.基于局部词频指纹的论文抄袭检测算法[J].计算机工程,2011,37(6):193-194. 被引量：10

共引文献163

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：2
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：9
3吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
4张昊.一种基于神经网络的学生成绩预测方法[J].辽宁师专学报（自然科学版）,2019,21(3):94-96. 被引量：4
5谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：12
6裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：4
7廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
8胡航,杜爽,梁佳柔,康忠琳.学习绩效预测模型构建:源于学习行为大数据分析[J].中国远程教育,2021(4):8-20. 被引量：35
9康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：9
10郝海利,李宁,田英爱,耿思.基于融合特征与语法规则的流式文档理解方法[J].北京信息科技大学学报（自然科学版）,2019,34(1):49-54. 被引量：1

1王小丽.AI赋能全国大学生职业规划大赛新路径研究[J].丝路视野,2025(20):0088-0090.
22024江西省野生动植物摄影大赛获奖作品展示[J].旅游与摄影,2024(23):94-103.
3王利.强化“好面料、柯桥造”行业认知 2025“柯桥优选”项目申报动员会举行[J].纺织服装周刊,2025(25):15-15.
4吴梦蕾,杨令飞.法国高等教育“卓越计划”建设经验与未来发展[J].教育科学探索,2025,43(4):98-105. 被引量：1
5张光勇.公路路面病害智能识别与自动评估系统的设计与应用[J].全面腐蚀控制,2025,39(9):215-217.
6吴佳弦,荀勇.基于CiteSpace的抗震设计研究知识图谱分析[J].黑龙江科学,2025,16(17):31-35.
7陈刚,李茂峰,陈强,刘波,岑关,甘朝阳,李克华,申文豪,李强.地震灾害事件驱动的输电杆塔震害自动评估系统研究[J].中国地震,2025,41(2):374-384.
8数字[J].交通建设与管理,2025(2):10-11.
9叶昊彤.基于数字孪生技术的飞机飞行控制系统故障诊断方法[J].环球飞行,2025(10):43-45.
10牛雯慧,杨书鸿,史秋艺,周亮.人工智能在高校计算机教学中的技术支撑与应用[J].无线互联科技,2025,22(12):116-120. 被引量：1

无线互联科技

2025年第22期

浏览历史

内容加载中请稍等...

基于机器学习的学位论文质量自动评估系统研究

参考文献8

二级参考文献72

共引文献163

相关作者

相关机构

相关主题

浏览历史