面向代码注释生成任务的注释质量评价研究被引量：1

Research on Comment Quality Evaluation for Code Comment Generation Tasks

下载PDF

导出

摘要代码注释生成是软件工程领域的重要研究任务.当前主流的注释生成方法训练深度学习模型以生成注释,依靠在开放的代码注释数据集上采用BLEU等指标来进行注释质量评价,主要反映生成注释与数据集中人工参考注释的相似性.但由于开放注释数据集中人工参考注释的质量难以保障,其有效性受到越来越多质疑.因此,面向代码注释生成任务,亟需一种直观有效的代码注释质量评价方法,一方面改进开放注释数据集的质量,另一方面提升生成注释的评价效果.针对该问题,对现有量化的注释质量评价方法进行调研和分析,并将一套多维度注释质量评价指标用于对主流开放数据集、典型注释生成方法以及ChatGPT生成代码注释的质量评价,由此给出一些具有参考价值的研究发现:1)现有主流开放数据集中的代码注释质量俱有待提高,均存在不同程度的不准确、可读性差、过于简短、缺乏有用信息等问题;2)现有方法生成的注释普遍在词汇和语义上与代码更接近,缺乏代码高层意图等对开发者更有用的信息;3)生成注释的BLEU值较低,一个重要原因是数据集中大量的参考注释本身质量不佳,譬如与代码缺乏关联、自然性较差等,应过滤或改进此种参考注释;4)大语言模型ChatGPT生成的代码注释内容丰富但较为冗长,其质量评价需要根据开发者意图与具体场景进行针对性改进.基于这些发现,也对未来代码注释生成任务及注释质量评价研究给出若干建议. Code comment generation is an important research task in software engineering.Mainstream methods for comment generation train deep learning models to generate comments,relying on metrics such as BLEU to evaluate comment quality on open code comment datasets.These evaluations mainly reflect the similarity between generated comments and manual reference comments in the datasets.However,the quality of the manual reference comments in open comment datasets varies widely,which leads to more and more doubts about the effectiveness of these metrics.Therefore,for code comment generation tasks,there is an urgent need for direct and effective methods to evaluate code comment quality.Such methods can improve the quality of open comment datasets and enhance the evaluation of generated comments.This study conducts research and analysis on existing quantifiable methods for code comment quality evaluation and applies a set of multi-dimensional metrics to directly evaluate the quality of code comments in mainstream open datasets,comments generated by traditional methods,and comments generated by ChatGPT.The study reveals the following findings.1)The quality of code comments in mainstream open datasets needs improvement,with issues such as inaccuracy,poor readability,excessive simplicity,and a lack of useful information.2)Comments generated by traditional methods are more lexically and semantically similar to the code but lack information that is more useful to developers,such as high-level intentions of the code.3)One important reason for the low BLEU scores of generated comments is the large number of poor-quality reference comments in datasets,which lack relevance with the code or exhibit poor naturalness.These kinds of reference comments should be filtered or improved.4)Comments generated by LLMs like ChatGPT are rich in content but tend to be lengthy.Their quality evaluation needs to be tailored to developer intentions and specific scenarios.Based on these findings,this study provides several suggestions for future research in code comment generation and comment quality evaluation.

作者赵衔麟潘兴禄邹艳珍刘陈晓谢冰 ZHAO Xian-Lin;PAN Xing-Lu;ZOU Yan-Zhen;LIU Chen-Xiao;XIE Bing(Key Laboratory of High Confidence Software Technologies(Peking University),Ministry of Education,Beijing 100871,China;School of Computer Science,Peking University,Beijing 100871,China)

机构地区高可信软件技术教育部重点实验室(北京大学) 北京大学计算机学院

出处《软件学报》北大核心 2025年第8期3744-3768,共25页 Journal of Software

基金科技创新2030—“新一代人工智能”重大项目(2021ZD0110303)。

关键词代码注释注释质量注释评价注释数据集注释生成 code comment comment quality comment evaluation comment dataset comment generation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1陈翔,杨光,崔展齐,孟国柱,王赞.代码注释自动生成方法综述[J].软件学报,2021,32(7):2118-2141. 被引量：18
2余海,李斌,王培霞,贾荻,王永吉.基于组合分类算法的源代码注释质量评估方法[J].计算机应用,2016,36(12):3448-3453. 被引量：7
3宋晓涛,孙海龙.基于神经网络的自动源代码摘要技术综述[J].软件学报,2022,33(1):55-77. 被引量：10

二级参考文献12

1卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
2付忠良.分类器线性组合的有效性和最佳组合问题的研究[J].计算机研究与发展,2009,46(7):1206-1216. 被引量：29
3彭星源,柯登峰,赵知,陈振标,徐波.基于词汇评分的汉语作文自动评分[J].中文信息学报,2012,26(2):102-108. 被引量：11
4江进林.近五十年来自动评分研究综述——兼论中国学生英译汉机器评分系统的新探索[J].现代教育技术,2013,23(6):62-66. 被引量：4
5黄志娥,谢佳莉,荀恩东.HSK自动作文评分的特征选取研究[J].计算机工程与应用,2014,50(6):118-122. 被引量：21
6Najam NAZAR,He JIANG,Guojun GAO,Tao ZHANG,Xiaochen LI,Zhilei REN.Source code fragment summarization with small-scale crowdsourcing based features[J].Frontiers of Computer Science,2016,10(3):504-517. 被引量：5
7Najam Nazar,Yan Hu,He Jiang.Summarizing Software Artifacts： A Literature Review[J].Journal of Computer Science & Technology,2016,31(5):883-909. 被引量：5
8李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：125
9王正群,孙兴华,杨静宇.多分类器组合研究[J].计算机工程与应用,2002,38(20):84-85. 被引量：6
10金芝,刘芳,李戈.程序理解:现状与未来[J].软件学报,2019,30(1):110-126. 被引量：14

共引文献31

1王昌晶,丁希龙,陈茜,罗海梅,左正康.基于模型驱动的Web服务建模与三阶段模型转换方法[J].计算机科学,2022,49(S02):787-800. 被引量：2
2郭晓明.基于JAVA编程语言应用的计算机软件开发[J].新一代信息技术,2022,5(2):31-33. 被引量：1
3孙雷.安全协议多目标语言代码缺陷检测方法仿真[J].计算机仿真,2017,34(12):443-446. 被引量：2
4刘岳,张海峰,张良,杨秉杰,边帅.基于Sphinx的安全测试脚本文档生成方案[J].网络空间安全,2019,10(2):74-79. 被引量：1
5霍丽春,张丽萍.代码注释演化及分类研究综述[J].内蒙古师范大学学报（自然科学汉文版）,2020,49(5):423-432. 被引量：1
6赵乐乐,张丽萍.代码注释自动生成研究进展[J].计算机应用研究,2021,38(4):982-989. 被引量：4
7常润梅,孟利青.监控中心智能告警处理系统[J].长江信息通信,2021,34(7):164-167. 被引量：1
8彭斌,李征,刘勇,吴永豪.基于卷积神经网络的代码注释自动生成方法[J].计算机科学,2021,48(12):117-124. 被引量：5
9赵钢.计算机挖掘软件的源代码注释自动生成研究[J].自动化技术与应用,2022,41(1):57-60. 被引量：1
10钟磊,冷根.基于神经网络的文本聚类研究[J].信息与电脑,2022,34(11):154-156.

同被引文献5

1薄钧戈,乔亚男,齐琪,刘虎军,黄鑫.探索AIGC技术在高校编程课程中的应用潜力与挑战[J].计算机技术与发展,2024,34(6):214-220. 被引量：24
2陈立南,赵庆聪,王磊.多元化课程考核在C语言课程中的改革与实践[J].教育教学论坛,2024(40):119-122. 被引量：2
3陶江垚,奚雪峰,盛胜利,崔志明,左严.结构化思维提示增强大语言模型推理能力综述[J].计算机工程与应用,2025,61(6):64-83. 被引量：14
4付朝辉.智能技术在程序设计技能教学中的应用[J].电子技术(上海),2024,53(12):136-137. 被引量：1
5钟博维.基于大语言模型的师范生教学设计智能评价模型的构建及应用[J].高教论坛,2025(4):73-80. 被引量：1

引证文献1

1汪小叶,杨锦营,李冬雄,张玉兰,郑建超,向训文.AIGC赋能的程序设计课程代码智能评价系统[J].福建电脑,2025,41(11):81-88.

1邓景元,侯君.基于多源开放数据的城市空间圈层结构识别与分析——以合肥市为例[J].南京师大学报(自然科学版),2025,48(4):39-50. 被引量：1
2邵亚伟,王亿豪.面向开放科学的档案信息服务新拓展:实践场景与创新策略[J].信息与管理研究,2025,10(4):62-74.
3赵需要,徐佳璇,王杜方玫,张杰妮.公共开放数据价值共创主体共生模式演变研究[J].情报理论与实践,2025,48(8):44-55. 被引量：5
4叶志伟.精益管理理念在烟草专卖市场监管中的实践探讨[J].首席财务官,2025,21(12):76-78.
5云南省畜牧兽医科学院家禽研究所[J].云南畜牧兽医,2025(4).
6王伊,柳学智.文献计量视角下的基础研究国际合作分布大数据分析[J].国际人才交流,2025(7):34-38. 被引量：1
7管丽柳,周圣富,邓晨华.滨海景区地铁车站选址及站域空间设计策略研究——以深圳地铁8号线二期大、小梅沙站为例[J].现代工业工程,2025(3):139-142.
8褚衍超,殷程,陆钧安,马震,曹中源.大数据技术在城市轨道交通集成指挥平台中的应用[J].湖北画报(下半月),2025(6):84-85.
9中国科学院长春光学精密机械与物理研究所液晶光学团队——聚焦动态可重构智能液晶光子器件与系统的研究[J].液晶与显示,2025,40(8).

软件学报

2025年第8期

浏览历史

内容加载中请稍等...

面向代码注释生成任务的注释质量评价研究被引量：1

参考文献3

二级参考文献12

共引文献31

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向代码注释生成任务的注释质量评价研究 被引量：1

参考文献3

二级参考文献12

共引文献31

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向代码注释生成任务的注释质量评价研究被引量：1