ChatGPT-4.0与DeepSeek-V3两种人工智能语言模型在回答近视问题的基准分析比较

Comparison of benchmarking analysis of ChatGPT-4.0 and DeepSeek-V3 of two kinds of AI language models in response to questions about myopia

暂未订购

导出

摘要目的:比较ChatGPT-4.0与DeepSeek-V3两种人工智能(AI)聊天机器人在应答近视问题的表现差异,为AI聊天机器人的应用提供参考。方法:2024年10月至2025年3月在新加坡国立大学医院(NUHS)和中国北京京煤集团总医院进行大型语言模型(LLM)ChatGPT-4.0与DeepSeek-V3两种AI聊天机器人对近视问题回答结果进行测试,经专家测评比较其准确性和全面性。近视问答内容为眼科临床中最常遇到的30道近视相关问题,包括近视的发病机制、临床表现、诊断、治疗、预防和预后6个主题,从准确性和全面性两方面对两种AI聊天机器人进行评分评价。结果:准确性评价方面,ChatGPT-4.0聊天机器人回答结果被测评为“良好”的11题(占36.7%),DeepSeek-V3聊天机器人为23题(占76.7%),其占比比较差异有统计学意义(x^(2)=9.791,P<0.05)。全面性评价方面,对准确性评价为“良好”的答案,ChatGPT-4.0聊天机器人回答问题全面性评分为(2.44±0.33)分,DeepSeek-V3聊天机器人为(2.63±0.17)分,差异无统计学意义(P>0.05)。结论:AI聊天机器人可为用户的近视咨询提供有效帮助,DeepSeek-V3聊天机器人对近视问题应答的准确性较ChatGPT-4.0聊天机器人更高。 Objective:To compare the difference of performance of ChatGPT-4.0 and DeepSeek-V3 of two kinds of artificial intelligence(AI)Chatbots in response to questions about myopia,so as to provide references for application of AI chatbot.Method:From October 2024 to March 2025,a comparative test about two kinds of AI chatbots,namely ChatGPT-4.0 and DeepSeek-V3 of large language model(LLM),was conducted on the responses to questions about myopia at the National University Hospital of Singapore(NUHS)and Beijing Jingmei Group General Hospital of China.The accuracy and comprehensiveness were detected and evaluated by specialists.The content of the myopia question and answer(Q&A)consisted of 30 myopia-related questions in ophthalmic clinical practice,covering six themes about myopia:the pathogenesis,clinical manifestations,diagnosis,treatment,prevention,and prognosis.The evaluation was conducted by storing two kinds of AI chatbots from two aspects including accuracy and comprehensiveness.Results:In terms of accuracy evaluation,11 results(36.7%)of the answers of ChatGPT-4.0 chatbot were detected and evaluated as“good”,and 23 results(76.7%)of the answers of DeepSeek-V3 chatbot were detected and evaluated as“good”,and the difference of the proportion between two groups was significant(x^(2)=9.791,P<0.05).In terms of the evaluation for comprehensiveness,the comprehensive score of the ChatGPT-4.0 chatbot was(2.44±0.33)points in answering questions,and that of the DeepSeek chatbot was(2.63±0.17)points,and there was not statistically significant difference between them(P>0.05).Conclusion:AI chatbot can provide effective helps about consulting myopia for users.The accuracy of the DeepSeek-V3 chatbot in responding to questions about myopia is superior to that of the ChatGPT-4.0 chatbot.

作者姚晶磊李露茜姜慧君 Sun Chen-Hsin 任骁方肖林 Yao Jinglei;Li Luxi;Jiang Huijun;Sun Chin-Hsin;Ren Xiaofang;Xiao Lin(Department of Ophthalmology,Beijing Jingmei Group General Hospital,Beijing 102300,China;Department of Ophthalmology,National University Hospital of Singapore,Singapore 119074,China;Department of Ophthalmology,Affiliated Children's Hospital of Capital Institute of Pediatrics,Beijing 100020,China;Department of Ophthalmology,Beijing Shijitan Hospital,Capital Medical University,Beijing 100038,China)

机构地区北京京煤集团总医院眼科新加坡国立大学医院眼科首都儿科研究所附属儿童医院眼科首都医科大学附属北京世纪坛医院眼科

出处《中国医学装备》 2026年第3期86-89,共4页 China Medical Equipment

基金北京京煤集团总医院院级科研资助项目(ZZ2024-46)。

关键词近视 ChatGPT-4.0聊天机器人 DeepSeek-V3聊天机器人大语言模型(LLM) Myopia ChatGPT-4.0 chatbot DeepSeek-V3 chatbot Large language model(LLM)

分类号 R778.1 [医药卫生—眼科]

引文网络
相关文献

参考文献3

1惠延年.人工智能聊天机器人助力眼科和科学论文写作[J].国际眼科杂志,2024,24(1):1-4. 被引量：8
2黄慧,胡瑾瑜,王晓宇,叶书苑,吴世楠,陈程,何良琪,曾艳梅,魏红,邵毅.不同大型语言模型与不同水平医学专业人士回答眼科问题的对比研究[J].国际眼科杂志,2024,24(3):458-462. 被引量：1
3张一帆,张泽瑞,董敬,王浩,任海萍.大模型时代下的医疗人工智能技术进展与挑战[J].中国医学装备,2024,21(6):189-194. 被引量：12

二级参考文献24

1陈丽,曹红格.人工智能技术在影像诊断中的应用及展望[J].现代医用影像学,2020,29(1):19-21. 被引量：11
2糜泽花,钱爱兵.智慧医疗发展现状及趋势研究文献综述[J].中国全科医学,2019,22(3):366-370. 被引量：98
3蔡秀军,林辉,乔凯,洪玉才,庞晓燕,丁魏,唐渠.智能辅助决策支持系统在临床诊疗决策中的应用研究[J].中国数字医学,2019,14(3):111-113. 被引量：25
4孙雅婧,李春漾,曾筱茜.人工智能在新药研发领域中的应用[J].中国医药导报,2019,16(33):162-166. 被引量：7
5邱海龙,郭惠明,姚泽阳,谢稳,徐小维,黄美萍,岑坚正,庄建.人工智能在心血管医学中的应用[J].中国胸心血管外科临床杂志,2021,28(10):1160-1166. 被引量：8
6蔡自兴,蔡昱峰.智慧医疗临床应用与技术[J].医学信息学杂志,2021,42(10):48-53. 被引量：4
7人工智能(AI)在医学影像上的应用发展与展望--迎接AI 2.0的时代[J].中国医疗设备,2022,37(4):181-181. 被引量：3
8滕妍,王国豫,王迎春.通用模型的伦理与治理:挑战及对策[J].中国科学院院刊,2022,37(9):1290-1299. 被引量：32
9Jue Liu,Weidong Li,Hongyan Yao,Jianjun Liu.Proactive Health: An Imperative to Achieve the Goal of Healthy China[J].China CDC weekly,2022,4(36):799-801. 被引量：36
10马晓宇,张力,毕燕龙.人工智能在糖尿病视网膜病变领域的研究进展[J].国际眼科杂志,2022,22(11):1818-1821. 被引量：4

共引文献18

1黄慧,胡瑾瑜,王晓宇,叶书苑,吴世楠,陈程,何良琪,曾艳梅,魏红,邵毅.不同大型语言模型与不同水平医学专业人士回答眼科问题的对比研究[J].国际眼科杂志,2024,24(3):458-462. 被引量：1
2谢满云,邱佳宁,李惠玲,罗静.人工智能时代眼科学课程思政:机遇、挑战与提升[J].科学咨询,2024(9):11-15. 被引量：4
3高文娟,乔迎光,焦降丽.数字医疗助推区域医疗中心高质量发展[J].经济师,2024(10):238-239. 被引量：3
4杨诚,黎峥,曾锦,曹丹.人工智能应用于眼科专业人才培养的挑战与对策[J].科技管理研究,2024,44(21):131-138. 被引量：3
5卢炳兴,陈倩茵,张静琳.人工智能在视网膜脱离诊治和预后中的研究进展[J].国际眼科杂志,2025,25(3):434-439. 被引量：1
6田雪晴,李泉江,游茂,肖月,邱英鹏.我国医疗机构大语言模型建设现状调查与分析[J].中国卫生信息管理杂志,2025,22(1):38-44. 被引量：4
7肖琴.AI写作时代学术编辑应对的策略与方法[J].海南师范大学学报(社会科学版),2025,38(2):116-121.
8姜万顺,左秀然,张懿暶,陈林,胡森智.基于区块链的跨域医学科研数据共享平台设计与应用[J].中国数字医学,2025,20(5):32-36. 被引量：3
9陈豫.基于人工智能技术的冠状动脉CTA在冠状动脉疾病诊断中的应用效能及与医师经验的关系[J].中国医疗器械信息,2025,31(8):34-36. 被引量：1
10龚晓霖,邓昆,伍均,任传利,许颂霄,李圣杰,李波,杨大干,沈瀚,张义,陈鸣,武永康,罗怀超,袁旭,徐华国,龚倩,李欣,关明.AI技术重塑检验医学:从自动化到智能决策的跨越[J].检验医学,2025,40(5):413-420. 被引量：7

1袁梦如,姚雪,闫明,王振中,胡军华,肖伟.基于多指标定量指纹图谱及大类成分分析的芍药甘草汤基准样品质量评价[J].药物评价研究,2025,48(7):1920-1933. 被引量：2
2世界“最小婴儿”出院[J].当代检察官,2021(9):56-56.
3杨彦平.“教学评”一体化下高中历史单元教学探究[J].山海经(下旬),2025(33):0178-0180.
4焦莹晶.新课标下初中英语形成性评价实践研究[J].新课程研究,2025(16):92-94.
5黄守程,刘爱荣.基于OBE理念的农学专业“植物生理学”课程教学考核的设计与实践[J].长春大学学报,2025,35(8):99-103.
6杨晓龙,李金漪,谢云娜.基于SciVal的妇产科学术竞争力评价研究——以四川大学华西第二医院为实证[J].现代医院,2025,25(11):1796-1799.
7胡俊杰.江西文艺的史料汇集与精神建构——评《俊彩星驰——当代赣籍文艺家访谈与述评》[J].创作评谭,2025(1):75-79.
8资讯[J].中国新时代,2026(4):90-90.
9晏金金.彩色多普勒超声心动图诊断小儿先心病临床准确性评价[J].医学研究前沿(世纪中文),2026,9(2):61-63.
10秋麦(图),易晓岚.能指与所指之间的间隙对摄影展“秋麦:心目之中”所产生的观看[J].数码摄影,2026,20(3):60-67.

中国医学装备

2026年第3期

浏览历史

内容加载中请稍等...

ChatGPT-4.0与DeepSeek-V3两种人工智能语言模型在回答近视问题的基准分析比较

参考文献3

二级参考文献24

共引文献18

相关作者

相关机构

相关主题

浏览历史