期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于思维链技术的语言模型Deep Seek-R1、GPT-4o与Claude-3.5 Sonnet在儿外科领域的表现评估
1
作者 普健 刘雪来 谷庆隆 《齐齐哈尔医学院学报》 2025年第19期1844-1852,共9页
目的本研究旨在评估采用思维链(Co T)技术的人工智能(AI)语言模型(Deep Seek-R1)与传统大语言模型(GPT-4o、Claude-3.5 Sonnet)在儿外科临床知识库应答任务中的性能差异,进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影... 目的本研究旨在评估采用思维链(Co T)技术的人工智能(AI)语言模型(Deep Seek-R1)与传统大语言模型(GPT-4o、Claude-3.5 Sonnet)在儿外科临床知识库应答任务中的性能差异,进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影响风险。方法研究团队构建标准化儿外科知识题库(n=147),涵盖先天性巨结肠、肛门闭锁及先天性胆总管囊肿三大疾病谱系,并从基础理论、临床诊断、治疗策略、并发症管理和预防措施五个维度设计问题。题库包含专业型问题(医生视角,n=79)与科普型问题(患者视角,n=68)。采用双盲法组织专业评估团队进行系统评分。此外,从既往临床病例中挑选罕见或诊断困难的病例问题,进一步评估三个模型的临床诊断能力,同时评估不同提问条件下AI临床诊断的差异。应用Kruskal-Wallis H检验进行多组独立样本间差异分析,若差异显著则进一步通过全部成对比较。采用卡方检验比较分类数据之间的表现差异。使用Cohen's kappa检验评估者之间的评分差异度。结果本研究对三个语言模型在儿外科场景的表现进行系统评估:(1)总体性能比较:Deep Seek-R1总体回答质量显著优于对照模型(H=23.42,P<0.001),Deep Seek-R1准确率(87.07%)高于GPT-4o(63.27%)和Claude-3.5 Sonnet(67.35%);(2)专业问题表现:三类模型在专业类问题中答案质量的差异尤为显著(H=26.50,P<0.001);(3)科普问题表现:三类模型在患者教育类问题中均表现良好(准确率>80%),组间差异无统计学意义(H=2.335,P=0.311),且未观察到明显错误答案;(4)病例分析能力:三种模型对于含完整辅助诊断信息的回答质量显著优于无辅助检查的病例问题[χ^(2)(2)=1.983,P=0.371]。结论在儿外科的知识测评中,采用思维链技术的人工智能模型(Deep Seek-R1)在处理复杂问题时的表现优于GPT-4o和Claude-3.5 Sonnet,但三个模型的部分答案仍存在局限和潜在错误。此外,在使用AI处理临床问题时提供更全面的输入信息能显著提升回答准确率。 展开更多
关键词 人工智能 大语言模型 儿外科 思维链 Deep seek-r1 GPT-4o Claude-3.5 Sonnet
在线阅读 下载PDF
如何迎接人工智能时代?
2
《中国电信业》 2025年第2期4-4,共1页
2025年春节前夕,我国深度求索公司发布的Deep Seek-R1版本大模型以高品质、低成本、全面开源等特性震撼人工智能圈,继而得到全球广泛关注。Deep Seek-R1的面世,无疑加速了人工智能的演进。那么我们将如何迎接人工智能时代?个人要持开放... 2025年春节前夕,我国深度求索公司发布的Deep Seek-R1版本大模型以高品质、低成本、全面开源等特性震撼人工智能圈,继而得到全球广泛关注。Deep Seek-R1的面世,无疑加速了人工智能的演进。那么我们将如何迎接人工智能时代?个人要持开放态度。从目前趋势看,无论是从个人习惯出发抵触,还是从人类危机的高度担忧,都难以阻止人工智能的发展进程。未来,人工智能将广泛应用到自动驾驶、高端制造、科研探索、日常生活辅助等方方面面,避不可避。与其消极回避,不如积极对待,迎接拥抱这一趋势。 展开更多
关键词 人工智能时代 Deep seek-r1
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部