期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于思维链技术的语言模型Deep Seek-R1、GPT-4o与Claude-3.5 Sonnet在儿外科领域的表现评估
1
作者
普健
刘雪来
谷庆隆
《齐齐哈尔医学院学报》
2025年第19期1844-1852,共9页
目的本研究旨在评估采用思维链(Co T)技术的人工智能(AI)语言模型(Deep Seek-R1)与传统大语言模型(GPT-4o、Claude-3.5 Sonnet)在儿外科临床知识库应答任务中的性能差异,进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影...
目的本研究旨在评估采用思维链(Co T)技术的人工智能(AI)语言模型(Deep Seek-R1)与传统大语言模型(GPT-4o、Claude-3.5 Sonnet)在儿外科临床知识库应答任务中的性能差异,进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影响风险。方法研究团队构建标准化儿外科知识题库(n=147),涵盖先天性巨结肠、肛门闭锁及先天性胆总管囊肿三大疾病谱系,并从基础理论、临床诊断、治疗策略、并发症管理和预防措施五个维度设计问题。题库包含专业型问题(医生视角,n=79)与科普型问题(患者视角,n=68)。采用双盲法组织专业评估团队进行系统评分。此外,从既往临床病例中挑选罕见或诊断困难的病例问题,进一步评估三个模型的临床诊断能力,同时评估不同提问条件下AI临床诊断的差异。应用Kruskal-Wallis H检验进行多组独立样本间差异分析,若差异显著则进一步通过全部成对比较。采用卡方检验比较分类数据之间的表现差异。使用Cohen's kappa检验评估者之间的评分差异度。结果本研究对三个语言模型在儿外科场景的表现进行系统评估:(1)总体性能比较:Deep Seek-R1总体回答质量显著优于对照模型(H=23.42,P<0.001),Deep Seek-R1准确率(87.07%)高于GPT-4o(63.27%)和Claude-3.5 Sonnet(67.35%);(2)专业问题表现:三类模型在专业类问题中答案质量的差异尤为显著(H=26.50,P<0.001);(3)科普问题表现:三类模型在患者教育类问题中均表现良好(准确率>80%),组间差异无统计学意义(H=2.335,P=0.311),且未观察到明显错误答案;(4)病例分析能力:三种模型对于含完整辅助诊断信息的回答质量显著优于无辅助检查的病例问题[χ^(2)(2)=1.983,P=0.371]。结论在儿外科的知识测评中,采用思维链技术的人工智能模型(Deep Seek-R1)在处理复杂问题时的表现优于GPT-4o和Claude-3.5 Sonnet,但三个模型的部分答案仍存在局限和潜在错误。此外,在使用AI处理临床问题时提供更全面的输入信息能显著提升回答准确率。
展开更多
关键词
人工智能
大语言模型
儿外科
思维链
Deep
seek-r1
GPT-4o
Claude-3.5
Sonnet
在线阅读
下载PDF
职称材料
如何迎接人工智能时代?
2
《中国电信业》
2025年第2期4-4,共1页
2025年春节前夕,我国深度求索公司发布的Deep Seek-R1版本大模型以高品质、低成本、全面开源等特性震撼人工智能圈,继而得到全球广泛关注。Deep Seek-R1的面世,无疑加速了人工智能的演进。那么我们将如何迎接人工智能时代?个人要持开放...
2025年春节前夕,我国深度求索公司发布的Deep Seek-R1版本大模型以高品质、低成本、全面开源等特性震撼人工智能圈,继而得到全球广泛关注。Deep Seek-R1的面世,无疑加速了人工智能的演进。那么我们将如何迎接人工智能时代?个人要持开放态度。从目前趋势看,无论是从个人习惯出发抵触,还是从人类危机的高度担忧,都难以阻止人工智能的发展进程。未来,人工智能将广泛应用到自动驾驶、高端制造、科研探索、日常生活辅助等方方面面,避不可避。与其消极回避,不如积极对待,迎接拥抱这一趋势。
展开更多
关键词
人工智能时代
Deep
seek-r1
在线阅读
下载PDF
职称材料
题名
基于思维链技术的语言模型Deep Seek-R1、GPT-4o与Claude-3.5 Sonnet在儿外科领域的表现评估
1
作者
普健
刘雪来
谷庆隆
机构
北京协和医学院/中国医学科学院
首都儿科研究所
出处
《齐齐哈尔医学院学报》
2025年第19期1844-1852,共9页
基金
首都卫生发展科研专项资助(首发2022-1-2101)
北京市自然科学基金资助(7232010)。
文摘
目的本研究旨在评估采用思维链(Co T)技术的人工智能(AI)语言模型(Deep Seek-R1)与传统大语言模型(GPT-4o、Claude-3.5 Sonnet)在儿外科临床知识库应答任务中的性能差异,进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影响风险。方法研究团队构建标准化儿外科知识题库(n=147),涵盖先天性巨结肠、肛门闭锁及先天性胆总管囊肿三大疾病谱系,并从基础理论、临床诊断、治疗策略、并发症管理和预防措施五个维度设计问题。题库包含专业型问题(医生视角,n=79)与科普型问题(患者视角,n=68)。采用双盲法组织专业评估团队进行系统评分。此外,从既往临床病例中挑选罕见或诊断困难的病例问题,进一步评估三个模型的临床诊断能力,同时评估不同提问条件下AI临床诊断的差异。应用Kruskal-Wallis H检验进行多组独立样本间差异分析,若差异显著则进一步通过全部成对比较。采用卡方检验比较分类数据之间的表现差异。使用Cohen's kappa检验评估者之间的评分差异度。结果本研究对三个语言模型在儿外科场景的表现进行系统评估:(1)总体性能比较:Deep Seek-R1总体回答质量显著优于对照模型(H=23.42,P<0.001),Deep Seek-R1准确率(87.07%)高于GPT-4o(63.27%)和Claude-3.5 Sonnet(67.35%);(2)专业问题表现:三类模型在专业类问题中答案质量的差异尤为显著(H=26.50,P<0.001);(3)科普问题表现:三类模型在患者教育类问题中均表现良好(准确率>80%),组间差异无统计学意义(H=2.335,P=0.311),且未观察到明显错误答案;(4)病例分析能力:三种模型对于含完整辅助诊断信息的回答质量显著优于无辅助检查的病例问题[χ^(2)(2)=1.983,P=0.371]。结论在儿外科的知识测评中,采用思维链技术的人工智能模型(Deep Seek-R1)在处理复杂问题时的表现优于GPT-4o和Claude-3.5 Sonnet,但三个模型的部分答案仍存在局限和潜在错误。此外,在使用AI处理临床问题时提供更全面的输入信息能显著提升回答准确率。
关键词
人工智能
大语言模型
儿外科
思维链
Deep
seek-r1
GPT-4o
Claude-3.5
Sonnet
Keywords
Artificial intelligence
Large language models
Pediatric surgery
Chain of thought
Deep
seek-r1
GPT-4o
Claude-3.5 Sonnet
分类号
R726 [医药卫生—儿科]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
如何迎接人工智能时代?
2
出处
《中国电信业》
2025年第2期4-4,共1页
文摘
2025年春节前夕,我国深度求索公司发布的Deep Seek-R1版本大模型以高品质、低成本、全面开源等特性震撼人工智能圈,继而得到全球广泛关注。Deep Seek-R1的面世,无疑加速了人工智能的演进。那么我们将如何迎接人工智能时代?个人要持开放态度。从目前趋势看,无论是从个人习惯出发抵触,还是从人类危机的高度担忧,都难以阻止人工智能的发展进程。未来,人工智能将广泛应用到自动驾驶、高端制造、科研探索、日常生活辅助等方方面面,避不可避。与其消极回避,不如积极对待,迎接拥抱这一趋势。
关键词
人工智能时代
Deep
seek-r1
分类号
F49 [经济管理—产业经济]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于思维链技术的语言模型Deep Seek-R1、GPT-4o与Claude-3.5 Sonnet在儿外科领域的表现评估
普健
刘雪来
谷庆隆
《齐齐哈尔医学院学报》
2025
0
在线阅读
下载PDF
职称材料
2
如何迎接人工智能时代?
《中国电信业》
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部