该文旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现,评估其与MDT专家意见的一致性,为大语言模型(LLMs)的临床实践提供循证依据与优化方向。该文基于真实世界数据与最新指南,设计了6例涵盖不...该文旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现,评估其与MDT专家意见的一致性,为大语言模型(LLMs)的临床实践提供循证依据与优化方向。该文基于真实世界数据与最新指南,设计了6例涵盖不同肿瘤负荷、基因突变谱和体能状态的虚拟CRLM病例,通过结构化的提示策略,在DeepSeek-V3.1与ChatGPT-5模型中分别生成MDT治疗建议。由4名MDT专家采用7维度5级李克特量表对模型输出进行独立评审。并通过统计学分析对两款模型在各个病例、各项维度和各个学科的表现分别进行比较。2款大语言模型在所有病例中的综合得分均≥4.0分(满分5分),表明其在复杂的MDT决策场景下具备可接受的临床效能。在跨维度分析中,两者在清晰度、个体化程度、抗幻觉能力和伦理安全4项上得分较高,而在准确性、全面性和前沿性方面仍有一定提升空间。DeepSeek-V3.1在整体表现(4.27±0.77 vs 4.08±0.86)、前沿性(3.90±0.65 vs 3.24±0.72)与伦理安全(4.87±0.34 vs 4.58±0.65)方面显著优于ChatGPT-5(P<0.05);在放疗领域亦明显领先(4.55±0.67 vs 3.38±0.91,P<0.01)。ChatGPT-5则在胃肠外科领域表现优于DeepSeek-V3.1(4.48±0.67 vs 4.17±0.85,P=0.02)。DeepSeek-V3.1与ChatGPT-5均表现出为CRLM-MDT决策提供可靠建议的良好能力。其中,Deep Seek-V3.1在前沿知识整合、伦理安全性及放射肿瘤学领域展现出显著优势,而Chat GPT-5则在胃肠外科方面表现更优,二者形成优势互补。该文证实了大型语言模型作为“MDT协作者”的可行性,为缩小地域间诊疗水平差距、提升临床决策效率提供了一项便捷可靠的技术方案。展开更多
文摘该文旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现,评估其与MDT专家意见的一致性,为大语言模型(LLMs)的临床实践提供循证依据与优化方向。该文基于真实世界数据与最新指南,设计了6例涵盖不同肿瘤负荷、基因突变谱和体能状态的虚拟CRLM病例,通过结构化的提示策略,在DeepSeek-V3.1与ChatGPT-5模型中分别生成MDT治疗建议。由4名MDT专家采用7维度5级李克特量表对模型输出进行独立评审。并通过统计学分析对两款模型在各个病例、各项维度和各个学科的表现分别进行比较。2款大语言模型在所有病例中的综合得分均≥4.0分(满分5分),表明其在复杂的MDT决策场景下具备可接受的临床效能。在跨维度分析中,两者在清晰度、个体化程度、抗幻觉能力和伦理安全4项上得分较高,而在准确性、全面性和前沿性方面仍有一定提升空间。DeepSeek-V3.1在整体表现(4.27±0.77 vs 4.08±0.86)、前沿性(3.90±0.65 vs 3.24±0.72)与伦理安全(4.87±0.34 vs 4.58±0.65)方面显著优于ChatGPT-5(P<0.05);在放疗领域亦明显领先(4.55±0.67 vs 3.38±0.91,P<0.01)。ChatGPT-5则在胃肠外科领域表现优于DeepSeek-V3.1(4.48±0.67 vs 4.17±0.85,P=0.02)。DeepSeek-V3.1与ChatGPT-5均表现出为CRLM-MDT决策提供可靠建议的良好能力。其中,Deep Seek-V3.1在前沿知识整合、伦理安全性及放射肿瘤学领域展现出显著优势,而Chat GPT-5则在胃肠外科方面表现更优,二者形成优势互补。该文证实了大型语言模型作为“MDT协作者”的可行性,为缩小地域间诊疗水平差距、提升临床决策效率提供了一项便捷可靠的技术方案。