目的:基于真实世界病例报告,系统评估国产生成式人工智能模型DeepSeek-V3和Qwen3在消瘦患者鉴别诊断中的性能。方法:于2025年6月2日检索PubMed数据库中2012年1月1日至2025年6月2日发表在《美国病例报告杂志》(American Journal of Case ...目的:基于真实世界病例报告,系统评估国产生成式人工智能模型DeepSeek-V3和Qwen3在消瘦患者鉴别诊断中的性能。方法:于2025年6月2日检索PubMed数据库中2012年1月1日至2025年6月2日发表在《美国病例报告杂志》(American Journal of Case Reports)标题或摘要中包含“weight loss”的所有病例报告。由两位具有高级职称的全科医生根据消瘦诊断标准进行筛选,排除不符合消瘦诊断标准、信息不完整或属于专科明确诊治范畴的病例,将最终纳入的病例整理为临床病历摘要。将这些临床病历摘要文本分别输入DeepSeek-V3和Qwen3系列模型(Qwen3-235B-A22B、Qwen3-32B和Qwen3-30B-A3B)的提示框,生成前十位鉴别诊断清单。模型均未针对该任务进行专门训练或强化。采用灵敏度、精确度和F1分数综合评价模型性能,组间比较采用McNemar检验和Cochran’s Q检验。结果:最终分析了87份病例报告。DeepSeek-V3在首位诊断、前五位诊断及前十位诊断三个层级均展现出更高的灵敏度、精确度和F1分数,且两个模型在前五位诊断层级的性能差异有统计学意义(P=0.043)。在Qwen3系列中,Qwen3-235B-A22B在首位诊断的灵敏度、精确度及F1分数上均表现最佳,但三个模型在各层级的诊断性能差异均无统计学意义(均P>0.05)。结论:国产生成式人工智能模型在消瘦鉴别诊断中呈现广度优于精度的特点,DeepSeek-V3在关键诊断层级表现更优。尽管其首位诊断灵敏度和精确度有待提升,但作为临床决策支持工具可有效拓展全科医生的诊断思路。展开更多
文摘目的:基于真实世界病例报告,系统评估国产生成式人工智能模型DeepSeek-V3和Qwen3在消瘦患者鉴别诊断中的性能。方法:于2025年6月2日检索PubMed数据库中2012年1月1日至2025年6月2日发表在《美国病例报告杂志》(American Journal of Case Reports)标题或摘要中包含“weight loss”的所有病例报告。由两位具有高级职称的全科医生根据消瘦诊断标准进行筛选,排除不符合消瘦诊断标准、信息不完整或属于专科明确诊治范畴的病例,将最终纳入的病例整理为临床病历摘要。将这些临床病历摘要文本分别输入DeepSeek-V3和Qwen3系列模型(Qwen3-235B-A22B、Qwen3-32B和Qwen3-30B-A3B)的提示框,生成前十位鉴别诊断清单。模型均未针对该任务进行专门训练或强化。采用灵敏度、精确度和F1分数综合评价模型性能,组间比较采用McNemar检验和Cochran’s Q检验。结果:最终分析了87份病例报告。DeepSeek-V3在首位诊断、前五位诊断及前十位诊断三个层级均展现出更高的灵敏度、精确度和F1分数,且两个模型在前五位诊断层级的性能差异有统计学意义(P=0.043)。在Qwen3系列中,Qwen3-235B-A22B在首位诊断的灵敏度、精确度及F1分数上均表现最佳,但三个模型在各层级的诊断性能差异均无统计学意义(均P>0.05)。结论:国产生成式人工智能模型在消瘦鉴别诊断中呈现广度优于精度的特点,DeepSeek-V3在关键诊断层级表现更优。尽管其首位诊断灵敏度和精确度有待提升,但作为临床决策支持工具可有效拓展全科医生的诊断思路。