目的该研究聚焦于放射科住培医师亚专科报告书写岗位胜任力评估,旨在探究应用大语言模型进行自动化评价的可行性。方法以放射科乳腺亚专科住培医师报告为研究对象,模拟包含不同错误类型的100份乳腺X线摄影报告和100份乳腺MRI报告。通过...目的该研究聚焦于放射科住培医师亚专科报告书写岗位胜任力评估,旨在探究应用大语言模型进行自动化评价的可行性。方法以放射科乳腺亚专科住培医师报告为研究对象,模拟包含不同错误类型的100份乳腺X线摄影报告和100份乳腺MRI报告。通过乳腺组亚专科负责医师及教学主任协商制定岗位胜任力评价表,采用大语言模型思维链模式分步输入指令进行报告胜任力分级,并与人工分级结果对比。结果与人工相比,大语言模型(Large Language Model,LLM)判读时间仅0.13小时,效率优势显著,其分级准确性稍高于低年资带教师资,与高年资带教师资相近,且在不同级别岗位胜任力判定上表现稳定。在引入多种错误的报告中,LLM准确性达91.3%,表明能够较好进行分级优先级划分,但对MRI报告书写评价的准确率低于MM,分别为89%和93%。结论LLM用于放射科住培医师亚专科报告书写岗位胜任力评价具有准确性高、效率高、结果稳定等优势,可为住培教学评估提供有力支持,但LLM仍有处理及分析复杂文本时存在限制以及需要人工参与进行思维链提示输入等不足,未来需要进一步地探索与研究。展开更多
文摘目的该研究聚焦于放射科住培医师亚专科报告书写岗位胜任力评估,旨在探究应用大语言模型进行自动化评价的可行性。方法以放射科乳腺亚专科住培医师报告为研究对象,模拟包含不同错误类型的100份乳腺X线摄影报告和100份乳腺MRI报告。通过乳腺组亚专科负责医师及教学主任协商制定岗位胜任力评价表,采用大语言模型思维链模式分步输入指令进行报告胜任力分级,并与人工分级结果对比。结果与人工相比,大语言模型(Large Language Model,LLM)判读时间仅0.13小时,效率优势显著,其分级准确性稍高于低年资带教师资,与高年资带教师资相近,且在不同级别岗位胜任力判定上表现稳定。在引入多种错误的报告中,LLM准确性达91.3%,表明能够较好进行分级优先级划分,但对MRI报告书写评价的准确率低于MM,分别为89%和93%。结论LLM用于放射科住培医师亚专科报告书写岗位胜任力评价具有准确性高、效率高、结果稳定等优势,可为住培教学评估提供有力支持,但LLM仍有处理及分析复杂文本时存在限制以及需要人工参与进行思维链提示输入等不足,未来需要进一步地探索与研究。