文章采用BERTopic模型,对“好大夫在线”平台上的医学科普文章进行主题挖掘,旨在提升患者检索医疗信息的效率,并辅助医疗从业者精准把握医学话题的发展趋势,进而推动医疗事业的进步。针对医学文本信息量大、专业性强的特点,研究通过数...文章采用BERTopic模型,对“好大夫在线”平台上的医学科普文章进行主题挖掘,旨在提升患者检索医疗信息的效率,并辅助医疗从业者精准把握医学话题的发展趋势,进而推动医疗事业的进步。针对医学文本信息量大、专业性强的特点,研究通过数据预处理、预训练嵌入模型ERNIE-Health,并细致调整模型参数,有效地解决了传统LDA(Latent Dirichlet Allocation)模型在医学文本处理任务中存在的局限性。实验结果显示,BERTopic模型成功识别出220个研究主题,且经OCTIS(Open Topic Modeling Toolkit for Interpretability and Similarity)框架评估,主题多样性得分为0.662,连贯性得分为0.991,显著提升了主题挖掘的准确性和可靠性。此项研究对医疗大数据中知识的深入挖掘具有重要意义。展开更多
文摘文章采用BERTopic模型,对“好大夫在线”平台上的医学科普文章进行主题挖掘,旨在提升患者检索医疗信息的效率,并辅助医疗从业者精准把握医学话题的发展趋势,进而推动医疗事业的进步。针对医学文本信息量大、专业性强的特点,研究通过数据预处理、预训练嵌入模型ERNIE-Health,并细致调整模型参数,有效地解决了传统LDA(Latent Dirichlet Allocation)模型在医学文本处理任务中存在的局限性。实验结果显示,BERTopic模型成功识别出220个研究主题,且经OCTIS(Open Topic Modeling Toolkit for Interpretability and Similarity)框架评估,主题多样性得分为0.662,连贯性得分为0.991,显著提升了主题挖掘的准确性和可靠性。此项研究对医疗大数据中知识的深入挖掘具有重要意义。