目的利用机器学习方法,基于定量构效关系建立并验证中草药心脏毒性预测模型,为中草药的安全性评价和临床合理用药提供参考。方法利用比例失衡法筛选并收集美国食品药品监督管理局(Food and Drug Administration,FDA)不良事件报告系统(Ad...目的利用机器学习方法,基于定量构效关系建立并验证中草药心脏毒性预测模型,为中草药的安全性评价和临床合理用药提供参考。方法利用比例失衡法筛选并收集美国食品药品监督管理局(Food and Drug Administration,FDA)不良事件报告系统(Adverse Event Reporting System,FAERS)数据库中具有潜在心脏风险的活性成分,作为主分析数据,随机划分为训练集和验证集,分别通过随机森林(RF)、决策树(DT)、K-最近邻分类法(KNN)和极端梯度提升法(XGBoost)构建预测模型及内部验证,使用曲线下面积(AUC)、准确率、精确度等多个指标评估模型的性能,选出最优模型;并通过检索相关数据库建库至2025年1月1日的文献收集具有心脏毒性的中草药活性成分,从自发报告系统数据库挖掘出可能具有心脏风险的中草药,并从TCMSP数据库中筛查其活性成分,作为测试集,对构建的最优模型进行外部验证。结果预测性能最佳的模型为KNN,训练集AUC=0.684,验证集AUC=0.718;通过文献筛选出24种具有心脏毒性的中草药活性成分,自发报告系统数据库中筛查出怀疑中草药11种,经外部验证后18种中草药活性成分以及10种中草药预测出心脏风险。结论模型预测的整体准确率达80%,可以用于中草药活性成分的心脏毒性预测。展开更多
文摘目的利用机器学习方法,基于定量构效关系建立并验证中草药心脏毒性预测模型,为中草药的安全性评价和临床合理用药提供参考。方法利用比例失衡法筛选并收集美国食品药品监督管理局(Food and Drug Administration,FDA)不良事件报告系统(Adverse Event Reporting System,FAERS)数据库中具有潜在心脏风险的活性成分,作为主分析数据,随机划分为训练集和验证集,分别通过随机森林(RF)、决策树(DT)、K-最近邻分类法(KNN)和极端梯度提升法(XGBoost)构建预测模型及内部验证,使用曲线下面积(AUC)、准确率、精确度等多个指标评估模型的性能,选出最优模型;并通过检索相关数据库建库至2025年1月1日的文献收集具有心脏毒性的中草药活性成分,从自发报告系统数据库挖掘出可能具有心脏风险的中草药,并从TCMSP数据库中筛查其活性成分,作为测试集,对构建的最优模型进行外部验证。结果预测性能最佳的模型为KNN,训练集AUC=0.684,验证集AUC=0.718;通过文献筛选出24种具有心脏毒性的中草药活性成分,自发报告系统数据库中筛查出怀疑中草药11种,经外部验证后18种中草药活性成分以及10种中草药预测出心脏风险。结论模型预测的整体准确率达80%,可以用于中草药活性成分的心脏毒性预测。