面向不平衡数据的电子病历自动分类研究被引量：1

Automatic Classification with Unbalanced Data for Electronic Medical Records

导出

摘要【目的】提出一种面向不平衡数据的电子病历自动分类方法,以进一步提高临床电子病历分类性能。【方法】利用MC-BERT增强电子病历的语义表示,并设计了相应的深度神经网络框架以提高模型的语义提取能力,最终利用类别数量比例、梯度协调机制和类别相似度从样本数量不平衡和样本分类难度不平衡两个角度设计了新的损失函数。【结果】通过真实电子病历数据集进行实证和对比实验,本文方法的精确率、宏平均F1值、微平均F1值分别为81.37%、65.89%、81.47%,优于前人提出的分类方法。【局限】仅针对单一临床科室的病历进行了实证研究。【结论】面向不平衡数据的电子病历自动分类方法可以有效地提高电子病历分类性能。 [Objective]This paper proposes an automatic classification method for electronic medical records with unbalanced data,aiming to further improve the classification performance of clinical electronic medical records.[Methods]First,we used the MC-BERT to enhance the semantic representation of electronic medical records.Then,we designed a deep neural network framework to improve the model’s semantic extraction capabilities.Finally,we designed a new loss function from the perspectives of the unbalanced sample categories and difficulty of classification.The proportion of categories,gradient coordination mechanism,and categories similarity were added to the model.[Results]We examined the new model with real electronic medical records.Its accuracy reached 81.37%,while the macro-average F1 value was 65.89%,and the micro-average F1 value was 81.47%.These results are better than the existing methods.[Limitations]We only retrieved medical records from one department.[Conclusions]The proposed method can effectively improve the classification results of unbalanced data.

作者张云秋李博诚陈妍 Zhang Yunqiu;Li Bocheng;Chen Yan(College of Public Health,Jilin University,Changchun 130021,China;Shenzhen Health Development Research and Data Management Center,Shenzhen 518028,China)

机构地区吉林大学公共卫生学院深圳市卫生健康发展研究和数据管理中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第2期233-241,共9页 Data Analysis and Knowledge Discovery

基金教育部人文社会科学规划项目(项目编号:18YJA870017) 深圳市医学信息中心委托项目(项目编号:2020(261)) 吉林大学研究生创新基金项目(项目编号:101832020CX279)的研究成果之一。

关键词不平衡数据深度学习电子病历代价敏感学习 Unbalanced Data Deep Learning Electronic Medical Records Cost-Sensitive Learning

分类号 TP391 [自动化与计算机技术—计算机应用技术] R-05 [医药卫生]

引文网络
相关文献

参考文献6

1病历书写基本规范(试行)[J].中国卫生法制,2002,10(5):38-41. 被引量：10
2钟佳娃,刘巍,王思丽,杨恒.文本情感分析方法及应用综述[J].数据分析与知识发现,2021,5(6):1-13. 被引量：107
3张虹科,付振新,任前平,徐辉,赵东岩,严睿.基于融合条目词嵌入和注意力机制的自动ICD编码[J].北京大学学报（自然科学版）,2020,56(1):1-8. 被引量：10
4翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：38
5薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
6王飞.iLOF*:一种改进的局部异常检测算法[J].计算机系统应用,2015,24(12):233-238. 被引量：8

二级参考文献113

1张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
2韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：12
3Chan P K, Stolfo S J. Toward scalable learning with nonuniform class and cost distributions: A case study in credit card fraud detection[C]// Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining. New York, USA: AAAI Press, 1998:164-168.
4Phua C, Alahakoon D, Lee V. Minority report in fraud detection:Classification of skewed data[J]. SIGKDD Explore, 2004,6 (1) :50-59.
5Sun Aixin, Lira E P, Liu Ying. On strategies for imbalaneed text classification using SVM: A comparative study[J]. Decision Support Systems, 2009,48 : 191-201.
6Turney P D. Learning algorithms for keyphrase extraction[J]. Information Retrieval, 2000,2 (4) : 303-336.
7Ling C X, Li C. Data mining for direct marketing: Problems and solutions[C] // Proceeding of the 4th International Conference on Knowledge Discovery and Data Mining. 1998:73-79.
8Bauer E,Kohavi R. An empirical comparison of voting classication algoirthm: Bagging, boosting and variants [J]. Machine Learning, 1999,36 : 105-142.
9Japkowicz N, Stephen S. The class imbalance problem: A systematic study[J]. Intelligent Data Analysis Journal, 2002,6 (5): 429-450.
10Joshi M V. Learning Classier Models for Predicting Rare Phonemena[D]. University of Minnesota USA, 2002.

共引文献263

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2刘朝辉,张宇红,李稚鸥,胡伟山.提高病案管理质量把握处理医疗纠纷的主动权[J].中国病案,2007,8(4):28-29. 被引量：3
3张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
4薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
5李尼格,鲍培明,沙露.一种基于面包含关系的GML空间离群面检测算法[J].广西师范大学学报（自然科学版）,2009,27(3):118-121. 被引量：3
6张毅,刘旭敏,关永.基于密度的离群噪声点检测[J].计算机应用,2010,30(3):802-805. 被引量：13
7孙浩,何晓红.动态数据环境下基于信息熵的相对离群点检测算法[J].计算机应用,2010,30(5):1284-1286. 被引量：1
8田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13
9潘瑜春,刘巧芹,陆洲,周艳兵,李淑华.离群样点对土壤养分空间变异分析的影响研究[J].土壤学报,2010,47(4):767-771. 被引量：7
10薛安荣,李明.无线传感器网络中异常读数检测算法研究[J].计算机应用研究,2010,27(9):3452-3455. 被引量：2

同被引文献24

1李小华,陈倩,梁志伟,罗云坚,吕玉波.基于关联规则的数据挖掘技术在“中医辅助诊疗系统”中的应用研究[J].中国数字医学,2007,2(6):27-30. 被引量：5
2丁卫平,施佺,管致锦,石振国.基于频繁概念格的电子病历关联规则挖掘研究[J].微电子学与计算机,2008,25(8):125-128. 被引量：6
3王世吉.电子病案的应用与研究[J].中国病案,2008,9(8):41-42. 被引量：10
4周保琢,李传富,代亮亮,冯焕清.采用增量关联规则挖掘提高电子病历系统的用户体验度[J].中国医疗器械杂志,2009,33(2):83-86. 被引量：4
5曾勇.关联规则在脑科电子病历挖掘中的应用[J].医学信息学杂志,2014,35(10):55-58. 被引量：6
6李准,冯思佳,杨美洁,赵文龙.关联规则技术在冠心病电子病历中的应用[J].医学信息学杂志,2015,36(1):58-62. 被引量：10
7栗伟,赵大哲,李博,彭新茗,刘积仁.CRF与规则相结合的医学病历实体识别[J].计算机应用研究,2015,32(4):1082-1086. 被引量：48
8杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.中文电子病历命名实体和实体关系语料库构建[J].软件学报,2016,27(11):2725-2746. 被引量：116
9孙健,高大启,阮彤,殷亦超,高炬,王祺.中文电子病历中的时间关系识别[J].计算机应用,2018,38(3):626-632. 被引量：6
10王阳阳,郑西川.基于规则和机器学习的中文电子病历患者隐私保护算法[J].北京生物医学工程,2019,38(5):492-497. 被引量：3

引证文献1

1麻笑生,刘巍,王思丽,杨恒.电子健康记录数据挖掘技术研究进展[J].世界科技研究与发展,2024,46(6):831-849. 被引量：3

二级引证文献3

1刘振宇,邓栩,陈乐民,胡一甲,陈小帅,姚婉婷,曾舒琪,迟宏罡.数字化技术在医学生临床实践教学中的应用与思考[J].中国医药导报,2025,22(11):102-105. 被引量：3
2林梓鹏,王来友,刘贵浩,薛允莲.老年共病患者用药管理困境与多学科融合破局路径探索[J].中国医药导报,2025,22(17):74-79.
3裴晚娟,王一如,肖伊利,黄瑾睿.县域医共体的智能化转型——人工智能与数字医学的融合路径[J].临床医学进展,2025,15(4):2288-2302. 被引量：1

1董奇达,王喆,吴松洋.结合注意力机制与几何信息的特征融合框架[J].计算机科学,2022,49(5):129-134.
2王冲,刘杰.基于宽度学习的高铁制动系统实时异常检测[J].北京信息科技大学学报（自然科学版）,2022,37(2):1-7. 被引量：3
3吕成戍.基于双重欠采样代价敏感学习的推荐系统虚假用户检测方法[J].系统科学与数学,2021,41(12):3548-3558. 被引量：5
4邢鸿,魏毅强,李晨龙.基于G-Mean加权随机森林算法的不平衡数据处理[J].应用数学进展,2022,11(4):2071-2079. 被引量：1
5凯文·D.阿什利,李亚(译).法律文本语义的自动提取:机遇与挑战[J].法律方法,2021,27(4):75-95. 被引量：3
6李京泰,王晓丹.基于代价敏感激活函数XGBoost的不平衡数据分类方法[J].计算机科学,2022,49(5):135-143. 被引量：15
7王伟侠.并发症预防护理应用于重症急性胰腺炎患者护理中的作用分析[J].中国保健食品,2022(4):130-132.
8高文学,陈一玮,蔡国君,胡龙军,钱明平,杨佳芳,张戟,侯冷晨.高危住院患者深静脉血栓风险管理效果[J].解放军医院管理杂志,2021,28(11):1035-1037. 被引量：3
9孙家琛,陈柏权,陈俊榕.追踪方法学联合CBS模式在住培医师病历书写岗前培训中的应用研究[J].中华医学教育探索杂志,2021,20(12):1468-1471. 被引量：5
10周阳阳,钱文彬,王映龙,彭莉莎,曾武序.面向混合数据的代价敏感三支决策边界域分类方法[J].智能系统学报,2022,17(2):411-419. 被引量：3

数据分析与知识发现

2022年第2期

浏览历史

内容加载中请稍等...

面向不平衡数据的电子病历自动分类研究被引量：1

参考文献6

二级参考文献113

共引文献263

同被引文献24

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向不平衡数据的电子病历自动分类研究 被引量：1

参考文献6

二级参考文献113

共引文献263

同被引文献24

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向不平衡数据的电子病历自动分类研究被引量：1