文摘目的基于生物信息学与机器学习方法探讨多囊卵巢综合征(polycystic ovary syndrome,PCOS)关键基因,并在临床水平进行验证,同时筛选对相关基因起调控作用的中药。方法应用GEO数据库获取4个数据集,使用R软件包“Limma”和加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)筛选PCOS组与健康对照组的差异表达基因,并对其进行功能富集和细胞免疫浸润分析。应用机器学习算法获取PCOS关键基因,绘制列线图,建立受试者工作特征(receiver operator characteristic,ROC)曲线评估列线图与每个关键基因识别PCOS的能力及特异性和敏感性。收集临床PCOS患者外周血单个核细胞,对关键基因表达量与PCOS识别情况进行临床验证。通过COREMINE数据库、古今医案云平台预测潜在调控PCOS的中药,并分析其性味归经及功效。结果4个数据集共获得42个样本,其中PCOS组21个样本,健康对照组21个样本。共获得差异基因127个,基因本体(gene ontology,GO)分析显示差异基因与肾上腺髓质素受体信号过程、细胞间桥、类固醇结合等有关;京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)分析显示差异基因与核因子-κB(nuclear factor-κB,NF-κB)介导的肿瘤坏死因子-α(tumor necrosis factor-α,TNF-α)信号传导、血管生成、白细胞介素-2(interleukin-2,IL-2)-信号转导和转录激活因子5(signal transducer and activator of transcription 5,STAT5)信号等相关。进一步进行细胞免疫浸润,发现PCOS组γδT细胞、单核细胞、激活的肥大细胞水平升高,浆细胞、CD4初始T细胞、激活的自然杀伤(natural killer,NK)细胞水平降低。最小绝对收缩和选择算子(logistic least absolute shrinkage and selection operator,LASSO)-Cox比例风险模型(Cox proportional-hazards model,COX)回归筛选11个关键靶点,包括AK4、DEPP1、DUOX2、FGG、GAREM1、PLOD2、SLC41A2、SPIN4、THNSL1、TMEM187、ZNF443,PCOS组关键基因的表达量均低于对照组(P<0.05),单个关键基因识别PCOS的曲线下面积(area under urve,AUC)为0.76~0.90,诺莫图识别PCOS的AUC为0.98。临床数据验证共纳入PCOS组12例,健康对照组12例,PCOS组AK4、ZNF443、DUOX2、DEPP1、FGG、SLC41A2、SPIN4与TMEM187的基因表达量均低于健康对照组(P<0.05),应用诺莫图验证对PCOS的识别,AUC为1。预测到与差异基因相关的中药85味,中药的四气以寒、温、平为主,五味以苦、甘、辛味为主,归经以肝、肺、胃经为主,功效以清热解毒、理气为主。结论AK4、DEPP1、DUOX2、FGG、GAREM1、PLOD2、SLC41A2、SPIN4、THNSL1、TMEM187、ZNF443可能是识别PCOS的潜在关键生物标志物以及对潜在治疗中药的预测二者为PCOS的诊断和治疗提供了新思路。