Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类...Web 2.0信息时代,信息量迅速增加,信息检索速率却显著降低,如何提高信息的自动分类管理水平,从海量数据中高效、准确、快速获取有价值的信息与知识成为智慧图书馆亟待研究与解决的问题。文章提出了在数字图书馆服务中运用新型文本聚类群智能分析方法。该算法通过改进文本间的语义相似度计算,融合K-means聚类算法与蚁群聚类算法(Ant Colony Optimization,ACO)的优点,在初始分类时将K-means聚类算法用作快速分类,用分类结果指导更新蚂蚁各途径信息素,指导蚂蚁后续聚类途径选择,提高聚类运行效率。该分析方法因为不需要类别的信息,能自动完成文本分组,所以可以更好地应用到图书馆资源的推荐与检索服务中。图书馆数字文本数据库实验证明,混合蚁群聚类算法比单独的K-means、ACO都具有更好的聚类效果,可以看出该算法的有效性。展开更多
微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,...微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。展开更多
研究旨在探讨孕早期外周血中白细胞分化抗原44(cluster of differentiation 44,CD44,后类同)和CD69表达水平与子痫前期(preeclampsia)发生的关联,并评估指标与病情严重程度及新生儿结局的相关性。采用回顾性研究方法,收集2018年1月1日至...研究旨在探讨孕早期外周血中白细胞分化抗原44(cluster of differentiation 44,CD44,后类同)和CD69表达水平与子痫前期(preeclampsia)发生的关联,并评估指标与病情严重程度及新生儿结局的相关性。采用回顾性研究方法,收集2018年1月1日至2023年12月31日期间于深圳大学第一附属医院(深圳市第二人民医院)收治的100例子痫前期孕妇作为子痫前期组,同期100例健康孕妇作为对照组;采集入组孕妇的年龄、建册身体质量指数(body mass index,BMI)、建册血压、入院时BMI、入院时血压、随机尿蛋白定量、妊娠天数及新生儿出生体质量等临床资料,并通过ELISA检测研究对象孕早期外周血中游离CD44和CD69的表达。结果显示,子痫前期组孕早期外周血游离CD44和CD69水平显著低于对照组(均P<0.001);多因素Logistic回归分析显示,在排除潜在混杂因素后,CD44和CD69仍显示出对子痫前期发生的独立影响(均P<0.001);此外,CD44和CD69的含量显著影响子痫前期病情的严重程度(均P<0.05);ROC曲线分析显示,CD44和CD69及联合检测预测子痫前期的曲线下面积(area under the curve,AUC)均超过0.7,说明疾病预测效能较好,且以联合预测最佳(AUC=0.968,P<0.001);在新生儿结局方面,孕早期外周血中游离CD44和CD69水平与新生儿出生体质量及妊娠天数呈正相关(均P<0.05)。由此,孕早期外周血中CD44和CD69的表达水平可作为预测子痫前期发生的潜在生物标志物,并可能对评估子痫前期病情严重程度及新生儿结局提供辅助信息,为临床制订个性化筛查及预防策略提供参考。展开更多
文摘在高压并联电抗器声纹信号监测系统中,长时海量无标签声纹的高维非平稳性导致特征提取困难、无监督聚类适应性差。由此提出了一种基于深度自适应K-means++算法(deep adaptive K-means++clustering algorithm,DAKCA)的750 kV电抗器声纹聚类方法。首先通过采用两阶段无监督策略微调的改进堆叠稀疏自编码器(stacked sparse autoencoder,SSAE),对快速傅里叶变换后的归一化频域数据提取电抗器原始声纹32维深度特征。进一步提出了依据最近邻聚类有效性指标(clustering validation index based on nearest neighbors,CVNN)的自适应K-means++聚类算法,构建了能自适应确定最优聚类个数的电抗器声纹聚类模型。最后通过西北地区某750 kV电抗器实测声纹数据集进行了验证。结果表明,DAKCA算法对无标签声纹数据在不同样本均衡程度下能够稳定提取32维深度特征,并实现最优聚类,为直接高效利用电抗器无标签声纹数据提供了参考。
文摘微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。
文摘研究旨在探讨孕早期外周血中白细胞分化抗原44(cluster of differentiation 44,CD44,后类同)和CD69表达水平与子痫前期(preeclampsia)发生的关联,并评估指标与病情严重程度及新生儿结局的相关性。采用回顾性研究方法,收集2018年1月1日至2023年12月31日期间于深圳大学第一附属医院(深圳市第二人民医院)收治的100例子痫前期孕妇作为子痫前期组,同期100例健康孕妇作为对照组;采集入组孕妇的年龄、建册身体质量指数(body mass index,BMI)、建册血压、入院时BMI、入院时血压、随机尿蛋白定量、妊娠天数及新生儿出生体质量等临床资料,并通过ELISA检测研究对象孕早期外周血中游离CD44和CD69的表达。结果显示,子痫前期组孕早期外周血游离CD44和CD69水平显著低于对照组(均P<0.001);多因素Logistic回归分析显示,在排除潜在混杂因素后,CD44和CD69仍显示出对子痫前期发生的独立影响(均P<0.001);此外,CD44和CD69的含量显著影响子痫前期病情的严重程度(均P<0.05);ROC曲线分析显示,CD44和CD69及联合检测预测子痫前期的曲线下面积(area under the curve,AUC)均超过0.7,说明疾病预测效能较好,且以联合预测最佳(AUC=0.968,P<0.001);在新生儿结局方面,孕早期外周血中游离CD44和CD69水平与新生儿出生体质量及妊娠天数呈正相关(均P<0.05)。由此,孕早期外周血中CD44和CD69的表达水平可作为预测子痫前期发生的潜在生物标志物,并可能对评估子痫前期病情严重程度及新生儿结局提供辅助信息,为临床制订个性化筛查及预防策略提供参考。