-
题名基于对比学习优化的长文本聚类模型
- 1
-
-
作者
王依诚
左卫兵
-
机构
华北水利水电大学数学与统计学院
-
出处
《中原工学院学报》
2025年第6期24-30,共7页
-
基金
河南省高等教育教学改革研究与实践项目(研究生教育类)(2023SJGLX106Y)
2025年河南省研究生课程思政示范课程项目(YJS2025SZ01)
2025年河南省专业学位研究生精品教学案例项目(YJS2025AL04)。
-
文摘
为克服长文本语义表征的挑战,提升文本聚类性能,提出了一种基于对比学习优化的长文本聚类模型CLSSK。首先,通过构建对比学习框架,将二次池化改进的SBERT预训练模型作为长文本编码器嵌入其中;其次,引入NT-Xent损失函数优化长文本编码器模型参数,并利用优化后的编码器对长文本进行表征;最后,将所得长文本特征向量输入K-Means++算法中进行聚类分析。实验结果表明,CLSSK模型性能优于对比模型和各消融变体。因此,所提模型及其设计模块具有有效性。
-
关键词
长文本聚类
clssk模型
对比学习
SBERT
K-Means++
-
Keywords
long-text clustering
clssk model
contrastive learning
SBERT
K-Means++
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-