层次主题模型可以挖掘文档中的隐含主题,建模主题间的层次结构关系,为数据治理、信息检索、内容分类和知识管理等应用提供技术支持.文中提出基于思维链和语义解耦的层次化主题模型.首先,建立基于思维链的层次主题生成模块,设计层次化主...层次主题模型可以挖掘文档中的隐含主题,建模主题间的层次结构关系,为数据治理、信息检索、内容分类和知识管理等应用提供技术支持.文中提出基于思维链和语义解耦的层次化主题模型.首先,建立基于思维链的层次主题生成模块,设计层次化主题生成思维链,指导大语言模型(Large Language Model,LLM)生成初步的主题层次结构.然后,引入基于LLM的主题相似判别机制,生成精炼的主题,并利用样例指导LLM实现主题合并,提升生成主题的质量.最后,建立基于传输规划和语义解耦的主题层次优化模块,将初始层次主题结构作为下游建模的主题先验,构建主题关键词、文档主题分布和主题距离,并将主题层次关系建模为最优运输问题,结合上下层主题关键词进行父子主题解耦,优化主题层次结构.在NeurIPS、ACL、20 Newsgroups等涵盖新闻与学术论文的多个标准公开数据集上的实验表明,文中模型在主题质量指标和层次化指标上均取得较优值.展开更多
文摘层次主题模型可以挖掘文档中的隐含主题,建模主题间的层次结构关系,为数据治理、信息检索、内容分类和知识管理等应用提供技术支持.文中提出基于思维链和语义解耦的层次化主题模型.首先,建立基于思维链的层次主题生成模块,设计层次化主题生成思维链,指导大语言模型(Large Language Model,LLM)生成初步的主题层次结构.然后,引入基于LLM的主题相似判别机制,生成精炼的主题,并利用样例指导LLM实现主题合并,提升生成主题的质量.最后,建立基于传输规划和语义解耦的主题层次优化模块,将初始层次主题结构作为下游建模的主题先验,构建主题关键词、文档主题分布和主题距离,并将主题层次关系建模为最优运输问题,结合上下层主题关键词进行父子主题解耦,优化主题层次结构.在NeurIPS、ACL、20 Newsgroups等涵盖新闻与学术论文的多个标准公开数据集上的实验表明,文中模型在主题质量指标和层次化指标上均取得较优值.