-
题名基于话语重写的无监督对话主题分割算法
- 1
-
-
作者
李彤亮
李奇峰
侯霞
陈小明
李舟军
-
机构
北京信息科技大学计算机学院
深圳智能思创科技有限公司
北京航空航天大学计算机学院
-
出处
《计算机科学》
北大核心
2025年第12期215-223,共9页
-
基金
国家自然科学基金(62406033,62276017,U1636211,61672081)
教育部产学合作协同育人项目(231004723052336)。
-
文摘
对话主题分割(DTS)任务旨在将一段多轮对话自动划分为不同的主题片段,从而更精准地理解和处理对话内容,在对话建模任务中具有重要作用。传统的DTS方法主要依赖语义相似性和对话连贯性来进行无监督的对话主题划分,但这些特征难以全面捕捉对话中的复杂主题转换,且未标注的对话数据尚未被充分挖掘和利用。为此,最新的DTS方法通过相邻话语匹配和伪分割,从对话数据中学习主题感知的对话表示,进一步挖掘未标注对话中的有用线索。然而,多轮对话中常见的共指和省略现象可能影响语义相似性的计算,进而削弱相邻话语匹配的准确性。为解决这一问题并充分利用对话关系中的有用线索,提出了一种新颖的无监督对话主题分割方法,结合了话语重写(UR)技术与无监督学习算法。该方法通过重写对话中的共指和省略信息,使其恢复为完整表达,从而更好地捕捉对话中的主题线索。实验结果表明,提出的话语重写主题分割模型(UR-DTS)在主题分割的准确性上取得了显著提升,达到了目前的最好水平。在DialSeg711数据集上,错误分数P k和WinDiff(WD)两个指标的性能表现均提升了约6个百分点,分别达到11.42%和12.97%。在更复杂的Doc2Dial数据集上,P k和WD的性能表现分别提升了3个百分点和2个百分点,达到了35.17%和38.49%。这些结果表明,UR-DTS在捕捉对话主题转换方面具有显著优势,且对未标注对话数据有更大的利用潜力。
-
关键词
多轮对话
无监督学习
自然语言理解
doc2dial
-
Keywords
Multi-turn dialogue
Unsupervised learning
Natural language understanding
doc2dial
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-