文摘针对真实环境下声音异常检测域偏移的问题,提出一种基于时间频率注意力(time frequency-attention,TF-ATTN)网络和长短期记忆(long short-term memory,LSTM)的网络模型TF-LSTM。通过Kullback-Leibler(KL)散度抽离出对数梅尔谱输入特征中偏离均值帧最大的帧,利用TF-ATTN网络分别捕获特征元素在时间和频率维度的长距离依赖关系,最终通过LSTM模块预测抽离帧,计算与原始抽离帧的重构误差。在ToyADMOS2数据集上的实验结果表明:与基线模型(自编码器)相比,TF-LSTM模型在7种声源数据集上的源域AUC(area under the curve)、目标域AUC与p AUC(partial AUC)三项指标上均表现更优,目标域AUC提升1.24%~79.24%,目标域p AUC提升0.17%~24.03%。