-
题名域对抗神经网络自适应的跨域说话人日志方法
- 1
-
-
作者
牛铜
焦啸林
屈丹
-
机构
信息工程大学
先进计算与智能工程(国家级)实验室
新疆生产建设兵团数据局
-
出处
《信息工程大学学报》
2025年第4期379-385,共7页
-
基金
国家自然科学基金(62171470)
中原科技创新领军人才项目(234200510019)
河南省自然科学基金面上项目(232300421240)。
-
文摘
针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务与数据域判别任务的对抗训练;最后,完成在数据域上的自适应。实验对比不同模型在真实场景下的性能,所提模型整体性能优于其他模型。相较于基线模型,数据域不匹配时,两个说话人场景相对提升4.91%,3个说话人场景相对提升5.41%;数据域匹配时,分别相对提升3.81%和5.14%。实验结果表明,所提方法通过降低特征对域信息的敏感性有效提升系统跨域泛化能力。
-
关键词
说话人日志
域对抗神经网络
梯度翻转层
对抗训练
注意力统计池化
-
Keywords
speaker diarization
domain-adversarial neural network
gradient reversal layer
adver-sarial training
attentive statistics pooling
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名改进Transformer解码器的端到端语音识别
被引量:1
- 2
-
-
作者
胡恒博
牛铜
何振华
-
机构
郑州信大先进技术研究院技术研发一部
信息工程大学信息系统工程学院
-
出处
《计算机应用》
北大核心
2025年第S1期95-100,共6页
-
基金
国家自然科学基金资助项目(62171470)。
-
文摘
Transformer模型架构在序列到序列任务中可以很好地将注意力分散到整个输入上以学习长期依赖关系,然而,在语音识别中,文本输出和语音输入是单调对齐的。针对Transformer解码器无法较好地捕获局部特征以进行单调对齐的问题,提出一种改进的Transformer解码器。将Transformer解码器中的2种注意力机制拆分为2个单独模块,再使用交叉注意力进行更高效的局部特征捕获。在开源中文普通话AISHELL-1数据集上的实验结果表明,使用能够捕获局部特征的编码器时,该解码器相较于Transformer解码器有着更好的识别效果。具体地,当编码器为Conformer时,字错误率(CER)降低了16.19%,且收敛速度更快,而在使用了连接时序分类(CTC)进行辅助解码后,CER降低了5.08%,最终的CER为4.67%。
-
关键词
交叉注意力
Transformer解码器
Conformer编码器
语音识别
局部特征
-
Keywords
cross-attention
Transformer decoder
Conformer encoder
speech recognition
local feature
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于加权最小统计的噪声谱估计改进算法
被引量:7
- 3
-
-
作者
牛铜
张连海
屈丹
-
机构
郑州信息科技学院信息科学系
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2009年第5期1166-1169,共4页
-
基金
国家863计划项目(2006AA01Z146)资助课题
-
文摘
针对最小统计的噪声谱估计算法在噪声谱上升时跟踪时延较大的问题,该文给出了一种加权最小统计的噪声谱估计改进算法,通过分析加权对最小统计噪声谱估计算法的影响,采用3种简单典型曲线构造权值,用实验的方法比较得出由余弦曲线构造的权值最优。实验结果表明加权最小统计的噪声谱估计改进算法能够快速跟踪噪声谱的变化,提高了噪声谱估计的准确性,改善了增强后的语音质量。
-
关键词
语音增强
噪声谱估计
加权最小统计
-
Keywords
Speech enhancement
Noise spectral estimation
Weighted minimum statistics
-
分类号
TN912.35
[电子电信—通信与信息系统]
-
-
题名一种新的噪声自相关估计方法
被引量:1
- 4
-
-
作者
牛铜
张连海
屈丹
-
机构
信息工程大学信息工程学院
-
出处
《信息工程大学学报》
2009年第3期369-371,375,共4页
-
基金
国家863计划资助项目(2006AA01Z146)
-
文摘
通过分析带噪语音、纯净语音和噪声的自相关关系,在均方误差最小准则下给出了一种基于最优平滑滤波和能量最小算法相结合的噪声自相关无偏估计算法,与传统的噪声自相关估计不同,该算法直接从带噪语音自相关中估计噪声自相关。实验表明,该算法优于传统的噪声自相关估计算法,在非平稳噪声环境下,估计器的性能得到改善。
-
关键词
语音增强
子空间
噪声自相关估计
-
Keywords
speech enhancement
subspace method
noise autocorrelation estimation
-
分类号
TN911.4
[电子电信—通信与信息系统]
-
-
题名基于缺失数据补偿的鲁棒语音识别
- 5
-
-
作者
牛铜
李弼程
张连杰
-
机构
信息工程大学信息工程学院
信息工程大学训练部
-
出处
《信息工程大学学报》
2012年第4期411-415,共5页
-
基金
国家自然科学基金资助项目(61175017)
-
文摘
针对实际环境中语音信号的时频分量普遍存在部分缺失或严重失真的问题,在已知语音先验知识的条件下,提出了一种利用可靠时频分量对缺失数据进行补偿的方法。利用贝叶斯准则,将最优补偿转化为求解后验概率最大化的问题,并利用缺失数据自身的能量信息,给出了一种局部最优补偿的方法。实验表明,该方法在各种噪声、信噪比环境下,综合性能优于传统的鲁棒语音识别技术;采用缺失信息对补偿进行限定,在低信噪比下鲁棒性能有了明显的提高。
-
关键词
缺失数据补偿
鲁棒语音识别
贝叶斯准则
-
Keywords
missing-data imputation
robust speech recognition
Bayesian rule
-
分类号
TN911.4
[电子电信—通信与信息系统]
-
-
题名基于正则化的本征音说话人自适应方法
被引量:9
- 6
-
-
作者
张文林
张连海
牛铜
屈丹
李弼程
-
机构
中国人民解放军信息工程大学信息工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2012年第12期1950-1957,共8页
-
基金
国家自然科学基金(61175017)资助~~
-
文摘
将正则化方法应用于本征音说话人自适应算法中,有效地解决了说话人子空间基的先验选择问题.通过对似然函数引入适当的正则项,在优化过程中从候选本征音基矢量中自动选择最佳的本征音进行线性组合.本文讨论了三种正则化因子,并给出了其数学优化算法.l1正则化可以得到说话人因子的稀疏解,其非零项即对应最佳本征音基矢量;l2正则化可以提高解的稳健性,在某种程度上减少了子空间维数的先验选择对识别率的影响;而弹性网正则化则通过线性组合在二者之间取得折衷.有监督说话人自适应实验表明,新方法与本征音方法的最好结果相比,在少量的自适应数据条件下(10s以下),识别率相对提高了近1%~2%.三种方法中,l1正则化略优于l2正则化,而在引入弹性网正则化后,系统性能有了进一步提高.
-
关键词
语音识别
说话人自适应
本征音
正则化
弹性网
-
Keywords
Speech recognition, speaker adaptation, eigenvoice, regularization, elastic net
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于声学特征空间非线性流形结构的语音识别声学模型
被引量:9
- 7
-
-
作者
张文林
牛铜
屈丹
李弼程
裴喜龙
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2015年第5期1024-1033,共10页
-
基金
国家自然科学基金(61403415
61175017)资助~~
-
文摘
从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型.将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型.将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型.最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定.文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法.基于RM语料库的连续语音识别实验表明,相比于传统的高斯混合模型(Gaussian mixture model,GMM)和子空间高斯混合模型(Subspace Gaussian mixture model,SGMM),新声学模型在测试集上的平均词错误率(Word error rate,WER)分别相对下降了33.1%和9.2%.
-
关键词
语音识别
声学模型
非线性流形
混合因子分析
-
Keywords
Speech recognition
acoustic model
nonlinear manifold
mixture of factor analyzers
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于MCE准则的语音识别特征线性判别分析
被引量:4
- 8
-
-
作者
陈斌
张连海
牛铜
屈丹
李弼程
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第6期1208-1215,共8页
-
基金
国家自然科学基金(61175017)资助~~
-
文摘
提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法(Linear discriminant analysis,LDA),并将其应用到连续语音识别中的特征变换.该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵.利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征.实验结果表明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1.41%,相比于HLDA(Heteroscedastic LDA)和近似成对经验正确率准则(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%.
-
关键词
线性判别分析
语音识别
核密度估计
特征变换
-
Keywords
Linear discriminant analysis (LDA), speech recognition, kernel density estimation, feature transformation
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名低资源少样本连续语音识别最新进展
被引量:7
- 9
-
-
作者
屈丹
杨绪魁
闫红刚
陈雅淇
牛铜
-
机构
战略支援部队信息工程大学信息系统工程学院
-
出处
《郑州大学学报(工学版)》
CAS
北大核心
2023年第4期1-9,共9页
-
基金
国家自然科学基金资助项目(62171470)
河南省中原科技创新领军人才项目(234200510019)。
-
文摘
低资源少样本语音识别是目前语音识别行业面临的迫切技术需求。首先,总结了低资源连续语音识别技术的框架技术,重点介绍了低资源语音在特征提取、声学建模和资源扩展等方面的若干关键技术研究进展。其次,在连续语音识别框架技术发展的基础上,重点阐述了生成对抗网络、自监督表示学习、深度强化学习和元学习等高级深度学习技术在解决少样本语音识别方面的最新发展,如FGSM、wav2vec、AMS等代表性方法。在此基础上,分析了目前该技术面临的互补有限、数据和任务不均衡与模型轻量化部署问题。最后,对低资源少样本连续语音识别进行了总结,提出未来少样本训练识别的研究方向可以朝着先验信息引入、假设空间约束条件设定等方向进一步研究。
-
关键词
低资源少样本
连续语音识别
生成对抗网络
自监督表示学习
深度强化学习
元学习
-
Keywords
low-resource few-shot
continuous speech recognition
generative adversarial networks
self-supervised representation learning
deep reinforcement learning
meta-learning
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于音位属性和边界信息的音素识别
被引量:6
- 10
-
-
作者
许友亮
张连海
牛铜
-
机构
解放军信息工程大学信息工程学院
-
出处
《数据采集与处理》
CSCD
北大核心
2013年第2期178-183,共6页
-
基金
国家自然科学基金(61175017)资助项目
-
文摘
在检测出音位属性的基础上,提出了一种基于音位属性后验概率的音素边界检测算法,并将音位属性与边界信息应用于基于条件随机场的音素识别。该方法首先计算得出相邻帧音位属性后验概率向量间的夹角,然后将夹角的极大值点所在的帧选为侯选边界,最后通过约束条件去除极值点中的错误边界。本文将音素边界与音位属性信息进行组合,作为基于条件随机场模型的识别系统的观测特征,实验结果表明,增加边界信息后,音素正确识别率有了显著提升。
-
关键词
音位属性
音素边界检测
自动语音识别
条件随机场
-
Keywords
phonological attributes
phone boundary detection
automatic speech recognition
conditional random field
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于最大似然可变子空间的快速说话人自适应方法
被引量:3
- 11
-
-
作者
张文林
牛铜
张连海
李弼程
-
机构
解放军信息工程大学信息工程学院
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2012年第3期571-575,共5页
-
基金
国家自然科学基金(60872142)资助课题
-
文摘
该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。
-
关键词
连续语音识别
说话人自适应
本征音
子空间方法
-
Keywords
Continuous speech recognition
Speaker adaptation
Eigenvoice
Subspace method
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于正样本对比与掩蔽重建的自监督语音表示学习
被引量:2
- 12
-
-
作者
张文林
刘雪鹏
牛铜
陈琦
屈丹
-
机构
信息工程大学信息系统工程学院
-
出处
《通信学报》
EI
CSCD
北大核心
2022年第7期163-171,共9页
-
基金
国家自然科学基金资助项目(No.61673395,No.62171470)。
-
文摘
针对现有基于对比预测的自监督语音表示学习方法在训练时需要构建大量负样本,其学习效果依赖于大批次训练,需要耗费大量计算资源的问题,提出了一种仅使用正样本进行语音对比学习的方法,并将其与掩蔽重建任务相结合得到一种多任务自监督语音表示学习方法,在降低训练复杂度的同时提高语音表示学习的性能。其中,正样本对比学习任务,借鉴图像自监督表示学习中SimSiam方法的思想,采用孪生网络架构对原始语音信号进行两次数据增强,并使用相同的编码器进行处理,将一个分支经过一个前向网络,另一个分支使用梯度停止策略,调整模型参数以最大化2个分支输出的相似度。整个训练过程中不需要构造负样本,可采用小批次进行训练,大幅提高了学习效率。使用LibriSpeech语料库进行自监督表示学习,并在多种下游任务中进行微调测试,对比实验表明,所提方法得到的模型在多个任务中均达到或者超过了现有主流语音表示学习模型的性能。
-
关键词
语音表示
自监督学习
无监督学习
孪生网络
-
Keywords
speech representation
self-supervised learning
unsupervised learning
siamese network
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于端到端的神经网络机器翻译技术研究
被引量:4
- 13
-
-
作者
李真
屈丹
高明霞
张文林
牛铜
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2018年第5期550-555,共6页
-
基金
国家自然科学基金资助项目(61673395,61403415)
河南省自然科学基金资助项目(162300410331)
-
文摘
基于端到端的神经网络机器翻译(neuralmachinetranslation.NMT)是一种新的机器翻译方法.目前已成为机器翻译的核心技术.方法基于编码-解码框架.由一个编码器和一个解码器构成.用连接编码器和解码器的向量描述语义等价性.可以直接将源语言序列映射成目标语言序列.概括基于端到端NMT技术的研究进展.并进行展望.讨论NMT存在的难点问题及生成对抗网络和迁移学习技术在该领域上的应用.为下一步研究提供新的思路.
-
关键词
端到端
长短时记忆
注意力机制
生成对抗网络
迁移学习
-
Keywords
end-to-end
long short-term memory
attention mechanism
generative adversarial networks
transfer learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名不相关匹配追踪的分段区分性特征变换方法
被引量:1
- 14
-
-
作者
陈斌
牛铜
张连海
屈丹
李弼程
-
机构
解放军信息工程大学信息系统工程学院
西南电子电信技术研究所上海分所
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2016年第12期2924-2931,共8页
-
基金
国家自然科学基金(No.61175017
No.61403415)
国家高技术研究发展计划(863计划)课题(No.2012AA011603)
-
文摘
为了提高基于分帧特征变换方法的稳定性,提出了一种基于分段的区分性特征变换方法.该方法将特征变换当成高维信号的稀疏逼近问题,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform,RDLT)和基于最小音素错误准则均值补偿的特征(mean-offset feature Minimum Phone Error,m-f MPE)变换矩阵,将两者的特征变换矩阵构成过完备的字典;采用强制对齐的方式对语音信号进行分段,以似然度最大化作为目标函数,利用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数.为保证特征变换的稳定性,在选择变换矩阵过程中引入相关度测量,去除相关的特征基矢量.实验结果表明,相比于传统的RDLT方法,当声学模型分别采用最大似然和区分性准则训练时,识别性能分别可以提高1.63%和2.23%.该方法同时能应用于语音增强和模型区分性训练中.
-
关键词
特征变换
语音识别
区分性训练
语音增强
匹配追踪
-
Keywords
feature transform
speech recognition
discriminative training
speech enhancement
matching pursuit
-
分类号
TN912
[电子电信—通信与信息系统]
-
-
题名一种基于RBM的深层神经网络音素识别方法
被引量:3
- 15
-
-
作者
陈琦
张文林
牛铜
李弼程
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2013年第5期569-574,共6页
-
基金
国家自然科学基金资助项目(61175107)
-
文摘
为提高连续语音识别中的音素识别准确率,采用深可信网络提取语音音素后验概率进行音素识别。首先利用受限玻尔兹曼机的学习原理,对深可信网络进行逐层的预训练;然后通过增加一个"软最大化(softmax)"输出层,得到用于音素状态后验概率检测的深层神经网络,并采用后向传播算法进行网络权值的精细调整;最后以后验概率为HMM发射概率,使用Viterbi解码器进行音素识别。针对TIMIT语料库的实验结果表明,该系统的音素识别率优于GMM/HMM,MLP/HMM和TANDEM系统性能。
-
关键词
受限玻尔兹曼机
深可信网络
神经网络
音素识别
-
Keywords
restricted Boltzmann machine (RBM)
deep belief networks
neural network
phoneme recognition
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于能量分布和共振峰结构的汉语鼻音检测
被引量:1
- 16
-
-
作者
陈斌
张连海
牛铜
王波
-
机构
解放军信息工程大学信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第1期104-109,共6页
-
基金
国家高技术研究发展(863)计划资助项目(2006AA01Z146)
国家自然科学基金资助项目(60872142)
-
文摘
该文提出了一种基于能量分布和共振峰结构的汉语鼻音检测方法,该方法首先基于Seneff听觉谱提取了一组描述音段能量分布和共振峰结构的特征参数,然后采用支持向量机模型进行检测和分类,得到候选的鼻音,最后根据音段持续时间、前端韵母能量、高低频能量差、中低频能量比等特征对候选的鼻音进行后处理,去除插入错误,提高鼻音检测的准确率。实验结果表明,干净语音鼻音检测准确率可以达到90.4%,信噪比10dB的语音鼻音检测准确率可达到84.4%以上。
-
关键词
鼻音检测
能量分布
共振峰结构
Seneff听觉模型
-
Keywords
nasal detection
energy distribute
formant structure
Seneff auditory model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名声学模型区分性训练中的动态加权数据选取方法
- 17
-
-
作者
陈斌
牛铜
张连海
李弼程
屈丹
-
机构
解放军信息工程大学信息系统工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第12期2899-2907,共9页
-
基金
国家自然科学基金(61175017)资助~~
-
文摘
提出了一种基于动态加权的数据选取方法,并应用到连续语音识别的声学模型区分性训练中.该方法联合后验概率和音素准确率选取数据,首先,采用后验概率的Beam算法裁剪词图,在此基础上依据候选词所在候选路径的错误率,基于后验概率动态的赋予候选词不同的权值;其次,通过统计音素对之间的混淆程度,给易混淆音素对动态地加以不同的惩罚权重,计算音素准确率;最后,在估计得到弧段期望准确率分布的基础上,采用高斯函数形式对所有竞争弧段的期望音素准确率软加权.实验结果表明,与最小音素错误准则相比,该动态加权方法识别准确率提高了0.61%,可有效减少训练时间.
-
关键词
区分性训练
语音识别
训练数据选取
动态加权
-
Keywords
Discriminative training, speech recognition, training data selection, variable weighting
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于长时性特征的音位属性检测方法
- 18
-
-
作者
许友亮
张连海
屈丹
牛铜
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2012年第11期160-162,166,共4页
-
基金
国家自然科学基金资助项目(61175017)
-
文摘
提出一种基于长时性信息的音位属性检测方法,该方法通过高、低两层时间延迟神经网络(TDNN)进行实现,低层TDNN在短时特征上进行音位属性的检测,高层TDNN在低层检测结果的基础上,对更长时段上的信息进行融合。实验结果表明,引入长时性特征使得音位属性检测率提升约3%,将音位属性后验概率作为音素识别系统的观测特征,使用长时性特征的识别结果提升约1.7%。
-
关键词
音位属性
长时特征
层级结构
人工神经网络
隐马尔可夫模型
音素识别
-
Keywords
phonological attribute
long-term features
hierarchical structure
Artificial Neural Network(ANN)
Hidden Markov Model(HMM)
phoneme classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语音质量参数的语音传输信道检测算法
- 19
-
-
作者
陈斌
张连海
牛铜
屈丹
-
机构
信息工程大学信息工程学院
-
出处
《信息工程大学学报》
2011年第3期322-326,332,共6页
-
基金
国家自然科学基金资助项目(60872142)
国家863计划资助项目(2006AA01Z146)
-
文摘
针对不同编码算法对语音质量的影响,采用语音质量改进参数构造特征矢量,提出了一种基于SVM多级判决的语音编码检测算法,实现了对不同信道的识别。采用统计方法对这组参数的区分性进行了分析,在此基础上设计了一种高效的信道检测方案,结合实际数据,测试了算法性能,并分析了语音长度对性能的影响。实验结果表明,该算法能有效地提高信道检测准确率。
-
关键词
信道检测
语音质量参数
声道连续性
高阶累计量
多级判决
-
Keywords
channel detection
speech quality parameters
vocal-tract consistent
higher-order cumulant
multi-stage decision
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名卷积神经网络表征可视化研究综述
被引量:32
- 20
-
-
作者
司念文
张文林
屈丹
罗向阳
常禾雨
牛铜
-
机构
信息工程大学信息系统工程学院
信息工程大学网络空间安全学院
信息工程大学密码工程学院
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第8期1890-1920,共31页
-
基金
国家自然科学基金(61673395,U1804263)
中原科技创新领军人才项目(214200510019)资助。
-
文摘
近年来,深度学习在图像分类、目标检测及场景识别等任务上取得了突破性进展,这些任务多以卷积神经网络为基础搭建识别模型,训练后的模型拥有优异的自动特征提取和预测性能,能够为用户提供“输入–输出”形式的端到端解决方案.然而,由于分布式的特征编码和越来越复杂的模型结构,人们始终无法准确理解卷积神经网络模型内部知识表示,以及促使其做出特定决策的潜在原因.另一方面,卷积神经网络模型在一些高风险领域的应用,也要求对其决策原因进行充分了解,方能获取用户信任.因此,卷积神经网络的可解释性问题逐渐受到关注.研究人员针对性地提出了一系列用于理解和解释卷积神经网络的方法,包括事后解释方法和构建自解释的模型等,这些方法各有侧重和优势,从多方面对卷积神经网络进行特征分析和决策解释.表征可视化是其中一种重要的卷积神经网络可解释性方法,能够对卷积神经网络所学特征及输入–输出之间的相关关系以视觉的方式呈现,从而快速获取对卷积神经网络内部特征和决策的理解,具有过程简单和效果直观的特点.对近年来卷积神经网络表征可视化领域的相关文献进行了综合性回顾,按照以下几个方面组织内容:表征可视化研究的提起、相关概念及内容、可视化方法、可视化的效果评估及可视化的应用,重点关注了表征可视化方法的分类及算法的具体过程.最后是总结和对该领域仍存在的难点及未来研究趋势进行了展望.
-
关键词
深度学习
卷积神经网络
可解释性
表征可视化
显著图
-
Keywords
Deep learning
convolutional neural networks
interpretability
representation visualization
saliency map
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-