针对现有场景文本图像超分辨率方法存在真实世界高分辨率(high-resolution,HR)-低分辨率(low-resolution,LR)配对训练图像收集困难,文本语义先验信息利用不充分的问题,提出一种改进的文本语义先验引导的场景文本图像超分辨率重建方法(en...针对现有场景文本图像超分辨率方法存在真实世界高分辨率(high-resolution,HR)-低分辨率(low-resolution,LR)配对训练图像收集困难,文本语义先验信息利用不充分的问题,提出一种改进的文本语义先验引导的场景文本图像超分辨率重建方法(enhanced text prior guided scene text image super-resolution,ETPGSR)。将文本先验生成器从卷积循环神经网络(convolutional recurrent neural networks,CRNN)改进为DenseNet-RNN;改进语义先验特征变换模块,通过5层转置卷积将特征图尺寸扩大到接近超分辨率分支中特征图尺寸;引入文本先验特征与图像超分辨率特征融合模块;提出可学习神经算子与常规算子结合的场景图像降质模拟方法以构建HR-LR配对的数据集。实验结果表明:通过模拟数据集的预训练结合改进的文本先验分支网络结构,使用ASTER(attentional scene text recognizer with flexible rectification)、MORAN(multi-object rectified attention network)和CRNN对超分辨率重建后图像进行文本识别,在TextZoom数据集上分别取得了64.5%、60.8%和54.0%的准确率,超过TPGSR(text prior guided super-resolution)、TATT(text attention network)等多个对照模型;在ICDAR2015和SVT数据集上的泛化性测试结果同样超过上述对照模型。可见ETPGSR能有效提升文本图像超分辨率的性能。展开更多
针对真实场景文本图像超分辨率(SR)重建中存在的文本空间分布与纹理细节差异大、易产生不自然伪影、特征提取效率低等关键问题,该文提出一种文本增强型超分辨率生成对抗网络(Text-enhanced SR Generative Adversarial Network,Text-ESRG...针对真实场景文本图像超分辨率(SR)重建中存在的文本空间分布与纹理细节差异大、易产生不自然伪影、特征提取效率低等关键问题,该文提出一种文本增强型超分辨率生成对抗网络(Text-enhanced SR Generative Adversarial Network,Text-ESRGAN)。首先,为充分提取图像多尺度信息,在不损失空间分辨率的前提下扩大网络感受野,通过将密集空洞空间金字塔池化(DenseASPP)嵌入生成器网络,显著提升特征可识别性;其次,结合密集残差模块与通道注意力机制,设计并提出特征提取模块噪声-残差嵌套残差通道注意力密集块(nRRCADB),同时在生成器网络中引入高斯噪声,该模块可在精准提取图像关键特征、减少网络对无效背景特征关注的基础上,丰富图像局部纹理细节,推动模型生成更贴合真实场景的高分辨率文本图像;最后,针对文本图像超分辨率重建中空间变形引发的不自然伪影问题,引入基于Thin-Plate-Spline插值的空间变换网络(STN)模块,有效提升生成文本的辨识度。在TextZoom数据集上的实验与消融实验结果显示,该模型能有效增强文本图像细节真实性与文本辨识度,生成图像的平均峰值信噪比(PSNR)达22.46 dB、结构相似性(SSIM)达0.76,性能均优于现有主流方法。展开更多
文摘针对现有场景文本图像超分辨率方法存在真实世界高分辨率(high-resolution,HR)-低分辨率(low-resolution,LR)配对训练图像收集困难,文本语义先验信息利用不充分的问题,提出一种改进的文本语义先验引导的场景文本图像超分辨率重建方法(enhanced text prior guided scene text image super-resolution,ETPGSR)。将文本先验生成器从卷积循环神经网络(convolutional recurrent neural networks,CRNN)改进为DenseNet-RNN;改进语义先验特征变换模块,通过5层转置卷积将特征图尺寸扩大到接近超分辨率分支中特征图尺寸;引入文本先验特征与图像超分辨率特征融合模块;提出可学习神经算子与常规算子结合的场景图像降质模拟方法以构建HR-LR配对的数据集。实验结果表明:通过模拟数据集的预训练结合改进的文本先验分支网络结构,使用ASTER(attentional scene text recognizer with flexible rectification)、MORAN(multi-object rectified attention network)和CRNN对超分辨率重建后图像进行文本识别,在TextZoom数据集上分别取得了64.5%、60.8%和54.0%的准确率,超过TPGSR(text prior guided super-resolution)、TATT(text attention network)等多个对照模型;在ICDAR2015和SVT数据集上的泛化性测试结果同样超过上述对照模型。可见ETPGSR能有效提升文本图像超分辨率的性能。