视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等...视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。展开更多
Multirate systems are abundant in industry; for example, many soft-sensor design problems are related to modeling, parameter identification, or state estimation involving multirate systems. The study of multirate syst...Multirate systems are abundant in industry; for example, many soft-sensor design problems are related to modeling, parameter identification, or state estimation involving multirate systems. The study of multirate systems goes back to the early 1950's, and has become an active research area in systems and control. This paper briefly surveys the history of development in the area of multirate systems, and introduces some basic concepts and latest results on multirate systems, including a polynomial transformation technique and the lifting technique as tools for handling multirate systems, lifted state space models, parameter identification of dual-rate systems, how to determine fast single-rate models from dual-rate models and directly from dual-rate data, and a hierarchical identification method for general multirate systems. Finally, some further research topics for multirate systems are given.展开更多
固态变压器(solid state transformer,SST)在新型电力系统中的应用逐渐增加,因其复杂的拓扑结构、节点数多、子模块内开关频率高等特点,使得面向SST的电磁暂态仿真计算效率低,目前针对SST大步长仿真方法的研究较少。为此,提出一种基于...固态变压器(solid state transformer,SST)在新型电力系统中的应用逐渐增加,因其复杂的拓扑结构、节点数多、子模块内开关频率高等特点,使得面向SST的电磁暂态仿真计算效率低,目前针对SST大步长仿真方法的研究较少。为此,提出一种基于离散状态空间小步合成的SST大步长仿真方法。首先,建立小步长建模、小步长仿真的离散状态空间模型;然后,根据离散状态空间方程的特点,采用小步迭代合成法构建离散状态空间大步长仿真模型,从而实现小步长建模、大步长仿真;最后,给出大步长仿真模型的二次等效方法,减少系统整体建模的系数矩阵维度,降低计算复杂度。结果表明,所提方法不仅能减少数值积分误差和电力电子开关动作误差,实现100 k Hz开关频率下SST换流系统的精确仿真,还能显著提升SST的仿真效率。展开更多
文摘视频字幕生成(Video Captioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和Transformer(SpatioTemporal-enhanced State space model and Transformer,ST2)模型,通过引入最近流行的具有全局感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与Transformer并行结合,提出空间增强的状态空间模型(State Space Model,SSM)和Transformer(Spatial enHanced State space model and Transformer module,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能力,提出时间增强的SSM和Transformer(Temporal enHanced State space model and Transformer module,TH-ST)。具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数超过了基线结果4.9%。
基金Supported by the Natural Sciences and Engineering Research Council of Canada and National Natural Science Foundation of P.R.China
文摘Multirate systems are abundant in industry; for example, many soft-sensor design problems are related to modeling, parameter identification, or state estimation involving multirate systems. The study of multirate systems goes back to the early 1950's, and has become an active research area in systems and control. This paper briefly surveys the history of development in the area of multirate systems, and introduces some basic concepts and latest results on multirate systems, including a polynomial transformation technique and the lifting technique as tools for handling multirate systems, lifted state space models, parameter identification of dual-rate systems, how to determine fast single-rate models from dual-rate models and directly from dual-rate data, and a hierarchical identification method for general multirate systems. Finally, some further research topics for multirate systems are given.
文摘固态变压器(solid state transformer,SST)在新型电力系统中的应用逐渐增加,因其复杂的拓扑结构、节点数多、子模块内开关频率高等特点,使得面向SST的电磁暂态仿真计算效率低,目前针对SST大步长仿真方法的研究较少。为此,提出一种基于离散状态空间小步合成的SST大步长仿真方法。首先,建立小步长建模、小步长仿真的离散状态空间模型;然后,根据离散状态空间方程的特点,采用小步迭代合成法构建离散状态空间大步长仿真模型,从而实现小步长建模、大步长仿真;最后,给出大步长仿真模型的二次等效方法,减少系统整体建模的系数矩阵维度,降低计算复杂度。结果表明,所提方法不仅能减少数值积分误差和电力电子开关动作误差,实现100 k Hz开关频率下SST换流系统的精确仿真,还能显著提升SST的仿真效率。