音频高层语义分析被引量：4

Semantic-audio Content Analysis at High Level

下载PDF

导出

摘要为跨越语义鸿沟,提出了一种提取音频中高层语义概念的方法。该方法先用隐马尔可夫模型(HMM)建立对应于分析窗口的低层语义概念,即基本声音语义事件(basic semantic-audio event,BE);然后以音框为单位将声音信号通过短时傅里叶变换及ICA处理来得到对应于HMM模型的可观察符号;接着用贝叶斯决策排除语义窗口对应声音段中的非预定义BE后,按贝叶斯公式所得最大后验概率为准则得到此语义窗口的一个基本声音语义事件组(group of BE,)GBE;最后采用高层语义逻辑定义来描述GBE与高层声音语义概念间的联系,结合由实例训练得到的高层语义逻辑定义最终得到相应语义窗口的高层语义声音概念(high level audio semantic concept,HC)。实验表明此方法能提取与人思维中相似的高层语义概念,在一定程度上可跨越语义鸿沟。 To bridge the semantic gap between audio feature and high-level semantic concept, an approach for semantic- audio content Analysis is presented in this paper. Hidden Markov model（HMM） is trained for modeling BE. In order to extract GsE corresponding to a semantic window, Bayesian decision theory is used to eliminate the analysis window not belonging to any predefined HMM. Then, each of the residual analysis windows within the semantic window is classified to BE class by criterion of maximum Bayesian posterior probability. Ignoring the order and repetition of BE, GSE is got. Logic definition of high level audio semantic concept is the connection of GSE and HC, through which HC can be extracted. The experimental results demonstrate that the proposal approach could extract HC like human thoughts, and could bridge the semantic gap to some degree.

作者魏维游静刘凤玉许满武

机构地区南京理工大学计算机科学与技术系南京大学计算机科学与技术系

出处《中国图象图形学报》 CSCD 北大核心 2007年第1期141-147,共7页 Journal of Image and Graphics

基金国家自然科学基金项目(60273035) 江苏省科技攻关项目(BE2003064)

关键词声音语义内容分析高层语义概念语义视频分析隐马尔可夫模型 semantic-audio content analysis, high level semantic-concept, semantic-video analysis, HMM

分类号 TN912.34 [电子电信—通信与信息系统] TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Chu W T,Cheng W H,Wu J L.Generative and discriminative modeling toward semantic context detection in audio tracks[A].In:Proceedings of the 1 1th International Multimedia Modelling Conference,2004.MMM 2005.[C],Melbourne,Australia,2005:38 - 45.
2Umapathy K,Krishnan S,Jimaa S.Multigroup classification of audio signals using time-frequency parameters[J].IEEE Transactions on Multimedia,2005,7(2):308 -315.
3Kim H-G,Moreau N,Sikora T.Audio classification based on MPEG-7 spectral basis representations[J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(5):716 - 725.
4Cai Rui,Lu Lie,Zhang Hong-jiang,et al.Highlight sound effects detection in audio stream[A].In:2003 IEEE International Conference on Multimedia & Expo (ICME ' 03)[C],Baltimore,Maryland,USA,2003,Ⅲ:37-40.
5ISO/IEC JTC 1/SC 29.Information technology multimedia content description interface-Part 4:Audio[S],15938-4,ISO,June,2001.
6Panagiotakis C,Tziritas G.A speech/music discriminator based on RMS and zero-crossings[J].IEEE Transactions on Multimedia,2005,7(1):155 - 166.
7Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of IEEE,1989,77(2):257 -286.
8Richard O.D.,Peter E H,David G S 等著,李宏东等译.模式分类(第二版)[M].北京:机械工业出版社,2003.

同被引文献56

1周艺华,侍伟敏,段立娟.基于球门检测的足球视频精彩事件提取[J].北京工业大学学报,2009,35(1):103-107. 被引量：2
2王清亮,常青,薛向阳.音频信息检索综述[J].计算机科学,2004,31(6):59-63. 被引量：3
3陈剑赟,李云浩,吴玲达,老松扬,白亮.辅助足球视频切分的音频自动分类与分段[J].国防科技大学学报,2004,26(6):49-53. 被引量：2
4郝丽娜.浅析企业竞争情报系统中的数据库构建[J].科技情报开发与经济,2005,15(14):39-41. 被引量：5
5侯榆青,葛宝,彭进业.视频分镜头边界检测的一种新方法[J].光子学报,2005,34(10):1597-1600. 被引量：6
6周宁,刘玮.可视化语音信息检索模型研究[J].现代图书情报技术,2006(2):46-49. 被引量：10
7黄永文,李广建.竞争情报管理软件的分析研究[J].情报理论与实践,2006,29(2):227-231. 被引量：9
8鲍杰,孙培山,樊治平.一种基于知识管理的企业竞争情报过程模型[J].情报理论与实践,2006,29(3):304-307. 被引量：18
9魏维,赵学龙,刘凤玉,许满武.视频语义分类特征选择算法[J].系统仿真学报,2006,18(5):1143-1146. 被引量：5
10王建宇,张峰,周献中,史迎春,骆文.利用小波变换和K均值聚类实现字幕区域分割[J].计算机辅助设计与图形学学报,2006,18(10):1508-1512. 被引量：10

引证文献4

1魏维,叶斌,张元茂.视频语义分析内容表征方式研究[J].计算机工程,2007,33(13):218-220.
2胡桓.基于企业语音信息的竞争情报提取模式构建[J].情报杂志,2009,28(7):77-81.
3张玉珍,魏带娣,王建宇,戴跃伟.基于多模态融合的足球视频语义分析[J].计算机科学,2010,37(7):273-276. 被引量：4
4余春艳,翁子林.音频情感感知与视频精彩片段提取[J].计算机辅助设计与图形学学报,2015,27(10):1890-1899. 被引量：4

二级引证文献8

1张玉珍,丁思捷,王建宇,戴跃伟,陈钱.基于HMM的融合多模态的事件检测[J].系统仿真学报,2012,24(8):1638-1642. 被引量：4
2任梅,詹永照,潘道远,孙佳瑶.基于概率超图的视频事件语义检测[J].计算机应用,2012,32(11):3014-3017. 被引量：1
3张晓丽,智敏.网球视频中慢镜头的自适应阈值探测法[J].计算机工程与科学,2013,35(4):99-103. 被引量：5
4俞璜悦,王晗,郭梦婷.基于用户兴趣语义的视频关键帧提取[J].计算机应用,2017,37(11):3139-3144. 被引量：2
5杨静.体育视频中羽毛球运动员的动作识别[J].自动化技术与应用,2018,37(10):120-124. 被引量：11
6熊辉,王文雯.应用主成分分析和KL变换的体育视频压缩算法[J].微型电脑应用,2022,38(1):126-129. 被引量：1
7余彦子,唐杨.基于弹幕数量变化预测视频切片精彩程度的研究[J].五邑大学学报（社会科学版）,2024,26(2):40-43.
8张辉,杜瑞,钟杭,曹意宏,王耀南.电力设施多模态精细化机器人巡检关键技术及应用[J].自动化学报,2025,51(1):20-42. 被引量：19

1常小红,董武.基于前向神经网络的交互式图像检索系统[J].计算机与现代化,2007(12):89-92. 被引量：1
2鄂明晶.谈如何使学生认识正确的声音概念[J].黑龙江科技信息,2007(10X):222-222.
3陈利琴,金聪.基于异构描述子的新型高斯混合模型图像自动标注方法[J].电子测量技术,2015,38(11):60-65. 被引量：2
4刘倩.基于内容的图像检索中的相关反馈技术[J].华东交通大学学报,2003,20(4):71-74. 被引量：9
5王宏,卢芳芳,李建武.结合支持向量回归和图像自相似的单幅图像超分辨率算法[J].中国图象图形学报,2016,21(8):986-992. 被引量：10
6汤义,刘伟铭,温金辉.基于MPEG—7标准的行人模型描述与实现[J].科学技术与工程,2010,10(4):933-937.
7魏维,邹书蓉,刘凤玉.基本声音语义分析与提取技术研究[J].小型微型计算机系统,2007,28(9):1715-1719.
8王军,张明柱.图像匹配算法的研究进展[J].大气与环境光学学报,2007,2(1):11-15. 被引量：44
9孔英会,刘淑荣,张少明,范启跃.基于语义的视频检索关键技术综述[J].电子科技,2012,25(8):150-153. 被引量：3
10张鑫,程光胜.交互式图像检索系统应用前向神经网络[J].电子商务,2012,13(6):65-66.

中国图象图形学报

2007年第1期

浏览历史

内容加载中请稍等...

音频高层语义分析被引量：4

参考文献8

同被引文献56

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

音频高层语义分析 被引量：4

参考文献8

同被引文献56

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

音频高层语义分析被引量：4