基于张量表示的直推式多模态视频语义概念检测被引量：10

Transductive Multi-Modality Video Semantic Concept Detection with Tensor Representation

下载PDF

导出

摘要提出了一种基于高阶张量表示的视频语义分析与理解框架.在此框架中,视频镜头首先被表示成由视频中所包含的文本、视觉和听觉等多模态数据构成的三阶张量;其次,基于此三阶张量表达及视频的时序关联共生特性设计了一种子空间嵌入降维方法,称为张量镜头;由于直推式学习从已知样本出发能对特定的未知样本进行学习和识别.最后在这个框架中提出了一种基于张量镜头的直推式支持张量机算法,它不仅保持了张量镜头所在的流形空间的本征结构,而且能够将训练集合外数据直接映射到流形子空间,同时充分利用未标记样本改善分类器的学习性能.实验结果表明,该方法能够有效地进行视频镜头的语义概念检测. A higher-order tensor framework for video analysis and understanding is proposed in this paper. In this framework, image frame, audio and text are represented, which are the three modalities in video shots as data points by the 3rd-order tensor. Then a subspace embedding and dimension reduction method is proposed, which explicitly considers the manifold structure of the tensor space from temporal-sequenced associated co-occurring multimodal media data in video. It is called TensorShot approach. Transductive learning uses a large amount of unlabeled data together with the labeled data to build better classifiers. A transductive support tensor machines algorithm is proposed to train effective classifier. This algorithm preserves the intrinsic structure of the submanifold where tensorshots are sampled, and is also able to map out-of-sample data points directly. Moreover, the utilization of unlabeled data improves classification ability. Experimental results show that this method improves the performance of video semantic concept detection.

作者吴飞刘亚楠庄越挺

机构地区浙江大学计算机科学与技术学院数字媒体计算与设计实验室

出处《软件学报》 EI CSCD 北大核心 2008年第11期2853-2868,共16页 Journal of Software

基金 Supponed by the National Natural Science Foundation of China under Grant Nos.60603096 60533090(国家自然科学基金) the National High-Tech Research and Development Plan of China under Grant No.2006AA010107(国家高技术研究发展计划(863) the N~ional Key Technology R&D Program 0f China under Grant No.2007BAH11B01(国家科技支撑计划) the Program for Changjiang Scholars and Innovative Research Team in University ofChina under Grant Nos.IRT0652 PCSIRT(长江学者和创新团队发展计划)

关键词多模态张量镜头时序关联共生高阶SVD 降维直推式支持张量机 multi-modality TensorShot temporal associated cooccurrence （TAC） higher order SVD （HOSVD） dimensionality reduction transductive support tensor machine （TSTM）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：89
2张鸿,吴飞,庄越挺,陈建勋.一种基于内容相关性的跨媒体检索方法[J].计算机学报,2008,31(5):820-826. 被引量：33

二级参考文献32

1[1]Vapnik V. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995.
2[2]Stitson MO, Weston JAE, Gammerman A, Vovk V, Vapnik V. Theory of support vector machines. Technical Report, CSD-TR-96-17, Computational Intelligence Group, Royal Holloway: University of London, 1996.
3[3]Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995,20:273～297.
4[4]Vapnik V. Statistical Learning Theory. John Wiley and Sons, 1998.
5[5]Gammerman A, Vapnik V, Vowk V. Learning by transduction. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Wisconsin, 1998. 148～156.
6[6]Joachims T. Transductive inference for text classification using support vector machines. In: Proceedings of the 16th International Conference on Machine Learning (ICML). San Francisco: Morgan Kaufmann Publishers, 1999. 200～209.
7[7]Boser BE, Guyon IM, Vapnik VN. A training algorithm for optimal margin classifiers. In: Haussler D, ed. Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory. Pittsburgh, PA: ACM Press, 1992. 144～152.
8[8]Burges CJC. Simplified support vector decision rules. In: Saitta L, ed. Proceedings of the 13th International Conference on Machine Learning. San Mateo, CA: Morgan Kaufmann Publishers, 1996. 71～77.
9[9]Osuna E, Freund R, Girosi F. An improved training algorithm for support vector machines. In: Proceedings of the IEEE NNSP'97. Amelia Island, FL, 1997. 276～285.
10[10]Joachims T. Making large-scale SVM learning practical. In: Scholkopf, Burges C, Smola A, eds. Advances in Kernel Methods--Support Vector Learning B. MIT Press, 1999.

共引文献120

1马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
2李洋,方滨兴,郭莉.基于TSVM分类的网络入侵检测方法[J].计算机研究与发展,2007,44(z2):198-202.
3马琳,罗铁坚,宋进亮,叶世伟.Web性能测试与预测[J].中国科学院研究生院学报,2005,22(4):472-479. 被引量：8
4马琳,罗铁坚,叶世伟.一种基于转导的预测算法及其在软件性能测试中的应用[J].计算机工程,2005,31(16):170-172. 被引量：1
5宇缨,李清华.统计学习理论和支持向量机[J].沈阳大学学报,2005,17(4):42-47. 被引量：14
6田晓宇,梁静国.支持向量机在文本自动分类中的应用研究[J].情报学报,2006,25(2):208-214. 被引量：7
7张曦煌,须文波.基于增量学习的超球支持向量机设计[J].计算机工程与应用,2006,42(13):66-68. 被引量：2
8李晓宇,张新峰,沈兰荪.支持向量机(SVM)的研究进展[J].测控技术,2006,25(5):7-12. 被引量：46
9吴峰崎,孟光.基于支持向量机的转子振动信号故障分类研究[J].振动工程学报,2006,19(2):238-241. 被引量：19
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394

同被引文献96

1ZHANG Chunmei,YIN Zhongke,CHEN Xiangdong,XIAO Mingxia.Signal overcomplete representation and sparse decomposition based on redundant dictionaries[J].Chinese Science Bulletin,2005,50(23):2672-2677. 被引量：14
2HE Zhaoshui XIE Shengli FU Yu.Sparse representation and blind source separation of ill-posed mixtures[J].Science in China(Series F),2006,49(5):639-652. 被引量：24
3成功,赵巍,毛士艺.双阈值CFAR SAR目标分割方法[J].信号处理,2007,23(1):10-14. 被引量：6
4王煜,周立柱,邢春晓.视频语义模型及评价准则[J].计算机学报,2007,30(3):337-351. 被引量：15
5董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
6Bushara K O, Hanakawa T, Immiseh I, et al. Neural correlates of cross-modal binding [J]. Nature Neuroseience, 2002, 6(2): 190-195.
7Ma Q, Nadamoto A, Tanaka K. Complementary information retrieval for cross-media news content [C] //Proceedings of the 2nd ACM International Workshop on Multimedia Databases, Washington D C, 2004:45-54.
8Zhu X J, Goldberg A B, Eldawy M, etal. A text-to-picture synthesis system for augmenting communication [C] // Proceedings of the 22nd AAAI Conference on Artificial Intelligence, Vancouver, 2007 : 681-687.
9Smoliar S W, Zhang H J. Content-based video indexing and retrieval[J]. IEEE Multimedia, 1994, 1(2): 62-72.
10Rui Y, Huang T S, Ortega M, et al. Relevance feedback: a power tool for interactive content based image retrieval [J]. IEEE Transactions on Circuits and Systems for Video Technology, 1998, 8(5): 644-655.

引证文献10

1Ding-yin XIA,Fei WU,Wen-hao LIU,Han-wang ZHANG.Image interpretation: mining the visible and syntactic correlation of annotated words[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2009,10(12):1759-1768.
2叶云龙,杨明.一种基于多模态模型的随机子空间分类集成算法[J].南京师范大学学报（工程技术版）,2009,9(4):57-62.
3吴飞,庄越挺.互联网跨媒体分析与检索:理论与算法[J].计算机辅助设计与图形学学报,2010,22(1):1-9. 被引量：35
4陈烨,邵健,朱科.基于社群隐含主题挖掘和多社群信息融合的自动图像标注[J].中国图象图形学报,2010,15(6):944-950. 被引量：6
5史加荣,魏宗田,庞永锋.高阶张量信号的稀疏表示[J].计算机工程与设计,2011,32(12):4213-4217.
6杨琬琪,高阳,周新民,杨育彬,商琳.多模态张量数据挖掘算法及应用[J].计算机科学,2012,39(1):9-13. 被引量：3
7邢笛,葛洪伟,李志伟.模糊支持张量机图像分类算法及其应用[J].计算机应用,2012,32(8):2227-2229. 被引量：2
8陈鹏,赵成斌,左丽鄂.基于张量高斯混合模型的SAR图像分割[J].科技风,2018,0(26):253-253.
9高翔,陈志,岳文静,龚凯.基于视频场景深度学习的人物语义识别模型[J].计算机技术与发展,2018,28(6):53-58. 被引量：1
10苏丰龙,谢庆华,黄清泉,邱继远,岳振军.基于直推式学习的半监督属性抽取[J].山东大学学报（理学版）,2016,51(3):111-115. 被引量：5

二级引证文献52

1曾庆春,韩月红,林海军.计算机与网络技术应用分析[J].科技创业家,2013(15). 被引量：1
2朱科,邵健,郭同强.局部样条嵌入的正交半监督子空间学习算法[J].计算机辅助设计与图形学学报,2010,22(12):2209-2214. 被引量：1
3毛楚祥,郑益.混合数据管理引擎[J].情报资料工作,2011,32(1):65-67. 被引量：2
4邵健,王霏.空间约束特征组合与选择的中国剪纸识别[J].计算机辅助设计与图形学学报,2011,23(5):778-783. 被引量：1
5张华忠,侯进,秦雪,肖然.贝叶斯分类器的集成学习方法及其在图像标注中的应用[J].西南科技大学学报,2011,26(3):53-58. 被引量：1
6张师林,李和平,张树武.稠密子图发现的视频语义挖掘方法[J].计算机工程与应用,2011,47(33):13-14. 被引量：3
7欧阳遄飞,张寅,张啸,邵健,吴飞.结构化稀疏谱哈希索引[J].计算机辅助设计与图形学学报,2012,24(1):60-67. 被引量：3
8訾玲玲,杜军平,胡娟.跨媒体搜索引擎TCSE的研究与实现[J].复杂系统与复杂性科学,2012,9(1):29-34. 被引量：1
9庄凌,庄越挺,吴江琴,叶振超,吴飞.一种基于稀疏典型性相关分析的图像检索方法[J].软件学报,2012,23(5):1295-1304. 被引量：23
10訾玲玲,杜军平.基于突发事件的跨媒体信息检索系统的研究[J].计算机仿真,2012,29(6):16-19. 被引量：3

1赵建勋,黄继海.基于多模态融合的视频语义概念检测[J].科技创新与应用,2013,3(28):68-68.
2韩丹丹,韩立新.基于张量局部保持投影算法的图像检索[J].计算机与现代化,2017(1):71-74. 被引量：1
3潘润华,詹永照.基于负样本精简概念格规则的语义概念检测[J].计算机工程,2011,37(23):54-56.
4刘露,左万利,彭涛.异质网中基于张量表示的动态离群点检测方法[J].计算机研究与发展,2016,53(8):1729-1739. 被引量：7
5刘爱林,张天桥.基于非线性降维的虹膜识别方法[J].计算机工程与设计,2009,30(10):2442-2443. 被引量：2
6钱智明,钟平,王润生.结合非负张量表示与扩展隐Dirichlet分配模型的图像标注[J].国防科技大学学报,2014,36(6):152-157.
7杨琬琪,高阳,周新民,杨育彬,商琳.多模态张量数据挖掘算法及应用[J].计算机科学,2012,39(1):9-13. 被引量：3
8吴东东,黄卓龄.关于企业运营微博的几点思考[J].中小企业管理与科技,2013(21):29-30. 被引量：1
9白敏茹,黄孝龙,顾广泽,赵雪莹.基于张量秩校正的图像恢复方法[J].湖南大学学报（自然科学版）,2016,43(10):148-154. 被引量：1
10张瑞杰,李弼程,魏晗.基于LSI和软加权的视频语义概念检测[J].信息工程大学学报,2013,14(2):196-201.

软件学报

2008年第11期

浏览历史

内容加载中请稍等...

基于张量表示的直推式多模态视频语义概念检测被引量：10

参考文献2

二级参考文献32

共引文献120

同被引文献96

引证文献10

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于张量表示的直推式多模态视频语义概念检测 被引量：10

参考文献2

二级参考文献32

共引文献120

同被引文献96

引证文献10

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于张量表示的直推式多模态视频语义概念检测被引量：10