期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
An Improved Forest Fire Detection Model Using Audio Classification and Machine Learning
1
作者 Kemahyanto Exaudi Deris Stiawan +4 位作者 Bhakti Yudho Suprapto Hanif Fakhrurroja MohdYazid Idris Tami AAlghamdi Rahmat Budiarto 《Computers, Materials & Continua》 2026年第1期2062-2085,共24页
Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstruc... Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstructions,and substantial computational demands,especially in complex forest terrains.To address these challenges,this study proposes a novel forest fire detection model utilizing audio classification and machine learning.We developed an audio-based pipeline using real-world environmental sound recordings.Sounds were converted into Mel-spectrograms and classified via a Convolutional Neural Network(CNN),enabling the capture of distinctive fire acoustic signatures(e.g.,crackling,roaring)that are minimally impacted by visual or weather conditions.Internet of Things(IoT)sound sensors were crucial for generating complex environmental parameters to optimize feature extraction.The CNN model achieved high performance in stratified 5-fold cross-validation(92.4%±1.6 accuracy,91.2%±1.8 F1-score)and on test data(94.93%accuracy,93.04%F1-score),with 98.44%precision and 88.32%recall,demonstrating reliability across environmental conditions.These results indicate that the audio-based approach not only improves detection reliability but also markedly reduces computational overhead compared to traditional image-based methods.The findings suggest that acoustic sensing integrated with machine learning offers a powerful,low-cost,and efficient solution for real-time forest fire monitoring in complex,dynamic environments. 展开更多
关键词 audio classification convolutional neural network(CNN) environmental science forest fire detection machine learning spectrogram analysis IOT
在线阅读 下载PDF
Point Cloud Classification Using Content-Based Transformer via Clustering in Feature Space 被引量:7
2
作者 Yahui Liu Bin Tian +2 位作者 Yisheng Lv Lingxi Li Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期231-239,共9页
Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to est... Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to establish relationships between distant but relevant points. To overcome the limitation of local spatial attention, we propose a point content-based Transformer architecture, called PointConT for short. It exploits the locality of points in the feature space(content-based), which clusters the sampled points with similar features into the same class and computes the self-attention within each class, thus enabling an effective trade-off between capturing long-range dependencies and computational complexity. We further introduce an inception feature aggregator for point cloud classification, which uses parallel structures to aggregate high-frequency and low-frequency information in each branch separately. Extensive experiments show that our PointConT model achieves a remarkable performance on point cloud shape classification. Especially, our method exhibits 90.3% Top-1 accuracy on the hardest setting of ScanObjectN N. Source code of this paper is available at https://github.com/yahuiliu99/PointC onT. 展开更多
关键词 content-based Transformer deep learning feature aggregator local attention point cloud classification
在线阅读 下载PDF
Content-Based Hierarchical Analysis of News Video Using Audio and Visual Information
3
作者 Yu Jun-qing Zhou Dong-ru +1 位作者 Jin Ye Liu Hua-yong 《Wuhan University Journal of Natural Sciences》 EI CAS 2001年第4期779-783,共5页
A schema for content-based analysis of broadcast news video is presented. First, we separate commercials from news using audiovisual features. Then, we automatically organize news programs into a content hierarchy at ... A schema for content-based analysis of broadcast news video is presented. First, we separate commercials from news using audiovisual features. Then, we automatically organize news programs into a content hierarchy at various levels of abstraction via effective integration of video, audio, and text data available from the news programs. Based on these news video structure and content analysis technologies, a TV news video Library is generated, from which users can retrieve definite news story according to their demands. 展开更多
关键词 content-based audio news video SEGMENTATION
在线阅读 下载PDF
Software for automated classification of probe-based confocal laser endomicroscopy videos of colorectal polyps 被引量:8
4
作者 Barbara André Tom Vercauteren +3 位作者 Anna M Buchner Murli Krishna Nicholas Ayache Michael B Wallace 《World Journal of Gastroenterology》 SCIE CAS CSCD 2012年第39期5560-5569,共10页
AIM:To support probe-based confocal laser endomi-croscopy (pCLE) diagnosis by designing software for the automated classification of colonic polyps. METHODS:Intravenous fluorescein pCLE imaging of colorectal lesions w... AIM:To support probe-based confocal laser endomi-croscopy (pCLE) diagnosis by designing software for the automated classification of colonic polyps. METHODS:Intravenous fluorescein pCLE imaging of colorectal lesions was performed on patients under-going screening and surveillance colonoscopies, followed by polypectomies. All resected specimens were reviewed by a reference gastrointestinal pathologist blinded to pCLE information. Histopathology was used as the criterion standard for the differentiation between neoplastic and non-neoplastic lesions. The pCLE video sequences, recorded for each polyp, were analyzed off-line by 2 expert endoscopists who were blinded to the endoscopic characteristics and histopathology. These pCLE videos, along with their histopathology diagnosis, were used to train the automated classification software which is a content-based image retrieval technique followed by k-nearest neighbor classification. The performance of the off-line diagnosis of pCLE videos established by the 2 expert endoscopists was compared with that of automated pCLE software classification. All evaluations were performed using leave-one-patient- out cross-validation to avoid bias. RESULTS:Colorectal lesions (135) were imaged in 71 patients. Based on histopathology, 93 of these 135 lesions were neoplastic and 42 were non-neoplastic. The study found no statistical significance for the difference between the performance of automated pCLE software classification (accuracy 89.6%, sensitivity 92.5%, specificity 83.3%, using leave-one-patient-out cross-validation) and the performance of the off-line diagnosis of pCLE videos established by the 2 expert endoscopists (accuracy 89.6%, sensitivity 91.4%, specificity 85.7%). There was very low power (< 6%) to detect the observed differences. The 95% confidence intervals for equivalence testing were:-0.073 to 0.073 for accuracy, -0.068 to 0.089 for sensitivity and -0.18 to 0.13 for specificity. The classification software proposed in this study is not a "black box" but an informative tool based on the query by example model that produces, as intermediate results, visually similar annotated videos that are directly interpretable by the endoscopist. CONCLUSION:The proposed software for automated classification of pCLE videos of colonic polyps achieves high performance, comparable to that of off-line diagnosis of pCLE videos established by expert endoscopists. 展开更多
关键词 Colorectal neoplasia Computer-aided diag-nosis content-based image retrieval Nearest neigh-bor classification software Probe-based confocal laserendomicroscopy
暂未订购
Indexing of Content-Based Image Retrieval System with Image Understanding Approach
5
作者 李学龙 刘政凯 俞能海 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2003年第2期63-68,共6页
This paper presents a novel efficient semantic image classification algorithm for high-level feature indexing of high-dimension image database. Experiments show that the algorithm performs well. The size of the train ... This paper presents a novel efficient semantic image classification algorithm for high-level feature indexing of high-dimension image database. Experiments show that the algorithm performs well. The size of the train set and the test set is 7 537 and 5 000 respectively. Based on this theory, another ground is built with 12,000 images, which are divided into three classes: city, landscape and person, the total result of the classifications is 88.92%, meanwhile, some preliminary results are presented for image understanding based on semantic image classification and low level features. The groundtruth for the experiments is built with the images from Corel database, photos and some famous face databases. 展开更多
关键词 content-based image retrieval Image classification Image indexing.
在线阅读 下载PDF
Decision fusion-based approach for content-based image classification
6
作者 Sudeep Thepade Rik Das Saurav Ghosh 《International Journal of Intelligent Computing and Cybernetics》 EI 2017年第3期310-331,共22页
Purpose–Current practices in data classification and retrieval have experienced a surge in the use of multimedia content.Identification of desired information from the huge image databases has been facing increased c... Purpose–Current practices in data classification and retrieval have experienced a surge in the use of multimedia content.Identification of desired information from the huge image databases has been facing increased complexities for designing an efficient feature extraction process.Conventional approaches of image classification with text-based image annotation have faced assorted limitations due to erroneous interpretation of vocabulary and huge time consumption involved due to manual annotation.Content-based image recognition has emerged as an alternative to combat the aforesaid limitations.However,exploring rich feature content in an image with a single technique has lesser probability of extract meaningful signatures compared to multi-technique feature extraction.Therefore,the purpose of this paper is to explore the possibilities of enhanced content-based image recognition by fusion of classification decision obtained using diverse feature extraction techniques.Design/methodology/approach–Three novel techniques of feature extraction have been introduced in this paper and have been tested with four different classifiers individually.The four classifiers used for performance testing were K nearest neighbor(KNN)classifier,RIDOR classifier,artificial neural network classifier and support vector machine classifier.Thereafter,classification decisions obtained using KNN classifier for different feature extraction techniques have been integrated by Z-score normalization and feature scaling to create fusion-based framework of image recognition.It has been followed by the introduction of a fusion-based retrieval model to validate the retrieval performance with classified query.Earlier works on content-based image identification have adopted fusion-based approach.However,to the best of the authors’knowledge,fusion-based query classification has been addressed for the first time as a precursor of retrieval in this work.Findings–The proposed fusion techniques have successfully outclassed the state-of-the-art techniques in classification and retrieval performances.Four public data sets,namely,Wang data set,Oliva and Torralba(OT-scene)data set,Corel data set and Caltech data set comprising of 22,615 images on the whole are used for the evaluation purpose.Originality/value–To the best of the authors’knowledge,fusion-based query classification has been addressed for the first time as a precursor of retrieval in this work.The novel idea of exploring rich image features by fusion of multiple feature extraction techniques has also encouraged further research on dimensionality reduction of feature vectors for enhanced classification results. 展开更多
关键词 classification Information fusion content-based feature extraction RETRIEVAL
在线阅读 下载PDF
基于多模态融合Transformer的视听广义零次学习方法 被引量:1
7
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
基于双重注意力机制的多尺度端到端音频分类网络
8
作者 何儒汉 周何顺 《软件导刊》 2025年第12期91-97,共7页
端到端音频分类架构在解决提取不同种类声音特征的难题上具有优势。然而,传统的端到端模型往往忽略了音频特征在时域上的时间关系,而更加注重特征形状的变换。为解决这一问题,设计一种具有多尺度架构的端到端网络,以促进不同时间粒度音... 端到端音频分类架构在解决提取不同种类声音特征的难题上具有优势。然而,传统的端到端模型往往忽略了音频特征在时域上的时间关系,而更加注重特征形状的变换。为解决这一问题,设计一种具有多尺度架构的端到端网络,以促进不同时间粒度音频特征之间的通信,并根据多尺度网络的不同阶段引入双重注意力机制。即在多尺度特征构建阶段引入时域内注意力机制,在深层次的特征学习阶段引入时域间注意力机制,以增强不同时间尺度特征之间的信息流动与信息融合。在双重注意力机制中,前者试图增强模型在相同时间粒度内的特征学习能力,后者则促进不同时间粒度特征之间的交互。该方法在ESC-50、Urbansound8k与SpeechcommandV2数据集上的分类准确率较基线模型分别提升了1.55%、2.7%和0.3%。该研究为音频分类任务中的多尺度时域特征建模提供了新思路。 展开更多
关键词 端到端音频分类 多尺度 时域内注意力机制 时域间注意力机制
在线阅读 下载PDF
基于相似度融合和GCN的音频分类模型 被引量:1
9
作者 何敏捷 陈宁 林家骏 《计算机应用与软件》 北大核心 2025年第5期116-121,197,共7页
为了充分利用样本间基于不同音频特征的相似度表示的拓扑结构特性的互补性,提出一种基于相似度融合和GCN的音频分类模型。分别利用基于CNN14和DenseNet的网络提取输入音频的特征,并进行音频类别的预测;利用相似度网络融合模型对基于以... 为了充分利用样本间基于不同音频特征的相似度表示的拓扑结构特性的互补性,提出一种基于相似度融合和GCN的音频分类模型。分别利用基于CNN14和DenseNet的网络提取输入音频的特征,并进行音频类别的预测;利用相似度网络融合模型对基于以上两个网络获得的预测标签向量的相似度进行非线性融合;分别用DenseNet提取的特征和融合相似度网络对GCN的节点特征和邻接矩阵进行初始化,通过GCN进行节点特征优化以提升音频分类准确性。实验结果表明,在不同的音频分类任务中,该模型相比于基线模型取得了更高的分类准确率,且基于SNF的相似度融合模块和基于GCN的分类模块均对模型性能的提升有贡献。 展开更多
关键词 特征融合 图卷积网络 相似度网络融合 深度学习 音频分类
在线阅读 下载PDF
针对音频分类的跨表征可迁移对抗样本生成方法 被引量:1
10
作者 田梓琳 龙云飞 +1 位作者 田野 张立国 《网络与信息安全学报》 2025年第2期125-135,共11页
对抗样本是检测深度神经网络漏洞的重要手段。可迁移性是对抗样本的一种特有属性,赋予其欺骗未知深度神经网络模型的能力。针对音频分类任务的迁移攻击方法引起了广泛讨论。然而,现有的针对音频分类的攻击方法大多数只考虑单一的音频表... 对抗样本是检测深度神经网络漏洞的重要手段。可迁移性是对抗样本的一种特有属性,赋予其欺骗未知深度神经网络模型的能力。针对音频分类任务的迁移攻击方法引起了广泛讨论。然而,现有的针对音频分类的攻击方法大多数只考虑单一的音频表征,忽略了音频对抗样本从一维时域波形到二维梅尔谱图的可迁移性。以波形分类模型作为替代模型生成的对抗样本无法成功攻击以梅尔谱图作为输入的模型。针对这一问题,提出针对音频分类的跨表征可迁移对抗样本生成方法,通过线性组合两个以不同表征为输入的替代模型的损失训练生成网络,使其能够生成具有跨表征和跨模型可迁移性的音频对抗样本。同时,通过减少两个替代模型之间的预测差异,进一步增强对抗样本跨表征可迁移性。此外,利用生成网络输出对抗性的训练替代模型,同步优化替代模型鲁棒性来提高对抗样本的跨模型可迁移性。在UrbanSound8k和ShipsEar数据集上的大量实验结果表明,所提方法可以提高对抗样本的跨表征可迁移性,并显著优于现有的迁移攻击。 展开更多
关键词 对抗样本 迁移攻击 音频分类攻击 跨表征
在线阅读 下载PDF
基于系统分类学信息的鸟类音频零样本分类
11
作者 谢珊珊 张军国 +1 位作者 谢将剑 张长春 《林业科学》 北大核心 2025年第2期12-20,共9页
【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,以减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,也为开放环境中的生态监测和物种分布变化分析提... 【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,以减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,也为开放环境中的生态监测和物种分布变化分析提供参考。【方法】利用反映鸟类系统发育关系的系统分类学信息作为声音类的物种类别辅助信息,以预训练的RoBERTa文本编码器和HTSAT音频编码器分别提取系统分类学信息的语义嵌入和鸟类音频的声学嵌入,通过对比学习方法计算语义嵌入和声学嵌入的相似度,构建鸟类对比语言-音频预训练模型(CLAP-Bird),然后基于零样本类的物种类别辅助信息和CLAP-Bird模型实现零样本分类。【结果】在一个包含725 h的大型不平衡鸟类音频数据集上训练和评估了所提出的方法,在5个不同的8~10个类别的测试集上获得的平均F1_score为0.289,与以鸟类学名、鸟类生活史和基础特性信息作为物种类别辅助信息的基线模型相比,本文提出的模型对鸟类音频零样本分类性能明显提升。【结论】鸟类的系统分类学信息作为物种类别辅助信息,提供了关于鸟类的生物学遗传信息,有助于模型更好地理解鸟类鸣声之间的关系,提升了鸟类音频零样本学习的性能。且训练集与测试集的系统分类学关系越接近,则对测试集的零样本分类性能越好。 展开更多
关键词 鸟类音频分类 零样本学习 系统分类学信息 物种类别辅助信息 对比学习
在线阅读 下载PDF
声景识音:数字化时代声学场景分类的探索与前沿 被引量:1
12
作者 庞鑫 葛凤培 李艳玲 《计算机工程》 北大核心 2025年第6期1-19,共19页
声学场景分类(ASC)旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法的快速进步,近年来ASC任务也涌现出一系列新算法和新技术。为了全面展示该领域的技... 声学场景分类(ASC)旨在让计算机模拟人类听觉识别不同的声学环境,是计算机听觉领域中具有挑战性的任务之一。随着智能音频处理技术以及神经网络学习算法的快速进步,近年来ASC任务也涌现出一系列新算法和新技术。为了全面展示该领域的技术发展脉络和演进过程,梳理了该领域的早期工作和近期发展,全面介绍了ASC任务。首先描述了ASC的应用场景和面临的挑战;其次详细介绍了ASC的主流框架,重点阐述了应用于此领域的深度学习算法;然后系统性地总结了ASC的前沿探索与延伸任务以及公开数据集;最后对ASC的发展趋势进行探讨与展望。 展开更多
关键词 声学场景分类 深度学习 音频分类 语音识别 数据增强
在线阅读 下载PDF
时空变化注意力机制图神经网络的音频事件分类研究
13
作者 张墨华 刘霁 《现代信息科技》 2025年第16期57-62,69,共7页
音频事件分类在复杂场景下面临挑战,现有方法难以深度挖掘时序关系。为此,文章提出基于时空变化注意力机制的图神经网络(STVA-GNN),将音视频片段建模为时序图节点,并通过负数注意力机制计算相邻节点间的时空变化特征,强化模态内与跨模... 音频事件分类在复杂场景下面临挑战,现有方法难以深度挖掘时序关系。为此,文章提出基于时空变化注意力机制的图神经网络(STVA-GNN),将音视频片段建模为时序图节点,并通过负数注意力机制计算相邻节点间的时空变化特征,强化模态内与跨模态动态信息交互。核心创新包括:时空变化信息补偿模块(CICM)捕捉时空演化规律,跨模态图变化激励模块(CMGVI)利用视频模态的时空变化增强音频节点权重,实现深度融合。实验表明,STVA-GNN在AudioSet数据集上mAP和AUC分别达0.56和0.94,优于主流方法,并在噪声环境下保持优势,验证其鲁棒性。 展开更多
关键词 音频事件分类 时空变化注意力机制 时序图神经网络 变化信息补偿 跨模态信息融合
在线阅读 下载PDF
(CS)AMT法在深埋长隧洞勘察中的应用效果评价
14
作者 李刚 李建超 《水利水电工程设计》 2025年第2期54-57,共4页
新疆一项跨流域调水工程全长40余千米,最大埋深超过2200 m,属深埋长隧洞。工作区内山区最高海拔超过4500 m,高差大,切割严重,自然条件险恶,勘察工作条件恶劣,不利于钻探、洞探等勘探手段开展。(可控源)音频大地电磁法(以下称(CS)AMT法)... 新疆一项跨流域调水工程全长40余千米,最大埋深超过2200 m,属深埋长隧洞。工作区内山区最高海拔超过4500 m,高差大,切割严重,自然条件险恶,勘察工作条件恶劣,不利于钻探、洞探等勘探手段开展。(可控源)音频大地电磁法(以下称(CS)AMT法)具有探测深度大、受地形影响较小、对低阻分辨率高、适用性较强等优点,在工程、资源等勘察领域得到了广泛的应用。本工程隧洞Ⅳ标段主洞段自2015年开始开展(CS)AMT法探测工作,经不断调整、优化,于2018年结束相关探测工作,累计探测10.98 km,依据探测成果对洞身附近不良地质体及围岩类别做出了推测。截止2022年11月,已完成7.85 km的开挖工作。现将已开挖洞段的实际地质状况与(CS)AMT法成果进行对比评价,得出(CS)AMT法探测准确率,并分析了影响(CS)AMT法电阻率变化的相关因素。 展开更多
关键词 深埋长隧洞 (CS)AMT法 不良地质体 围岩类别 对比评价
在线阅读 下载PDF
基于支持向量机的音频分类与分割 被引量:13
15
作者 白亮 老松杨 +1 位作者 陈剑赟 吴玲达 《计算机科学》 CSCD 北大核心 2005年第4期87-90,F004,共5页
音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音... 音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音的语音。在分类的基础上,采用3个平滑规则对分类结果进行平滑。分析了SVM分类器的分类性能,同时也评估了本文提出的新的音频特征在SVM分类器上的分类效果。实验结果显示,基于SVM的音频分类算法分类效果良好,平滑处理后的音频分割结果比较准确。 展开更多
关键词 支持向量机(SVM) 统计学习方法 分类算法 分类效果 基于内容 视频检索 结果比较 音频分割 平滑处理 基础 语音 噪音
在线阅读 下载PDF
一种新的基于分类的音频流分割方法 被引量:10
16
作者 张一彬 周杰 +1 位作者 边肇祺 张大鹏 《电子学报》 EI CAS CSCD 北大核心 2006年第4期612-617,共6页
很多传统的音频流分割方法都是基于小尺度音频分类的,它们普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.我们的研究表明,大尺度音频片段的分类正确率明显高于小尺度音频片段的分类正确率.基于这个事实和减少虚假分割点的目的... 很多传统的音频流分割方法都是基于小尺度音频分类的,它们普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.我们的研究表明,大尺度音频片段的分类正确率明显高于小尺度音频片段的分类正确率.基于这个事实和减少虚假分割点的目的,我们提出了一种新的基于分类的音频流分割方法.首先,采用基于大尺度分类的分割方法对音频流进行粗分割,然后采用基于小尺度分类的细分割步骤在边界区域中进一步精确定位分割点.理论分析和实验结果均表明,当处理类别变换频率较低的音频流时,这种分割方法在保持真实分割点检测率的同时能够大幅降低虚假分割率. 展开更多
关键词 音频分类 音频分割 虚假分割 神经网络
在线阅读 下载PDF
一种基于内容的音频流二级分割方法 被引量:7
17
作者 张一彬 周杰 +1 位作者 边肇祺 张大鹏 《计算机学报》 EI CSCD 北大核心 2006年第3期457-465,共9页
基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音... 基于内容的音频流分割是多媒体数据分析领域中的一个十分重要和困难的问题.目前大多数传统的音频流分割方法是基于小尺度音频分类的,但是这类分割方法普遍存在虚假分割点过多的缺点,严重影响了实际应用的效果.作者的研究表明,大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关.基于这个事实和减少虚假分割点的目的,作者提出了一种新的音频流分割方法.首先,采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点.实验结果表明这种音频流分割方法可以比较精确地获取分割点位置,同时将虚假分割点减少到传统方法的四分之一. 展开更多
关键词 音频分类 音频流分割 分割点评价函数 虚假分割 神经网络
在线阅读 下载PDF
音频信息检索研究现状与发展趋势 被引量:3
18
作者 万旺根 常辽豫 +2 位作者 余小清 崔滨 刘晗 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第4期363-370,共8页
在信息化和网络化时代,音频已成为网络信息传输的主要媒体之一.如何从大量的音频信息流中进行快速高效的内容检索以获得所需要的内容已经成为现代社会急需解决的问题,并已发展成为学术界的一个重要研究方向.该文就音频信息检索研究现状... 在信息化和网络化时代,音频已成为网络信息传输的主要媒体之一.如何从大量的音频信息流中进行快速高效的内容检索以获得所需要的内容已经成为现代社会急需解决的问题,并已发展成为学术界的一个重要研究方向.该文就音频信息检索研究现状及发展趋势对音频检索的概念和方法进行了阐述,并重点对基于内容的音频信息检索的关键技术和方法进行了讨论. 展开更多
关键词 听觉感知特征 音频分割 音频分类 音频信息检索
在线阅读 下载PDF
基于隐马尔可夫模型的音频自动分类 被引量:47
19
作者 卢坚 陈毅松 +1 位作者 孙正兴 张福炎 《软件学报》 EI CSCD 北大核心 2002年第8期1593-1597,共5页
音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一,它在基于内容的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值.由于隐马尔可夫模型能够很好地刻画音频信号的时间统计特性,因此... 音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一,它在基于内容的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值.由于隐马尔可夫模型能够很好地刻画音频信号的时间统计特性,因此,提出一种基于隐马尔可夫模型的音频分类算法,用于语音、音乐以及它们的混合声音的分类.实验结果表明,隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%. 展开更多
关键词 隐马尔可夫模型 音频自动分类 向量量化 MFCC 语音信号处理
在线阅读 下载PDF
音频自动分类中的特征分析和抽取 被引量:13
20
作者 白亮 老松杨 +1 位作者 陈剑赟 吴玲达 《小型微型计算机系统》 CSCD 北大核心 2005年第11期2029-2034,共6页
音频特征分析和抽取是音频自动分类的基础,本文将音频对象分为静音,噪音,纯语音,带背景音语音,音乐等5类,从帧层次和段层次上深入分析了不同类音频之间的区别性特征,包括帧层次上的MFCC,频域能量,子带能量,过零率,频谱中心等特征,在此... 音频特征分析和抽取是音频自动分类的基础,本文将音频对象分为静音,噪音,纯语音,带背景音语音,音乐等5类,从帧层次和段层次上深入分析了不同类音频之间的区别性特征,包括帧层次上的MFCC,频域能量,子带能量,过零率,频谱中心等特征,在此基础上计算了段层次上的基本音频特征,包括静音比率,子带能量比均值等,提出了3个音频"流"特征—High-ZCR比率,Low-Frequency-Energy比率,频谱流量.设计并实现了一种基于支持向量机(support vector machine)的自动分类器,考察了上述特征组成的特征集合在该分类器中的分类性能.实验表明,本文提出的特征有效,分类性能良好. 展开更多
关键词 特征分析和抽取 基于内容的音频分类 支持向量机
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部