期刊文献+
共找到1,086篇文章
< 1 2 55 >
每页显示 20 50 100
Noise Removal in Speech Processing Using Spectral Subtraction 被引量:5
1
作者 Marc Karam Hasan F. Khazaal +1 位作者 Heshmat Aglan Cliston Cole 《Journal of Signal and Information Processing》 2014年第2期32-41,共10页
Spectral subtraction is used in this research as a method to remove noise from noisy speech signals in the frequency domain. This method consists of computing the spectrum of the noisy speech using the Fast Fourier Tr... Spectral subtraction is used in this research as a method to remove noise from noisy speech signals in the frequency domain. This method consists of computing the spectrum of the noisy speech using the Fast Fourier Transform (FFT) and subtracting the average magnitude of the noise spectrum from the noisy speech spectrum. We applied spectral subtraction to the speech signal “Real graph”. A digital audio recorder system embedded in a personal computer was used to sample the speech signal “Real graph” to which we digitally added vacuum cleaner noise. The noise removal algorithm was implemented using Matlab software by storing the noisy speech data into Hanning time-widowed half-overlapped data buffers, computing the corresponding spectrums using the FFT, removing the noise from the noisy speech, and reconstructing the speech back into the time domain using the inverse Fast Fourier Transform (IFFT). The performance of the algorithm was evaluated by calculating the Speech to Noise Ratio (SNR). Frame averaging was introduced as an optional technique that could improve the SNR. Seventeen different configurations with various lengths of the Hanning time windows, various degrees of data buffers overlapping, and various numbers of frames to be averaged were investigated in view of improving the SNR. Results showed that using one-fourth overlapped data buffers with 128 points Hanning windows and no frames averaging leads to the best performance in removing noise from the noisy speech. 展开更多
关键词 speech processing Spectral SUBTRACTION Noise Removal FAST FOURIER TRANSFORM INVERSE FAST FOURIER TRANSFORM
在线阅读 下载PDF
AN ANALYSIS OF ACOUSTIC CHARACTERISTICS OFCLEFT PALATE SPEECH WITH COMPUTERIZED SPEECH SIGNAL PROCESSING SYSTEM 被引量:1
2
作者 李锦峰 刘建华 《Journal of Pharmaceutical Analysis》 CAS 1996年第2期162-165,共4页
The acoustic characteristics or the chinese vowels of 24 children with cleft palate and 10 normal control children were analyzed by computerized speech signal processing system (CSSPS),and the speech articulation was ... The acoustic characteristics or the chinese vowels of 24 children with cleft palate and 10 normal control children were analyzed by computerized speech signal processing system (CSSPS),and the speech articulation was judged with Glossary of clert palate speech(GCPS).The listening judgement showed that the speech articulation was significantly different between the two groups(P<0.01).The objective quantitative measurement suggested that the formant pattern(FP)of vowels in children with cleft palate was different from that of normal control children except vowel[a](P< 0.05).The acoustic vowelgraph or the Chinese vowels which demonstrated directly the relationship of vocal space and speech perception was stated with the first formant frequence(F1)and the second formant frequence(F2).The authors conclude that the values or F1 and F2 point out the upward and backward tongue movement to close the clert, which reflects the vocal characteristics of trausmission of clert palate speech. 展开更多
关键词 cleft palate speech the Chinese vowels the formant pattern the speech articulation computerized speech singnal processing system
暂未订购
基于遗传算法的FIR数字滤波器的优化设计 被引量:1
3
作者 徐开军 《信息化研究》 2025年第1期37-42,共6页
传统的FIR数字滤波器设计方法,往往依赖于设计者的经验和对特定函数的选择,在面对复杂的滤波指标要求时,难以实现全局最优的设计结果。遗传算法作为一种模拟自然进化过程的随机搜索算法,具有强大的全局优化能力,能够在复杂的解空间中有... 传统的FIR数字滤波器设计方法,往往依赖于设计者的经验和对特定函数的选择,在面对复杂的滤波指标要求时,难以实现全局最优的设计结果。遗传算法作为一种模拟自然进化过程的随机搜索算法,具有强大的全局优化能力,能够在复杂的解空间中有效地搜索到接近最优的解,将遗传算法应用于FIR数字滤波器的设计中,为解决传统设计方法的局限性提供了新的途径。本文深入研究了基于遗传算法的FIR数字滤波器优化设计方法,阐述了其设计流程,并通过实例验证了该方法相较于传统设计方法的优势。 展开更多
关键词 数字滤波器 频率采样法 遗传算法 语音处理
在线阅读 下载PDF
A Multi-Band Speech Enhancement Algorithm Exploiting Iterative Processing for Enhancement of Single Channel Speech
4
作者 Navneet Upadhyay Abhijit Karmakar 《Journal of Signal and Information Processing》 2013年第2期197-211,共15页
This paper proposes a multi-band speech enhancement algorithm exploiting iterative processing for enhancement of single channel speech. In the proposed algorithm, the output of the multi-band spectral subtraction (MBS... This paper proposes a multi-band speech enhancement algorithm exploiting iterative processing for enhancement of single channel speech. In the proposed algorithm, the output of the multi-band spectral subtraction (MBSS) algorithm is used as the input signal again for next iteration process. As after the first MBSS processing step, the additive noise transforms to the remnant noise, the remnant noise needs to be further re-estimated. The proposed algorithm reduces the remnant musical noise further by iterating the enhanced output signal to the input again and performing the operation repeatedly. The newly estimated remnant noise is further used to process the next MBSS step. This procedure is iterated a small number of times. The proposed algorithm estimates noise in each iteration and spectral over-subtraction is executed independently in each band. The experiments are conducted for various types of noises. The performance of the proposed enhancement algorithm is evaluated for various types of noises at different level of SNRs using, 1) objective quality measures: signal-to-noise ratio (SNR), segmental SNR, perceptual evaluation of speech quality (PESQ);and 2) subjective quality measure: mean opinion score (MOS). The results of proposed enhancement algorithm are compared with the popular MBSS algorithm. Experimental results as well as the objective and subjective quality measurement test results confirm that the enhanced speech obtained from the proposed algorithm is more pleasant to listeners than speech enhanced by classical MBSS algorithm. 展开更多
关键词 speech ENHANCEMENT MULTI-BAND Spectral SUBTRACTION Iterative processing REMNANT MUSICAL Noise
在线阅读 下载PDF
口译教育的信息化与现代化——读《口译教学语料库深度加工机制研究》
5
作者 冯曼 汪雅诗 《中国科技翻译》 2025年第1期62-64,55,共4页
信息技术的快速发展正推动口译教育进行创新性转型。口译教育信息化已成为推动口译教育发展的核心动力,其中语料库在口译教学和研究中发挥着关键作用。邓军涛所著《口译教学语料库深度加工机制研究》是一部系统探讨口译教育信息化建设... 信息技术的快速发展正推动口译教育进行创新性转型。口译教育信息化已成为推动口译教育发展的核心动力,其中语料库在口译教学和研究中发挥着关键作用。邓军涛所著《口译教学语料库深度加工机制研究》是一部系统探讨口译教育信息化建设的重要著作。本文基于该书内容,深入探讨口译教学语料库的深度加工机制及相关研究课题,为口译教育的现代化发展提供思路。 展开更多
关键词 口译教育 语料库 深度加工 信息化 现代化
原文传递
基于核函数领域自适应的语音单声源DOA分类
6
作者 刘明民 章联军 +1 位作者 叶庆卫 陆志华 《宁波大学学报(理工版)》 2025年第3期43-51,共9页
鉴于训练和测试阶段存在不同的噪声或混响环境,并且由于真实数据的稀缺会降低语音声源到达方向(Direction of Arrival, DOA)的分类准确性,因此提出一种基于核函数领域自适应的机器学习DOA分类算法。通过优化结构风险函数和减小域之间的... 鉴于训练和测试阶段存在不同的噪声或混响环境,并且由于真实数据的稀缺会降低语音声源到达方向(Direction of Arrival, DOA)的分类准确性,因此提出一种基于核函数领域自适应的机器学习DOA分类算法。通过优化结构风险函数和减小域之间的条件分布差异,实现对训练数据的适应性学习,从而提升测试数据的分类准确率。实验结果证明在中小型数据集中,新算法在各种声学条件下均明显优于对比的深度学习算法。 展开更多
关键词 语音信号处理 分类 核函数 领域自适应 机器学习
在线阅读 下载PDF
AIGC赋能播音主持语音处理与合成的分析 被引量:1
7
作者 陈曦 《电声技术》 2025年第6期79-81,共3页
分析人工智能生成内容(Artificial Intelligence Generated Content,AIGC)赋能播音主持语音处理与合成,通过资料搜集、理论分析,阐述AIGC技术特征与模式,围绕语音识别与转写、语音增强与修复、数据分析与挖掘讨论AIGC在播音主持语音处... 分析人工智能生成内容(Artificial Intelligence Generated Content,AIGC)赋能播音主持语音处理与合成,通过资料搜集、理论分析,阐述AIGC技术特征与模式,围绕语音识别与转写、语音增强与修复、数据分析与挖掘讨论AIGC在播音主持语音处理中的应用方法。同时,围绕语音合成与克隆、语音定制与转换、文本分析与优化讨论AIGC在播音主持语音合成中的应用方法。AIGC技术的灵活应用,能够有效提升播音主持语音处理与合成质量、效率,提高播音主持水平。 展开更多
关键词 人工智能生成内容(AIGC) 播音主持 语音处理 语音合成
在线阅读 下载PDF
深度学习在解码大脑语音信息中的应用
8
作者 杨淑淇 谭颖 《西南民族大学学报(自然科学版)》 2025年第3期315-322,共8页
医疗保健和神经科学界长期致力于从大脑活动中解码语言信息.脑机接口在支持获得性脑损伤患者通过大脑信号重新与周围环境建立交流方面获得了突破性进展.然而,获取脑信号的方式无法长期地维持且提取到的脑信号中存在大量噪声,因此提高数... 医疗保健和神经科学界长期致力于从大脑活动中解码语言信息.脑机接口在支持获得性脑损伤患者通过大脑信号重新与周围环境建立交流方面获得了突破性进展.然而,获取脑信号的方式无法长期地维持且提取到的脑信号中存在大量噪声,因此提高数据的信噪比具有重要意义.近年来,人工智能在提取和汇聚大量原始数据特征方面展现出了卓越的性能.总结了一系列基于深度学习从人类大脑信号中解码语音的特征提取技术.首先对这些技术涉及的深度学习方法进行了介绍,接下来对这些技术的具体应用进行了列举,最后对如何更好将人工智能技术应用于解码大脑语音信息做出了展望. 展开更多
关键词 神经元解码 音频和语音处理 深度学习 计算认知科学
在线阅读 下载PDF
基于人工智能的数字媒体内容自动化生成技术研究 被引量:4
9
作者 魏钰 《信息与电脑》 2025年第2期13-15,共3页
随着人工智能技术的迅猛发展,数字媒体内容的自动化生成已成为提高内容生产效率与质量的重要手段。文章深入探讨了自然语言处理(Natural Language Processing,NLP)、计算机视觉和语音合成技术在文本、图像和音频内容生成中的具体应用,... 随着人工智能技术的迅猛发展,数字媒体内容的自动化生成已成为提高内容生产效率与质量的重要手段。文章深入探讨了自然语言处理(Natural Language Processing,NLP)、计算机视觉和语音合成技术在文本、图像和音频内容生成中的具体应用,重点分析了深度学习在内容生成中的关键技术,以及自动化内容生成系统的模型架构与设计方法。通过具体的应用案例,文章展示了这些技术在实际环境中的应用成果,并强调了在技术实现过程中需要克服的关键问题与挑战。 展开更多
关键词 人工智能 数字媒体 语言处理 语音合成
在线阅读 下载PDF
媒资数据智能标签生成方法研究
10
作者 胡阳 严义君 +2 位作者 于俊朋 蒋锴 刘铭洲 《电视技术》 2025年第9期21-25,共5页
围绕媒资数据的智能标签生成方法展开研究,通过构建模块化的后台服务系统,实现对视频、音频、图像及文本等多模态数据中的人物、地点、时间及语义信息等标签的自动提取与结构化生成。系统基于Windows平台开发,集成人脸识别、语音识别、... 围绕媒资数据的智能标签生成方法展开研究,通过构建模块化的后台服务系统,实现对视频、音频、图像及文本等多模态数据中的人物、地点、时间及语义信息等标签的自动提取与结构化生成。系统基于Windows平台开发,集成人脸识别、语音识别、物体检测、光学字符识别(Optical Character Recognition,OCR)及自然语言处理(Natural Language Processing,NLP)等关键技术,利用中间件实现模块协同与统一调度,通过标准超文本传输协议(Hyper Text Transfer Protocol,HTTP)接口提供服务。实验表明,所提方法具有良好的通用性和拓展性,能够准确、快速地生成媒资数据标签,为内容管理、检索及智能分析提供高效支持。 展开更多
关键词 智能标签 媒资处理 人脸识别 语音识别 自然语言处理(NLP)
在线阅读 下载PDF
Speech-Music-Noise Discrimination in Sound Indexing of Multimedia Documents
11
作者 Lamia Bouafif Noureddine Ellouze 《Sound & Vibration》 2018年第6期2-10,共9页
Sound indexing and segmentation of digital documentsespecially in the internet and digital libraries are very useful tosimplify and to accelerate the multimedia document retrieval. Wecan imagine that we can extract mu... Sound indexing and segmentation of digital documentsespecially in the internet and digital libraries are very useful tosimplify and to accelerate the multimedia document retrieval. Wecan imagine that we can extract multimedia files not only bykeywords but also by speech semantic contents. The maindifficulty of this operation is the parameterization and modellingof the sound track and the discrimination of the speech, musicand noise segments. In this paper, we will present aSpeech/Music/Noise indexing interface designed for audiodiscrimination in multimedia documents. The program uses astatistical method based on ANN and HMM classifiers. After preemphasisand segmentation, the audio segments are analysed bythe cepstral acoustic analysis method. The developed system wasevaluated on a database constituted of music songs with Arabicspeech segments under several noisy environments. 展开更多
关键词 speech processing audio indexing training andrecognition
在线阅读 下载PDF
基于音频处理技术的移动应用语音识别系统设计
12
作者 李震 陶亮 何凯霖 《电声技术》 2025年第3期92-96,共5页
设计一种基于音频处理技术的移动应用语音识别系统,结合麦克风阵列、高性能处理器、深度学习模型,实现噪声环境下的高准确率和稳定识别。运行测试结果表明,系统功能稳定、性能优越。
关键词 音频处理 移动应用 语音识别系统
在线阅读 下载PDF
人工智能技术在语音识别中的应用研究 被引量:3
13
作者 商勇 《移动信息》 2025年第1期280-283,共4页
文中概述了人工智能在语音识别领域的应用。首先,追溯了该技术的历史发展,深入探讨了人工智能在语音识别中的核心应用,如深度学习、自然语言处理和多模态集成技术,并讨论了这些技术如何推动性能提升和应用场景的扩展。最后,通过案例分... 文中概述了人工智能在语音识别领域的应用。首先,追溯了该技术的历史发展,深入探讨了人工智能在语音识别中的核心应用,如深度学习、自然语言处理和多模态集成技术,并讨论了这些技术如何推动性能提升和应用场景的扩展。最后,通过案例分析展示了人工智能技术在语音识别领域的实际应用效果。 展开更多
关键词 语音识别 深度学习 自然语言处理 人工智能
在线阅读 下载PDF
基于对数处理机制和时频掩蔽估计的语音增强
14
作者 王显云 窦姗姗 程楚皓 《电子科技》 2025年第1期45-51,72,共8页
针对时频谱模型估计语音不准确的问题,文中提出采用模型变换的方式来获得噪声和语音的对数概率密度函数,同时借助带噪语音、干净语音和噪声之间的对数关系并结合最小均方误差(Minimum Mean Square Error,MMSE)估计理论推导出估计语音对... 针对时频谱模型估计语音不准确的问题,文中提出采用模型变换的方式来获得噪声和语音的对数概率密度函数,同时借助带噪语音、干净语音和噪声之间的对数关系并结合最小均方误差(Minimum Mean Square Error,MMSE)估计理论推导出估计语音对数谱的时频掩模。基于语音和噪声的对数概率分布推导出了一种软掩模,该软掩模可对带噪语音的对数子带进行加权以降低噪声,提高语音估计的准确性。仿真结果表明,与未处理的含噪语音相比,所提方法在噪声抑制方面具有3 dB以上的提升,基于最小均方误差的时频掩模和软掩模在听觉感知方面的平均提升量分别为27.7%和29.4%,在可懂度方面的平均提升量分别为12.7%和14.3%。 展开更多
关键词 语音处理 语音增强 对数概率密度函数 时频掩模 噪声抑制 非监督学习 软掩蔽 对数谱
在线阅读 下载PDF
铁路云视频会议系统人工智能技术融合应用方案研究
15
作者 毛健 《铁道通信信号》 2025年第8期58-64,共7页
铁路云视频会议系统在铁路日常生产和运营中发挥着重要作用。通过对当前铁路云视频会议系统进行调研分析,发现系统存在功能单一、智能化程度低等问题。结合系统使用需求,提出一种现实可行的技术方案:在既有铁路云视频会议系统的内部服... 铁路云视频会议系统在铁路日常生产和运营中发挥着重要作用。通过对当前铁路云视频会议系统进行调研分析,发现系统存在功能单一、智能化程度低等问题。结合系统使用需求,提出一种现实可行的技术方案:在既有铁路云视频会议系统的内部服务网络和外部服务网络分别增设业务应用服务器、存储服务器和计算服务器,在终端接入区增设全景会议相机和麦克风阵列等设备;将基于人工智能的语音处理、图像处理、自然语言处理和多模态融合等技术应用于铁路视频会议系统,实现实时翻译与字幕显示、发言者方位识别、自动纪要生成与分类归档等智能化功能应用;从国产自主可控和系统安全角度对系统主要设备配置提出选型建议。该方案部署后可大幅提升会议效率和系统服务质量,为铁路云视频会议系统未来升级和高质量发展提供技术支撑。 展开更多
关键词 人工智能 云视频会议系统 语音处理 图像处理 自然语言处理 多模态融合
在线阅读 下载PDF
汉语双音节词中声调和音节音段信息的加工
16
作者 王曼 刘帅 +1 位作者 张家欢 布占廷 《心理学探新》 北大核心 2025年第4期331-338,共8页
音韵编码是言语产出中的重要环节,但研究多集中在音段信息加工,超音段信息加工尚未引起足够重视。使用掩蔽启动范式可以探究声调在汉语双音节词音韵编码过程中的作用。实验结果发现:(1)在双音节词编码早期,声调与音节音段的主效应和交... 音韵编码是言语产出中的重要环节,但研究多集中在音段信息加工,超音段信息加工尚未引起足够重视。使用掩蔽启动范式可以探究声调在汉语双音节词音韵编码过程中的作用。实验结果发现:(1)在双音节词编码早期,声调与音节音段的主效应和交互效应显著,共享的声调与音节音段表征显著促进命名;(2)在双音节词编码后期,声调独立效应显著,即当启动词与目标词仅共享声调表征时会促进命名。结果表明,声调作为韵律框架,具有编码稳定性及独立性,但仍受音节音段信息影响,具体表现为双音节词中音节-韵律框架的组合。作为汉语特色的韵律单元,声调的编码方式与WEAVER++模型中的理论一致。 展开更多
关键词 言语产出 声调 音段 心理加工
在线阅读 下载PDF
基于分数阶语谱图的语音信号特征挖掘技术研究
17
作者 李自然 《电视技术》 2025年第9期50-56,共7页
分数阶傅里叶变换(Fractional Fourier Transform,FrFT)在语音信号处理方面具有特异化优势,对网络直播中的音频特征提取具有重要意义。网络直播中的语音信号具有实时性、多样性和情感丰富性等特点,传统的信号处理方法难以满足高质量处... 分数阶傅里叶变换(Fractional Fourier Transform,FrFT)在语音信号处理方面具有特异化优势,对网络直播中的音频特征提取具有重要意义。网络直播中的语音信号具有实时性、多样性和情感丰富性等特点,传统的信号处理方法难以满足高质量处理的需求。FrFT通过在时域和频域之间进行灵活的变换,能够更好地处理非平稳信号,并有效抑制噪声。基于此,分数阶语谱图对特征可视化,展示FrFT在语音增强、情感分析等方面的能力,并讨论其在网络直播中的挑战和发展趋势。 展开更多
关键词 分数阶语谱图 网络直播 语音信号处理 情感分析 噪声抑制
在线阅读 下载PDF
基于扩散梯度指导的在线生成式语音增强
18
作者 李晨达 钱彦旻 《声学学报》 北大核心 2025年第6期1644-1651,共8页
提出了一种基于扩散梯度指导的生成式语音增强方法,该方法可有效解决扩散模型用于语音增强任务时多步推理导致的计算复杂度过高的问题。利用判别式模型快速估计扩散模型推理过程中需要的数据梯度,避免神经网络的复杂运算,使扩散模型可... 提出了一种基于扩散梯度指导的生成式语音增强方法,该方法可有效解决扩散模型用于语音增强任务时多步推理导致的计算复杂度过高的问题。利用判别式模型快速估计扩散模型推理过程中需要的数据梯度,避免神经网络的复杂运算,使扩散模型可以用于实时语音增强。实验结果表明,所提方法不但可以降低计算开销,构建延时50 ms的在线生成式语音增强模型,同时可以改善增强语音的质量。此外,通过语音识别模型提供的数据梯度指导可以改善增强后语音的识别效果。 展开更多
关键词 语音增强 生成式模型 在线处理 扩散模型
原文传递
120例典型发育学龄前儿童的言语声诱发听性脑干反应分析
19
作者 陈碧兰 刘潘婷 +9 位作者 孙钰英 俞欣悦 周佳 李婷钰 徐亚琴 孟黎平 张蕾 钱君 池霞 洪琴 《中国儿童保健杂志》 北大核心 2025年第11期1256-1260,1269,共6页
目的分析不同年龄、性别的典型发育学龄前儿童言语声诱发听性脑干反应(speech-ABR)的特征及其影响因素,了解学龄前儿童听处理能力的发展。方法选取2021年8月参与《学龄前儿童听处理评估量表》南京常模研究中典型发育的120例学龄前儿童进... 目的分析不同年龄、性别的典型发育学龄前儿童言语声诱发听性脑干反应(speech-ABR)的特征及其影响因素,了解学龄前儿童听处理能力的发展。方法选取2021年8月参与《学龄前儿童听处理评估量表》南京常模研究中典型发育的120例学龄前儿童进行speech-ABR测试,分析speech-ABR的年龄、性别差异及影响因素。结果1)4、5、6岁组间C波振幅差异有统计学意义(H=6.950,P<0.05),两两比较示5岁与6岁组间C波振幅差异有统计学意义(P=0.012)。2)男童的V(Z=3.449)、A(Z=2.845)、D(Z=2.111)、F(Z=3.450)、O波(Z=2.856)潜伏期较女童延长(P<0.05);各波振幅受性别影响小(P>0.05)。3)逐步多元线性回归结果显示,男童较女童的V波潜伏期更长(β=0.290),母亲妊娠年龄25~29岁组比≥35岁组V波潜伏期更短(β=-0.219);与足月生产组(≥37周)相比,早产组(<37周)(β=-0.254)C波潜伏期更短;与本科及以上学历组相比,母亲学历(β=-0.200)大专组的V波振幅更小(P<0.05)。结论学龄前儿童speech-ABR存在性别差异,年龄差异较小;母亲妊娠年龄、胎龄、母亲学历可能对脑干编码能力产生影响。 展开更多
关键词 言语诱发听性脑干反应 学龄前儿童 性别差异 听处理
原文传递
基于人工智能的音响扬声器设计研究
20
作者 韩志磊 李荣鹏 《电声技术》 2025年第2期110-112,共3页
探讨人工智能在音响扬声器中的应用,分析语音识别、音频处理及扬声器驱动等模块的工作原理与设计方法,并通过实验验证智能音响扬声器在实际环境下的性能表现。实验结果显示,在不同噪声与混响条件下,智能音响扬声器表现出较高的语音识别... 探讨人工智能在音响扬声器中的应用,分析语音识别、音频处理及扬声器驱动等模块的工作原理与设计方法,并通过实验验证智能音响扬声器在实际环境下的性能表现。实验结果显示,在不同噪声与混响条件下,智能音响扬声器表现出较高的语音识别准确率、低音频处理延迟以及良好的频率响应与低失真,证实了基于人工智能的音响扬声器设计的可行性。 展开更多
关键词 智能音响 语音识别 音频处理
在线阅读 下载PDF
上一页 1 2 55 下一页 到第
使用帮助 返回顶部