期刊文献+
共找到195篇文章
< 1 2 10 >
每页显示 20 50 100
Improved MFCC Features and TWM Model for Speech Emotion Recognition
1
作者 Liyan Zhang Jiaxin Du +1 位作者 Shuang Chen Jiayan Li 《Journal of Harbin Institute of Technology(New Series)》 2025年第6期38-46,共9页
To solve the problem that traditional Mel Frequency Cepstral Coefficient(MFCC)features cannot fully represent dynamic speech features,this paper introduces first⁃order and second⁃order difference on the basis of stati... To solve the problem that traditional Mel Frequency Cepstral Coefficient(MFCC)features cannot fully represent dynamic speech features,this paper introduces first⁃order and second⁃order difference on the basis of static MFCC features to extract dynamic MFCC features,and constructs a hybrid model(TWM,TIM⁃NET(Temporal⁃aware Bi⁃directional Multi⁃scale Network)WGAN⁃GP(Wasserstein Generative Adversarial Network with Gradient Penalty)multi⁃head attention)combining multi⁃head attention mechanism and improved WGAN⁃GP on the basis of TIM⁃NET network.Among them,the multi⁃head attention mechanism not only effectively prevents gradient vanishing,but also allows for the construction of deeper networks that can capture long⁃range dependencies and learn from information at different time steps,improving the accuracy of the model;WGAN⁃GP solves the problem of insufficient sample size by improving the quality of speech sample generation.The experiment results show that this method significantly improves the accuracy and robustness of speech emotion recognition on RAVDESS and EMO⁃DB datasets. 展开更多
关键词 dynamic features speech emotion recognition multi⁃head attention mechanism generative adversarial networks
在线阅读 下载PDF
AN EFFECTIVE LVQ-BASED ALGORITHMFOR ROBUST SPEECH RECOGNITION
2
作者 朱策 关存太 +1 位作者 厉大华 何振亚 《Journal of Southeast University(English Edition)》 EI CAS 1994年第1期9-12,共4页
Dynamic time warping (DTW) and dynamic spectral wafliing (DSW)techniques are introduced into learning vector quantization (LVQ) algorithm to con-struct a “dynamic” Bayes classifier for speech recognition. It can pre... Dynamic time warping (DTW) and dynamic spectral wafliing (DSW)techniques are introduced into learning vector quantization (LVQ) algorithm to con-struct a “dynamic” Bayes classifier for speech recognition. It can preduce highly dis-criminiative “dynamic” reference vectors to represent the temporal and spectral vari-abilities of speech. Recognition experiments on 19 Chinese consonants show that the“dynamic” classifier outperforms the original “static” classifier significantly. 展开更多
关键词 speech recognition NEURAL networks algorithms/learning vectorquantization dynamic time WARPING dynamic spectral WARPING
在线阅读 下载PDF
A Novel Face Recognition Algorithm for Distinguishing Faces with Various Angles 被引量:3
3
作者 Yong-Zhong Lu 《International Journal of Automation and computing》 EI 2008年第2期193-197,共5页
In order to distinguish faces of various angles during face recognition, an algorithm of the combination of approximate dynamic programming (ADP) called action dependent heuristic dynamic programming (ADHDP) and p... In order to distinguish faces of various angles during face recognition, an algorithm of the combination of approximate dynamic programming (ADP) called action dependent heuristic dynamic programming (ADHDP) and particle swarm optimization (PSO) is presented. ADP is used for dynamically changing the values of the PSO parameters. During the process of face recognition, the discrete cosine transformation (DCT) is first introduced to reduce negative effects. Then, Karhunen-Loeve (K-L) transformation can be used to compress images and decrease data dimensions. According to principal component analysis (PCA), the main parts of vectors are extracted for data representation. Finally, radial basis function (RBF) neural network is trained to recognize various faces. The training of RBF neural network is exploited by ADP-PSO. In terms of ORL Face Database, the experimental result gives a clear view of its accurate efficiency. 展开更多
关键词 Face recognition approximate dynamic programming (ADP) particle swarm optimization (PSO)
在线阅读 下载PDF
SVM with discriminative dynamic time alignment 被引量:1
4
作者 王欢良 韩纪庆 李海峰 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2007年第5期598-603,共6页
In the past several years, support vector machines (SVM) have achieved a huge success in many fields, especially in pattern recognition. But the standard SVM cannot deal with length-variable vectors, which is one se... In the past several years, support vector machines (SVM) have achieved a huge success in many fields, especially in pattern recognition. But the standard SVM cannot deal with length-variable vectors, which is one severe obstacle for its applications to some important areas, such as speech recognition and part-of-speech tagging. The paper proposed a novel SVM with discriminative dynamic time alignment ( DDTA - SVM) to solve this problem. When training DDTA - SVM classifier, according to the category information of the training sampies, different time alignment strategies were adopted to manipulate them in the kernel functions, which contributed to great improvement for training speed and generalization capability of the classifier. Since the alignment operator was embedded in kernel functions, the training algorithms of standard SVM were still compatible in DDTA- SVM. In order to increase the reliability of the classification, a new classification algorithm was suggested. The preliminary experimental results on Chinese confusable syllables speech classification task show that DDTA- SVM obtains faster convergence speed and better classification performance than dynamic time alignment kernel SVM ( DTAK - SVM). Moreover, DDTA - SVM also gives higher classification precision compared to the conventional HMM. This proves that the proposed method is effective, especially for confusable length - variable pattern classification tasks 展开更多
关键词 support vector machines dynamic time alignment kernel function speech recognition
在线阅读 下载PDF
Merge-Weighted Dynamic Time Warping for Speech Recognition 被引量:1
5
作者 张湘莉兰 骆志刚 李明 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第6期1072-1082,共11页
Obtaining training material for rarely used English words and common given names from countries where English is not spoken is difficult due to excessive time, storage and cost factors. By considering personal privacy... Obtaining training material for rarely used English words and common given names from countries where English is not spoken is difficult due to excessive time, storage and cost factors. By considering personal privacy, language- independent (LI) with lightweight speaker-dependent (SD) automatic speech recognition (ASR) is a convenient option to solve tile problem. The dynamic time warping (DTW) algorithm is the state-of-the-art algorithm for small-footprint SD ASR for real-time applications with limited storage and small vocabularies. These applications include voice dialing on mobile devices, menu-driven recognition, and voice control on vehicles and robotics. However, traditional DTW has several lhnitations, such as high computational complexity, constraint induced coarse approximation, and inaccuracy problems. In this paper, we introduce the merge-weighted dynamic time warping (MWDTW) algorithm. This method defines a template confidence index for measuring the similarity between merged training data and testing data, while following the core DTW process. MWDTW is simple, efficient, and easy to implement. With extensive experiments on three representative SD speech recognition datasets, we demonstrate that our method outperforms DTW, DTW on merged speech data, the hidden Markov model (HMM) significantly, and is also six times faster than DTW overall. 展开更多
关键词 merge-weighted dynamic time warping natural language processing speech recognition and synthesis tem-plate confidence index
原文传递
基于Speech SDK的语音应用程序实现 被引量:11
6
作者 高敬惠 姜子敬 胡金铭 《广西科学院学报》 2005年第3期169-172,共4页
利用MicrosoftSpeechSDK的APIforText-to-Speech和APIforSpeechRecognition,采用VisualBa-sic6.0语言,建立文本语音转换应用程序和实现语音识别程序,简单地实现了语音识别的功能,识别出来的内容即可保存为文件,也可作为命令使用,让计算... 利用MicrosoftSpeechSDK的APIforText-to-Speech和APIforSpeechRecognition,采用VisualBa-sic6.0语言,建立文本语音转换应用程序和实现语音识别程序,简单地实现了语音识别的功能,识别出来的内容即可保存为文件,也可作为命令使用,让计算机执行某项操作。 展开更多
关键词 应用程序 文本语音转换 语音识别 MICROSOFT speech SDK
在线阅读 下载PDF
基于双分支残差网络的病理语音识别
7
作者 程愉凯 段淑斐 +3 位作者 贾海蓉 李付江 LIANG Huizhi 张卫 《科学技术与工程》 北大核心 2026年第2期663-672,共10页
针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维... 针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维动态像素注意力卷积从位置、通道、滤波和像素多个维度全面捕捉病理特征;提出了双流互补融合模块,通过加权融合后的特征不仅保留了各分支的关键信息,还通过跨维度交互实现了更优的特征表达,提升了病理语音识别的准确率。在中文病理语音数据集THE-POSSD和西方公开病理语音数据集UA-Speech上进行实验,其结果验证了所提算法的有效性和泛化能力。 展开更多
关键词 病理语音识别 构音障碍 残差网络 动态卷积 加权融合 频谱图
在线阅读 下载PDF
结合性别信息的多任务语音情感识别
8
作者 姚佳 李冬冬 王喆 《计算机科学》 北大核心 2026年第1期180-186,共7页
现有的语音情感识别方法通常依赖深度学习模型提取声学特征,但大多仅关注通用特征的建模,未能充分挖掘数据中与情感密切相关的先验知识。为此,提出了一种端到端的多任务学习框架,利用自监督预训练模型WavLM提取包含丰富情感信息的语音特... 现有的语音情感识别方法通常依赖深度学习模型提取声学特征,但大多仅关注通用特征的建模,未能充分挖掘数据中与情感密切相关的先验知识。为此,提出了一种端到端的多任务学习框架,利用自监督预训练模型WavLM提取包含丰富情感信息的语音特征,并将性别识别作为辅助任务,以捕捉性别差异对情感识别的潜在影响。针对传统多任务学习框架中固定权重计算损失导致的学习不均衡问题,进一步提出了一种自适应温度系数的动态权重平均方法(Temperature-aware Dynamic Weight Averaging,TA-DWA)。该方法通过动态调整温度系数平衡不同任务的学习速度,并结合任务损失变化率实现更合理的权重分配。实验结果表明,在IEMOCAP和EMODB数据集上,所提方法显著提高了情感识别准确率,验证了性别识别作为辅助任务的有效性以及动态权重策略在多任务学习中的优势。 展开更多
关键词 语音情感识别 多任务学习 动态权重分配 自监督模型
在线阅读 下载PDF
融合Scratch编程和人工智能的幼儿敏捷实践早教系统研究
9
作者 张涵之 《自动化与仪器仪表》 2026年第1期287-291,共5页
针对传统幼儿编程启蒙工具内容复杂、交互性低以及反馈滞后等问题,研究设计了融合Scratch编程和人工智能的幼儿敏捷实践早教系统。研究首先构建基于人工智能的幼儿语音与行为识别模型,对幼儿的语音行为数据进行采集并判断其意图。在该... 针对传统幼儿编程启蒙工具内容复杂、交互性低以及反馈滞后等问题,研究设计了融合Scratch编程和人工智能的幼儿敏捷实践早教系统。研究首先构建基于人工智能的幼儿语音与行为识别模型,对幼儿的语音行为数据进行采集并判断其意图。在该基础上设计融合Scratch编程和人工智能的幼儿敏捷实践早教系统,驱动数据反馈与敏捷迭代教学内容。结果表明,基于人工智能的幼儿语音与目标识别模型在意图解析上准确率高达92.8%。使用研究所设计的系统后幼儿语音表达能力提升率从第1个月的12.3%提升至第5个月的42.6%,手眼能力则是从10.5%提升至38.4%,该系统能明显提升幼儿的认知和思维能力,激发幼儿的学习积极性。研究通过结合编程工具与人工智能技术,为幼儿提供全新的编程学习方式。 展开更多
关键词 Scratch编程 人工智能 语音识别 目标检测 幼儿早教
原文传递
High-accuracy dynamic gesture recognition:A universal and self-adaptive deep-learning-assisted system leveraging high-performance ionogels-based strain sensors 被引量:1
10
作者 Yuqiong Sun Jinrong Huang +3 位作者 Yan Cheng Jing Zhang Yi Shi Lijia Pan 《SmartMat》 2024年第6期77-91,共15页
Gesture recognition utilizing flexible strain sensors is a highly valuable technology widely applied in human-machine interfaces.However,achieving rapid detection of subtle motions and timely processing of dynamic sig... Gesture recognition utilizing flexible strain sensors is a highly valuable technology widely applied in human-machine interfaces.However,achieving rapid detection of subtle motions and timely processing of dynamic signals remain a challenge for sensors.Here,highly resilient and durable ionogels are developed by introducing micro-scale incompatible phases in macroscopic homogeneous polymeric network.The compatible network disperses in conductive ionic liquid to form highly resilient and stretchable skeleton,while incompatible phase forms hydrogen bonds to dissipate energy thus strengthening the ionogels.The ionogels-derived strain sensors show highly sensitivity,fast response time(<10 ms),low detection limit(~50μm),and remarkable durability(>5000 cycles),allowing for precise monitoring of human motions.More importantly,a self-adaptive recognition program empowered by deep-learning algorithms is designed to compensate for sensors,creating a comprehensive system capable of dynamic gesture recognition.This system can comprehensively analyze both the temporal and spatial features of sensor data,enabling deeper understanding of the dynamic process underlying gestures.The system accurately classifies 10 hand gestures across five participants with impressive accuracy of 93.66%.Moreover,it maintains robust recognition performance without the need for further training even when different sensors or subjects are involved.This technological breakthrough paves the way for intuitive and seamless interaction between humans and machines,presenting significant opportunities in diverse applications,such as human-robot interaction,virtual reality control,and assistive devices for the disabled individuals. 展开更多
关键词 deep-learning algorithms dynamic gesture recognition human-machine interaction ionogels self-adaptive recognition program strain sensors
原文传递
基于多模态视听融合的Transformer语音识别算法研究 被引量:4
11
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
融合动态卷积和注意力机制的多层感知机语音情感识别 被引量:2
12
作者 张雨萌 张欣 +1 位作者 高谋 赵虎林 《计算机科学与探索》 北大核心 2025年第4期1065-1075,共11页
语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息... 语音情感识别技术通过分析语音信号推断说话者情绪,增强人机交互的自然性和智能性。然而,现有模型往往忽视时频语义信息,影响识别准确性。为此,提出了一种融合动态卷积与注意力机制的多层感知机模型,显著提高了情感识别的准确度及信息利用效率。将输入的语音信号转化为梅尔频谱图,捕捉信号细节变化,更贴切地反映人类对声音的感知,为后续特征提取奠定了基础。通过词元化处理将梅尔频谱图转化为词元,降低了数据的复杂性。借助动态卷积与分离注意力机制高效提取关键的时频特征。一方面,动态卷积能够适应不同时间和频率上的尺度变化,优化了特征捕捉效率;另一方面,分离注意力机制增强了模型对关键信息的聚焦能力,有效提升了模型对特征的表达能力。结合动态卷积与分离注意力机制的优势,该模型能够更加充分地提取关键声学特征,从而实现了更高效、更精准的情感识别。在RAVDESS、EmoDB和CASIA三个语音情感数据库上的测试显示,模型识别准确率显著优于现有技术,达到86.11%、95.33%和82.92%。这验证了模型在复杂情感识别任务的高效性和准确性,以及动态卷积和注意力机制的有效性。 展开更多
关键词 语音情感识别 梅尔频谱图 多层感知机 动态卷积 注意力机制
在线阅读 下载PDF
基于动态时间规整与Transformer的连续语音识别与发音校正算法 被引量:1
13
作者 潘桂妹 《现代电子技术》 北大核心 2025年第24期61-66,共6页
针对传统动态时间规整(DTW)算法在大规模语音数据处理中效率低、非特定人识别鲁棒性不足,以及Transformer模型在短时语音时序对齐精度欠佳的问题,提出一种DTW与Transformer融合的连续语音识别与发音校正算法。该算法通过DTW实现短时语... 针对传统动态时间规整(DTW)算法在大规模语音数据处理中效率低、非特定人识别鲁棒性不足,以及Transformer模型在短时语音时序对齐精度欠佳的问题,提出一种DTW与Transformer融合的连续语音识别与发音校正算法。该算法通过DTW实现短时语音帧的精准时序对齐,利用Transformer的多头注意力机制捕捉长时语音序列的全局依赖关系,构建“局部对齐-全局建模”的双层处理架构。在公开语音数据集TIMIT和自建语言学习发音数据集上的实验结果表明:所提算法的连续语音识别词错误率(WER)较传统DTW算法降低18.9%,较单一Transformer模型降低5.7%;发音校正的音素错误检出率达95.3%,实时响应延迟控制在280 ms以内,可以满足语言教育、智能评测等场景的应用需求。 展开更多
关键词 连续语音识别 发音校正 动态时间规整 TRANSFORMER 时序对齐 注意力机制
在线阅读 下载PDF
渐进式表征学习语音情感识别方法CnnPRL
14
作者 樊永红 黄鹤鸣 《计算机应用》 北大核心 2025年第12期3804-3812,共9页
语音情感识别(SER)旨在赋予计算机准确识别语音信号中的情感状态的能力,而如何高效地表征语音中的情感特征一直是SER的研究热点。目前,大多数研究都致力于利用深度学习方法直接从原始语音或语谱图中学习最优特征,这种学习模式可以提取... 语音情感识别(SER)旨在赋予计算机准确识别语音信号中的情感状态的能力,而如何高效地表征语音中的情感特征一直是SER的研究热点。目前,大多数研究都致力于利用深度学习方法直接从原始语音或语谱图中学习最优特征,这种学习模式可以提取到更完整的特征信息,但忽略了对特定特征更深层细化信息的学习,同时不能保证特征的可解释性。为了解决上述问题,提出一种基于卷积神经网络的渐进式表征学习SER方法(CnnPRL),在语音声学特征的基础上利用卷积神经网络(CNN)渐进式地提取具有可解释性的精细化情感特征。首先,手工提取可解释的浅层特征并选择出最优的特征集;其次,提出级联CNN和动态融合结构,以细化浅层特征,并学习深层情感表征;最后,构建并行异构CNN提取不同尺度的互补特征,以利用融合模块实现多特征融合,捕获多粒度特征,并整合来自不同特征尺度的深层情感信息。实验结果表明,在保证时间复杂度的前提下,在数据集IEMOCAP(Interactive EMOtional dyadic motion CAPture database)、CASIA(Institute of Automation,Chinese Academy of Sciences)和EMODB(Berlin EMOtional DataBase)上,相较于SpeechFormer++、TLFMRF(Two-Layer Fuzzy Multiple Random Forest)和TIM-Net(Temporal-aware bI-direction Multi-scale Network)等对比方法,CnnPRL在指标加权平均召回率(WAR)上分别至少取得了0.86、2.92和1.46个百分点的提升,验证了CnnPRL的有效性;消融实验结果验证了CnnPRL的每个模块都有利于提升模型的整体性能。 展开更多
关键词 语音情感识别 渐进式情感表征学习 卷积神经网络 动态融合 多尺度融合
在线阅读 下载PDF
基于Scratch的高能效人工智能语言教学系统构建
15
作者 祝带君 张伟明 《自动化与仪器仪表》 2025年第2期266-269,274,共5页
针对传统中文语言教学方法存在智能化水平低,导致教学效果不佳的问题,提出构建一个基于Scratch的高能效人工智能语言教学系统。首先,采用树莓派3b+控制模块作为系统硬件主控芯片;然后利用Scratch编程平台和对应插件设计一个语音智能点灯... 针对传统中文语言教学方法存在智能化水平低,导致教学效果不佳的问题,提出构建一个基于Scratch的高能效人工智能语言教学系统。首先,采用树莓派3b+控制模块作为系统硬件主控芯片;然后利用Scratch编程平台和对应插件设计一个语音智能点灯;最后在语音识别模块中构建一个基于GMM-HMM的声学模型,通过其实现各种语音命令的准确识别。实验结果表明,本系统对两段中文语音文段识别的词错误率WER仅为15.06%,传统的Bi LSTM-CTC的词错误率WER取值为36.71%,本系统高出了21.65%。由此说明,本系统对中文语音文段的识别精度更高,满足中文语言教学智能化需求,中文语言教学效果和趣味性显著提升。 展开更多
关键词 Scratch编程 STM32控制 GMM-HMM 教学系统 语音识别
原文传递
室内自动导航机器人的语音容错识别仿真
16
作者 张萍萍 杜国庆 董明星 《计算机仿真》 2025年第5期433-437,共5页
受发音习惯、语速、重口音、方言等影响,不同人的语音特征存在较大的差异,机器人较难理解人类的语音指令,影响室内自动导航机器人的应用效果。因此,提出室内自动导航机器人语音容错识别方法。通过计算LPC倒谱系数间接表征语音信号的信... 受发音习惯、语速、重口音、方言等影响,不同人的语音特征存在较大的差异,机器人较难理解人类的语音指令,影响室内自动导航机器人的应用效果。因此,提出室内自动导航机器人语音容错识别方法。通过计算LPC倒谱系数间接表征语音信号的信道横截面特性,并利用这些全局时频参数来表示语音单词的语义特征。将得到的语义特征与预存在模板库中的特征进行比对,应用时间规整技术以克服语音信号中的速率和音量差异,确保在最佳时间规整条件下找到最佳匹配路径,实现室内自动导航机器人的语音容错识别。仿真表明,所提方法在不同语音相似性重复读取率下,保持在98%以上的查准率,并在较高噪声水平的影响下,保持99%以上的识别正确率。说明所提方法能够有效提高室内自动导航机器人对语音识别的准确性,方便用户操控。 展开更多
关键词 室内自动导航机器人 语音信号调整 语音容错识别 动态时间规整 语义特征
在线阅读 下载PDF
基于组合特征的语音情感识别
17
作者 王隆鹏 林玮 《电声技术》 2025年第5期85-91,114,共8页
提出一种用于语音情感识别的深度神经网络模型,级联梅尔频率倒谱系数、色度特征、动态能量变化形成组合特征并输入神经网络,以识别情感。在数据预处理阶段,采用主成分分析方法提高模型的计算效率和泛化能力,同时采用BorderlineSMOTE方... 提出一种用于语音情感识别的深度神经网络模型,级联梅尔频率倒谱系数、色度特征、动态能量变化形成组合特征并输入神经网络,以识别情感。在数据预处理阶段,采用主成分分析方法提高模型的计算效率和泛化能力,同时采用BorderlineSMOTE方法增强模型识别少数类别的能力。模型采用卷积神经网络级联长短期记忆网络的经典网络架构。同时,使用柏林情感语音数据库(Berlin Emotional Speech Database,EMODB)、萨里视听情感表达数据集(Surrey Audio-Visual Expressed Emotion,SAVEE)、中国科学院自动化研究所(Chinese Academy of Sciences Institute of Automation,CASIA)数据集来评估德语、英语、中文3种语言。最后,通过实验得出模型在不同数据库中识别情绪的未加权准确度:EMODB数据集为89.72%,SAVEE数据集为65.62%,CASIA数据集为65.42%。 展开更多
关键词 语音情感识别 梅尔频率倒谱系数 色度 动态能量变化 神经网络
在线阅读 下载PDF
智能语音技术在电视节目管理系统中的应用研究
18
作者 李嘉诚 《电声技术》 2025年第3期113-115,共3页
智能语音技术在电视节目管理系统中的应用日益受到关注。概述智能语音技术,探讨其在电视节目管理、字幕生成以及用户交互中的应用优势。针对内容适应性不足、交互复杂性受限等挑战,提出相应的优化方案,为提升电视节目管理系统的智能化... 智能语音技术在电视节目管理系统中的应用日益受到关注。概述智能语音技术,探讨其在电视节目管理、字幕生成以及用户交互中的应用优势。针对内容适应性不足、交互复杂性受限等挑战,提出相应的优化方案,为提升电视节目管理系统的智能化和用户体验提供参考。 展开更多
关键词 智能语音技术 电视节目管理 语音识别
在线阅读 下载PDF
AI语音识别技术在广播节目内容监审中的应用研究
19
作者 张向明 刘军 《广播与电视技术》 2025年第8期103-105,共3页
本文探讨AI语音识别技术在广播节目内容监审中的应用,针对传统监审效率低、准确性不足等问题,提出基于实时语音转录、NLP分析及自动化报告的智能解决方案。研究表明,该技术可显著提升监审效率,实现全天候自动化监控,并降低中小机构技术... 本文探讨AI语音识别技术在广播节目内容监审中的应用,针对传统监审效率低、准确性不足等问题,提出基于实时语音转录、NLP分析及自动化报告的智能解决方案。研究表明,该技术可显著提升监审效率,实现全天候自动化监控,并降低中小机构技术门槛。论文进一步对AI技术的应用前景展开探讨,指出未来可通过多语言支持、情感分析与个性化推荐拓展监审功能的多元化需求。同时还对AI语音识别技术的发展趋势展开了分析研究,提出其与区块链、边缘计算等新兴技术融合的创新路径。 展开更多
关键词 AI语音识别技术 广播节目监审 实时语音转录 NLP分析
在线阅读 下载PDF
人工智能技术在广播电视节目声景构建中的应用
20
作者 陈鑫 赵文键 《电声技术》 2025年第11期101-103,共3页
广播电视声景构建面临效率低、成本高、适配性差等挑战。对此,提出基于人工智能的智能声景构建技术方案,通过智能音频识别与自动化分层处理、动态音效生成与沉浸式声景营造、内容理解驱动的自适应调节三大技术模块,实现声景构建的自动... 广播电视声景构建面临效率低、成本高、适配性差等挑战。对此,提出基于人工智能的智能声景构建技术方案,通过智能音频识别与自动化分层处理、动态音效生成与沉浸式声景营造、内容理解驱动的自适应调节三大技术模块,实现声景构建的自动化、智能化和个性化。实验结果表明,所提方案有效解决了传统构建方式的核心问题,能够为广播电视行业智能化发展提供技术支撑。 展开更多
关键词 人工智能 广播电视节目 声景构建 智能音频识别 动态音效生成
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部