期刊文献+
共找到159篇文章
< 1 2 8 >
每页显示 20 50 100
低信噪比下多级特征深度融合的视听语音增强
1
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
跨模态双向注意力的视听双主导语音增强方法 被引量:1
2
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
3
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
基于信息融合的抗噪视听语音识别
4
作者 李祯其 胡尧 +1 位作者 高翔 温志庆 《计算机应用与软件》 北大核心 2025年第9期189-195,269,共8页
针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补... 针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补充单一模态所缺失的信息,以达到信息间的互补,提高信息利用率,增强鲁棒性。算法效果在LRS2数据集上进行验证,结果表明在不同信噪比的加噪环境下,该算法的识别词错误率较其他多个基准模型能取得更优的效果。 展开更多
关键词 信息融合 视听语音识别 噪声环境 注意力机制 连续语音 鲁棒性
在线阅读 下载PDF
视觉指导的分词和词性标注
5
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
基于双流门控视听融合的多模态语音增强
6
作者 彭敏轩 梁艳 《计算机系统应用》 2025年第11期127-138,共12页
针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及... 针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及细粒度的跨模态交互,实现语音增强性能的提升.在特征提取阶段,采用U-Net编码音频时频特性,同时设计双流视觉网络,采用ResNet-18提取单帧面部静态特征,使用时空图卷积网络捕捉连续面部标志点的动态运动模式.为解决视听模态时序差异,提出动态时间插值对齐方法,并设计了一种门控交叉注意力机制,通过门控单元动态调节特征融合权重,在视觉可信度低时抑制噪声干扰.在解码阶段,通过跨模态跳跃连接,将多尺度视觉线索注入U-Net解码层,最终输出目标语音时频掩码.实验结果表明,DS-GAVF在3个数据集上的混合噪声环境下均表现出优异性能.与现有方法相比,DS-GAVF在保持较低计算复杂度的同时,实现了语音质量、可懂度与鲁棒性的协同提升. 展开更多
关键词 语音增强 视听融合 门控交叉注意力 U-Net
在线阅读 下载PDF
视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果分析
7
作者 徐丹丹 王雪 陶乙霆 《中国社区医师》 2025年第21期151-153,共3页
目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常... 目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常规康复训练方案,观察组在对照组基础上实施视听觉统合训练。对比两组康复效果。结果:观察组干预有效率高于对照组(P=0.048)。干预前,两组发育商评分比较,差异无统计学意义(P>0.05);干预后,两组发育商评分升高,且观察组高于对照组(P<0.001)。干预前,两组智力评分比较,差异无统计学意义(P>0.05);干预后,两组智力评分升高,且观察组高于对照组(P<0.001)。结论:视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果明显,能够改善患儿发育、智力水平。 展开更多
关键词 言语治疗 视听觉统合康复训练 全面发育迟缓
暂未订购
基于深度学习的交叉残差连接网络应用于语音分离
8
作者 褚俊佟 魏爽 《上海师范大学学报(自然科学版中英文)》 2025年第2期229-237,共9页
在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音... 在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音视频与文本融合方法,以实现音频、视频和文本特征的深度融合,从而改善语音分离效果.该方法在任意两个模态之间建立联系,通过交叉连接,与其他所有模态共享信息,并利用残差连接将原始输入特征与处理中的特征表示相结合,既保留了各模态特征原始的完整性,也充分利用了模态间的相关性,使每一模态都能有效学习到其他模态的信息,提高了融合特征的稳健性.实验结果表明,相较于传统的基于特征拼接的音视频或音视频-文本语音分离方法,本方法在源失真比(SDR)和客观语音质量评估(PESQ)等关键指标上均获得显著提升,证明了该方法的优势. 展开更多
关键词 多模态语音分离 音视频特征 文本特征 特征融合 交叉-残差连接
在线阅读 下载PDF
经颅直流电刺激协同言语疗法和视听觉统合训练对孤独症伴精神发育迟滞患儿的影响
9
作者 朱景维 刘鹏民 贾倩芳 《广东医学》 2025年第8期1229-1234,共6页
目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴... 目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴精神发育迟滞患儿为研究对象。采用随机数字表法将研究对象均分为对照组和联合组,每组60例。给予对照组经颅直流电刺激治疗,联合组在对照组基础上协同言语疗法和视听觉统合训练,两组患儿均进行6个月治疗。比较两组患儿临床疗效和治疗前后ASD情况、情绪状态、智力发育、运动能力、社会适应性等。结果经6个月治疗后,联合组治疗总有效率高于对照组(P<0.05)。治疗后两组患儿孤独症行为量表(ABC)、孤独症评定量表(CARS)评分均下降,且联合组低于对照组(P<0.05)。治疗后两组患儿格赛尔发展量表(Gesell)评分中均提升,且联合组高于对照组(P<0.05)。治疗后两组患儿粗大运动功能评估量表(GMFM-88)和Peabody精细运动发育量表(PDMS-FM)评分均增加,且联合组高于对照组(P<0.05)。治疗后两组患儿婴儿-初中学生社会生活能力量表(S-M)和孤独症儿童心理教育量表第3版(PEP-3)评分均提升,且联合组高于对照组(P<0.05)。结论tDCS协同言语疗法和视听觉统合训练可缓解ASD伴精神发育迟滞患儿的ASD症状,改善患儿语言能力、情绪状态、智力发育、运动能力和社会适应性。 展开更多
关键词 经颅直流电刺激 言语疗法 视听觉统合训练 孤独症 精神发育迟滞 临床效果
暂未订购
视听语言智能康复技术联合治疗性游戏对语言发育迟缓患儿的影响
10
作者 万玲 《中国听力语言康复科学杂志》 2025年第4期401-404,共4页
目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组... 目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组在对照组基础上使用视听语言智能康复技术联合治疗性游戏进行干预,均干预3个月。干预前后分别采用Gesell发育量表(gesell developmental schedules,GDS)、普通话听觉理解和表达能力标准化评估表(diagnostic receptive and expressive assessment of mandarin-comprehensive,DREAM-C)、口部运动量表评估两组患儿的发育商(developmental quotient,DQ)、语言发育水平、口部运动功能。结果干预后,观察组Gesell发育评分(语言行为、适应性行为、个人-社交行为)、DREAM-C评分(总体语言、听力理解、语言表达、语义、句法)、唇部、下颌和舌部功能均显著高于对照组(P<0.05)。结论视听语言智能康复技术联合治疗性游戏可促进DLD患儿智力发育,改善言语和口部运动功能。 展开更多
关键词 视听语言智能康复技术 治疗性游戏 语言发育迟缓 言语功能
暂未订购
基于扩张卷积和Transformer的视听融合语音分离方法 被引量:2
11
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
在线阅读 下载PDF
三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果分析 被引量:5
12
作者 韦慧敏 李丽 张玉梅 《中国医刊》 CAS 2024年第8期887-890,共4页
目的探讨三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果。方法选取2022年7月至2023年10月首都医科大学附属北京天坛医院收治的80例脑卒中后构音障碍患者为研究对象,在组间基线特征可比的原则上,采用随机数字表法分为对照组... 目的探讨三维可视化言语康复训练在脑卒中后构音障碍患者中的应用效果。方法选取2022年7月至2023年10月首都医科大学附属北京天坛医院收治的80例脑卒中后构音障碍患者为研究对象,在组间基线特征可比的原则上,采用随机数字表法分为对照组(41例)和观察组(39例)。对照组患者给予常规康复训练,观察组患者给予常规康复训练联合三维可视化言语康复训练,两组患者均连续治疗2周。比较分析两组患者治疗前后的构音障碍严重程度[Frenchay构音障碍评估量表(FDA)评分]、语音清晰度以及声学参数[共振峰F1、共振峰F2、音高、音强、元音空间面积(VSA)、元音清晰度指数(VAI)、共振峰集中率(FCR)、下颌距]。结果治疗前,两组患者的FDA评分、语音清晰度、共振峰F1、共振峰F2、音高、音强、VSA、VAI、FCR、下颌距比较差异均无统计学意义(P>0.05);治疗2周后,两组患者的FDA评分、语音清晰度、共振峰F2、音高、音强、VAI与治疗前比较均显著升高,且观察组优于对照组,差异均有统计学意义(P<0.05);两组患者的FCR与治疗前比较均降低,且观察组低于对照组,差异均有统计学意义(P<0.05)。结论三维可视化言语康复训练可显著减轻患者的构音障碍严重程度,提高语音清晰度,改善声学参数,从而促进患者的康复。 展开更多
关键词 三维可视化言语康复训练 脑卒中 构音障碍 语音清晰度 声学参数
暂未订购
基于虚拟仿真技术的配音技术研究
13
作者 李瞳 《自动化与仪器仪表》 2024年第9期285-288,共4页
为进一步提升视频配音场景的语音合成质量,提出一种基于改进FastSpeech的语音合成方法。其中,以非自回归的多模态配音合成模型FastSpeech作为基础的语音合成方法,在此基础上引入基于交叉注意力的多模态预测器进行语音变量信息的预测,并... 为进一步提升视频配音场景的语音合成质量,提出一种基于改进FastSpeech的语音合成方法。其中,以非自回归的多模态配音合成模型FastSpeech作为基础的语音合成方法,在此基础上引入基于交叉注意力的多模态预测器进行语音变量信息的预测,并构建视觉编码器,以进一步提升语音合成的效果。实验结果表明,与传统的基于文本的语音变量预测方法相比,引入视觉信息后的预测方法能够进行精度更高的语音变量信息预测,同时,研究通过对传统的人脸和嘴唇区域特征提取方法相比,经过优化的特征提取方法计算复杂度更低,特征提取效率更高;与其他类型的语音合成方法相比,研究所构建的语音合成方法具有更好的语音合成效果,在MCD、ESTOI、MOS、PESQ以及STOI 5个评价指标上分别达到了6.709、0.568、3.70、1.561、0.736。综上,构建的语音合成方法性能优越,语音合成效果良好,能够应用于实际的视频配音场景中,有效提升语音合成质量,整体提升视频配音质量,可行性较高。 展开更多
关键词 视频配音 语音合成 多模态合成 视觉信息 特征提取
原文传递
Partition-Time Masking:一种唇语识别数据增强方法
14
作者 胡宇 殷继彬 《计算机科学》 CSCD 北大核心 2024年第S02期473-478,共6页
提出了一种唇语识别数据增强方法Partition-Time Masking。该方法直接作用于输入数据,通过将输入划分为多个子序列再分别进行Mask操作最后再将各子序列按序拼接,使得模型能对部分帧缺失的输入具有更强的鲁棒性,从而增强泛化能力。实验... 提出了一种唇语识别数据增强方法Partition-Time Masking。该方法直接作用于输入数据,通过将输入划分为多个子序列再分别进行Mask操作最后再将各子序列按序拼接,使得模型能对部分帧缺失的输入具有更强的鲁棒性,从而增强泛化能力。实验前根据划分的子序列数目与掩码值来源不同而设计了5种增强策略,并与唇语识别研究中最重要的数据增强方法Time Masking进行了对比实验。实验在LRW数据集和LRW1000数据集上进行,实验结果表明Partition-Time Masking方法对模型性能提升的效果要优于Time Masking方法,其中子序列数目为3、掩码值选择各子序列平均帧时为最优策略,该策略使得目前最佳的唇语识别模型DC-TCN的性能从89.6%提高到90.0%。 展开更多
关键词 唇语识别 Time Making 数据增强 视觉语音识别 DC-TCN
在线阅读 下载PDF
基于多重视觉注意力的唇语识别 被引量:2
15
作者 谢胤岑 薛峰 曹明伟 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期73-84,共12页
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视... 唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性. 展开更多
关键词 唇语识别 视觉语音识别 注意力机制 深度神经网络 特征提取
在线阅读 下载PDF
深度视觉语音生成研究进展与展望
16
作者 刘丽 隋金坪 +3 位作者 丁丁 赵凌君 匡纲要 盛常冲 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第2期123-138,共16页
为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战;在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对... 为了进一步推进深度学习技术驱动的视觉语音生成相关科学问题的研究进展,阐述了视觉语音生成的研究意义与基本定义,并深入剖析了该领域面临的难点与挑战;在此基础上,介绍了目前视觉语音生成研究的现状与发展水平,基于生成框架的区别对近期主流方法进行了梳理、归类和评述;最后探讨视觉语音生成研究潜在的问题和可能的研究方向。 展开更多
关键词 视觉语音生成 深度学习 计算机视觉 计算机图形学
在线阅读 下载PDF
噪声下学龄孤独症谱系障碍儿童视听双通道下语音理解能力特征研究
17
作者 郑力瑾 李凡 肖永涛 《中国医药科学》 2024年第10期4-7,55,共5页
目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组... 目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组,取同期于萧山湘湖小学就读的年龄、性别匹配的健康儿童29例为对照组。将录制好的包含5个噪声下视听条件的测试材料导入E-Prime3.0进行测试,并对反应时、反应率和正确率进行统计分析。结果 两组反应时在面部和口部条件下比较,差异有统计学意义(P <0.05),正确率在所有条件下比较,差异均有统计学意义(P <0.05),反应率在纯听条件下比较,差异有统计学意义(P <0.05)。观察组内面部、口部条件下的反应率和正确率与其他3个条件比较,差异有统计学意义(P <0.05),反应率在听+面部条件下与纯听条件比较,差异有统计学意义(P <0.05)。对照组内所有参数均在口部、面部条件下与其他3个条件比较,差异有统计学意义(P <0.05)。结论 学龄ASD儿童噪声下视听双通道语音理解能力存在缺陷,主要表现在对关键信息的提取能力、处理速度和稳定性上。面部信息对学龄ASD儿童的言语整合存在促进作用。 展开更多
关键词 孤独症谱系障碍 视听双通道 语音理解 学龄
暂未订购
言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响 被引量:4
18
作者 单秀梅 《反射疗法与康复医学》 2024年第1期122-125,共4页
目的探讨言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响.方法选取我院2021年1月—2022年12月收治的72例语言发育迟缓患儿为研究对象,根据随机数字表法分为对照组与研究组,各36例.对照组患儿开展视听觉综... 目的探讨言语训练配合视听觉综合康复训练对语言发育迟缓患儿功能康复及生活质量的影响.方法选取我院2021年1月—2022年12月收治的72例语言发育迟缓患儿为研究对象,根据随机数字表法分为对照组与研究组,各36例.对照组患儿开展视听觉综合康复训练,研究组患儿在对照组基础上联合开展言语训练,两组均持续干预6个月.比较两组患儿的康复效果、语言功能、发育商、生活质量及患儿家长满意度.结果研究组康复总有效率为100.00%,高于对照组的80.56%,差异有统计学意义(P﹤0.05).干预后,研究组S-S语言发育迟缓评价法与语言行为评估量表评分均高于对照组,组间差异有统计学意义(P﹤0.05);研究组格赛尔婴幼儿发育量表中的语言、个人社交、适应性评分均高于对照组,组间差异有统计学意义(P﹤0.05),但两组精细动作和大运动评分比较,组间差异无统计学意义(P﹥0.05);研究组儿童生存质量测定量表各项评分均高于对照组,组间差异有统计学意义(P﹤0.05).研究组家长总满意度为97.22%,高于对照组的77.78%,差异有统计学意义(P﹤0.05).结论对语言发育迟缓患儿实施言语训练配合视听觉综合康复训练可有效促进语言功能恢复,提高发育商水平,对改善患儿生活质量、提高家长满意度具有积极意义. 展开更多
关键词 语言发育迟缓 言语训练 视听觉综合康复训练 语言功能 发育商 生活质量
原文传递
基于卷积神经网络的嵌入式视觉感知交互系统设计与实现 被引量:1
19
作者 陶金 王智勇 +1 位作者 林鸿生 周怡伶 《科技创新与应用》 2024年第3期35-39,共5页
针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、... 针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、利用卷积神经网络技术完成识别,采用基于图分割截块的算法进行目标分割。实验结果表明,系统性能良好,能够实现对周围环境的视觉感知并进行语音交互。 展开更多
关键词 卷积神经网络 视觉感知 嵌入式 语音识别 图分割截块
在线阅读 下载PDF
我国言语社区研究现状与趋势的可视化分析——基于CNKI与WoS文献数据的对比 被引量:1
20
作者 苏锦河 汪磊 《中国语言战略》 2024年第1期212-222,共11页
以1998—2022年中国知网期刊数据库210篇、WebofScience核心合集296篇言语社区文献为研究对象,借助CiteSpace软件从研究人员、研究机构、关键词、突现词等方面对我国当前言语社区的理论建设和调查实践现状进行分析,同时对比分析国外研... 以1998—2022年中国知网期刊数据库210篇、WebofScience核心合集296篇言语社区文献为研究对象,借助CiteSpace软件从研究人员、研究机构、关键词、突现词等方面对我国当前言语社区的理论建设和调查实践现状进行分析,同时对比分析国外研究现状,以期为国内言语社区相关研究提供参考。研究显示,我国研究人员在言语社区的理论探索和调查实践方面已形成了稳定的合作网络;研究主题主要集中在言语社区要素的关系与层次、地域方言和社会方言的语言变异或语言变体、大华语社区等方面。由此提出,未来的研究可以借鉴国外热点,着力发展具有我国特色的言语社区理论。同时,我国言语社区研究仍需加强新生人才培养、理论创新和高校合作网络拓展等。 展开更多
关键词 言语社区 CiteSpace 可视化分析 文献研究
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部