期刊文献+
共找到162篇文章
< 1 2 9 >
每页显示 20 50 100
低信噪比下多级特征深度融合的视听语音增强 被引量:1
1
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:4
2
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
大模型驱动的多模态智能感知小车控制方法研究
3
作者 刘科 陈思维 +2 位作者 康怡琳 兰佳亦 刘磊 《现代信息科技》 2025年第22期179-183,188,共6页
支持视觉感知与大语言模型驱动的树莓派智能小车控制系统,提供了一种面向开放环境的智能交互控制方案。系统设计为三层架构形式,最底层的执行层以树莓派5作为其核心,最上层的感知层借助摄像头和麦克风构建而成,系统的处理层则部署在云端... 支持视觉感知与大语言模型驱动的树莓派智能小车控制系统,提供了一种面向开放环境的智能交互控制方案。系统设计为三层架构形式,最底层的执行层以树莓派5作为其核心,最上层的感知层借助摄像头和麦克风构建而成,系统的处理层则部署在云端,集成了微调的MiniCPM模型、SenseVoice语音识别模型、GroundingDINO零样本目标检测模型和Depth-Anything单目深度估计模型等处理模块。通过边缘与云端协同机制,系统能将自然语言指令拆解为语音识别、语义解析和环境感知3个子任务,最终生成具体的运动控制指令。测试结果表明,系统在语音识别和指令解析方面均达到了较高的准确率,能有效识别复杂多变的自然语言命令,成功突破了传统嵌入式智能系统依赖固定指令集的限制。 展开更多
关键词 大语言模型 语音识别 树莓派 视觉感知 目标检测
在线阅读 下载PDF
跨模态双向注意力的视听双主导语音增强方法 被引量:1
4
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
基于信息融合的抗噪视听语音识别 被引量:1
5
作者 李祯其 胡尧 +1 位作者 高翔 温志庆 《计算机应用与软件》 北大核心 2025年第9期189-195,269,共8页
针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补... 针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补充单一模态所缺失的信息,以达到信息间的互补,提高信息利用率,增强鲁棒性。算法效果在LRS2数据集上进行验证,结果表明在不同信噪比的加噪环境下,该算法的识别词错误率较其他多个基准模型能取得更优的效果。 展开更多
关键词 信息融合 视听语音识别 噪声环境 注意力机制 连续语音 鲁棒性
在线阅读 下载PDF
视觉指导的分词和词性标注
6
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
基于双流门控视听融合的多模态语音增强
7
作者 彭敏轩 梁艳 《计算机系统应用》 2025年第11期127-138,共12页
针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及... 针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及细粒度的跨模态交互,实现语音增强性能的提升.在特征提取阶段,采用U-Net编码音频时频特性,同时设计双流视觉网络,采用ResNet-18提取单帧面部静态特征,使用时空图卷积网络捕捉连续面部标志点的动态运动模式.为解决视听模态时序差异,提出动态时间插值对齐方法,并设计了一种门控交叉注意力机制,通过门控单元动态调节特征融合权重,在视觉可信度低时抑制噪声干扰.在解码阶段,通过跨模态跳跃连接,将多尺度视觉线索注入U-Net解码层,最终输出目标语音时频掩码.实验结果表明,DS-GAVF在3个数据集上的混合噪声环境下均表现出优异性能.与现有方法相比,DS-GAVF在保持较低计算复杂度的同时,实现了语音质量、可懂度与鲁棒性的协同提升. 展开更多
关键词 语音增强 视听融合 门控交叉注意力 U-Net
在线阅读 下载PDF
视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果分析
8
作者 徐丹丹 王雪 陶乙霆 《中国社区医师》 2025年第21期151-153,共3页
目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常... 目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常规康复训练方案,观察组在对照组基础上实施视听觉统合训练。对比两组康复效果。结果:观察组干预有效率高于对照组(P=0.048)。干预前,两组发育商评分比较,差异无统计学意义(P>0.05);干预后,两组发育商评分升高,且观察组高于对照组(P<0.001)。干预前,两组智力评分比较,差异无统计学意义(P>0.05);干预后,两组智力评分升高,且观察组高于对照组(P<0.001)。结论:视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果明显,能够改善患儿发育、智力水平。 展开更多
关键词 言语治疗 视听觉统合康复训练 全面发育迟缓
暂未订购
基于深度学习的交叉残差连接网络应用于语音分离 被引量:2
9
作者 褚俊佟 魏爽 《上海师范大学学报(自然科学版中英文)》 2025年第2期229-237,共9页
在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音... 在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音视频与文本融合方法,以实现音频、视频和文本特征的深度融合,从而改善语音分离效果.该方法在任意两个模态之间建立联系,通过交叉连接,与其他所有模态共享信息,并利用残差连接将原始输入特征与处理中的特征表示相结合,既保留了各模态特征原始的完整性,也充分利用了模态间的相关性,使每一模态都能有效学习到其他模态的信息,提高了融合特征的稳健性.实验结果表明,相较于传统的基于特征拼接的音视频或音视频-文本语音分离方法,本方法在源失真比(SDR)和客观语音质量评估(PESQ)等关键指标上均获得显著提升,证明了该方法的优势. 展开更多
关键词 多模态语音分离 音视频特征 文本特征 特征融合 交叉-残差连接
在线阅读 下载PDF
经颅直流电刺激协同言语疗法和视听觉统合训练对孤独症伴精神发育迟滞患儿的影响
10
作者 朱景维 刘鹏民 贾倩芳 《广东医学》 2025年第8期1229-1234,共6页
目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴... 目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴精神发育迟滞患儿为研究对象。采用随机数字表法将研究对象均分为对照组和联合组,每组60例。给予对照组经颅直流电刺激治疗,联合组在对照组基础上协同言语疗法和视听觉统合训练,两组患儿均进行6个月治疗。比较两组患儿临床疗效和治疗前后ASD情况、情绪状态、智力发育、运动能力、社会适应性等。结果经6个月治疗后,联合组治疗总有效率高于对照组(P<0.05)。治疗后两组患儿孤独症行为量表(ABC)、孤独症评定量表(CARS)评分均下降,且联合组低于对照组(P<0.05)。治疗后两组患儿格赛尔发展量表(Gesell)评分中均提升,且联合组高于对照组(P<0.05)。治疗后两组患儿粗大运动功能评估量表(GMFM-88)和Peabody精细运动发育量表(PDMS-FM)评分均增加,且联合组高于对照组(P<0.05)。治疗后两组患儿婴儿-初中学生社会生活能力量表(S-M)和孤独症儿童心理教育量表第3版(PEP-3)评分均提升,且联合组高于对照组(P<0.05)。结论tDCS协同言语疗法和视听觉统合训练可缓解ASD伴精神发育迟滞患儿的ASD症状,改善患儿语言能力、情绪状态、智力发育、运动能力和社会适应性。 展开更多
关键词 经颅直流电刺激 言语疗法 视听觉统合训练 孤独症 精神发育迟滞 临床效果
暂未订购
视听语言智能康复技术联合治疗性游戏对语言发育迟缓患儿的影响 被引量:1
11
作者 万玲 《中国听力语言康复科学杂志》 2025年第4期401-404,共4页
目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组... 目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组在对照组基础上使用视听语言智能康复技术联合治疗性游戏进行干预,均干预3个月。干预前后分别采用Gesell发育量表(gesell developmental schedules,GDS)、普通话听觉理解和表达能力标准化评估表(diagnostic receptive and expressive assessment of mandarin-comprehensive,DREAM-C)、口部运动量表评估两组患儿的发育商(developmental quotient,DQ)、语言发育水平、口部运动功能。结果干预后,观察组Gesell发育评分(语言行为、适应性行为、个人-社交行为)、DREAM-C评分(总体语言、听力理解、语言表达、语义、句法)、唇部、下颌和舌部功能均显著高于对照组(P<0.05)。结论视听语言智能康复技术联合治疗性游戏可促进DLD患儿智力发育,改善言语和口部运动功能。 展开更多
关键词 视听语言智能康复技术 治疗性游戏 语言发育迟缓 言语功能
暂未订购
汉语文本-可视语音转换的研究 被引量:9
12
作者 王志明 蔡莲红 +1 位作者 吴志勇 陶建华 《小型微型计算机系统》 CSCD 北大核心 2002年第4期474-477,共4页
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中... 本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS) 展开更多
关键词 视觉语音 汉语文本-可视语音转换系统 协同发音 汉字信息处理
在线阅读 下载PDF
基于MPEG-4的融合多元素的三维人脸动画合成方法 被引量:7
13
作者 尹宝才 王恺 王立春 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第2期266-271,共6页
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,... 为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点. 展开更多
关键词 人脸动画 可视语音合成 表情合成 MPEG-4
在线阅读 下载PDF
汉语母语者视听双通道言语知觉的特点及发展研究 被引量:7
14
作者 李燕芳 梅磊磊 董奇 《心理发展与教育》 CSSCI 北大核心 2008年第3期43-47,共5页
以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务... 以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务是出声报告自己听到的刺激。结果发现:(1)汉语为母语的二年级小学生、五年级小学生和大学生在自然听力环境下的单音节加工中都受到视觉线索的影响,表现出了McGurk效应;(2)二年级小学生、五年级小学生和大学生受视觉言语影响的程度,也就是McGurk效应的强度没有显著差异,没有表现出类似英语母语者的发展趋势。该结果支持了McGurk效应"普遍存在"的假说。 展开更多
关键词 McGurk效应 视听双通道言语知觉 视觉言语 听觉言语
在线阅读 下载PDF
语音同步的可视语音合成技术研究 被引量:6
15
作者 贾熹滨 尹宝才 李敬华 《北京工业大学学报》 CAS CSCD 北大核心 2005年第6期656-661,共6页
为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析... 为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析了目前国内外研究方法的主要解决方案,提出了在未来研究中本系统将采用的系统框架和重点研究内容. 展开更多
关键词 语音动画 声视频映射 特征定位 人脸建模
在线阅读 下载PDF
一种稳健的基于VisemicLDA的口形动态特征及听视觉语音识别 被引量:4
16
作者 谢磊 付中华 +4 位作者 蒋冬梅 赵荣椿 Werner Verhelst Hichem Sahli Jan Conlenis 《电子与信息学报》 EI CSCD 北大核心 2005年第1期64-68,共5页
视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。... 视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将'VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。 展开更多
关键词 语音识别 听视觉语音识别 ASM LINEAR DISCRIMINANT Analysis(LDA) Viseme
在线阅读 下载PDF
动态视位模型及其参数估计 被引量:8
17
作者 王志明 蔡莲红 《软件学报》 EI CSCD 北大核心 2003年第3期461-466,共6页
视觉信息可以加强人们对语音的理解,但如何在可视语音合成中生成逼真自然的口形是个复杂的问题.在深入地研究了人们说话过程中口形变化的规律后,提出了一个基于控制函数混合的动态语音视位模型.并针对汉语发音的特点给出了一种系统的从... 视觉信息可以加强人们对语音的理解,但如何在可视语音合成中生成逼真自然的口形是个复杂的问题.在深入地研究了人们说话过程中口形变化的规律后,提出了一个基于控制函数混合的动态语音视位模型.并针对汉语发音的特点给出了一种系统的从训练数据学习模型参数的方法,这比依靠主观经验人为指定模型参数更为可靠.实验结果表明,视位模型和通过训练数据学习得到的模型参数可以有效地描述汉语发音过程中口形的变化过程. 展开更多
关键词 动态视位模型 参数估计 可视语音 静态视位 动态视位 协同发音 语音合成 视觉信息
在线阅读 下载PDF
基于Morlet小波变换的EEG时频分析 被引量:12
18
作者 赵晶晶 牟书 +1 位作者 舒华 王春茂 《中国医学物理学杂志》 CSCD 2006年第1期56-59,11,共5页
Morlet小波变换是适用于EEG时频分析的一种比较成熟的方法,在国外的医学、心理学和认知神经科学研究中已被广泛使用。本文首先阐述了Morlet小波变换的基本原理和基于Morlet小波变换的时频分析方法的特点,然后利用此类方法对实际的EEG数... Morlet小波变换是适用于EEG时频分析的一种比较成熟的方法,在国外的医学、心理学和认知神经科学研究中已被广泛使用。本文首先阐述了Morlet小波变换的基本原理和基于Morlet小波变换的时频分析方法的特点,然后利用此类方法对实际的EEG数据进行探索性的分析。 展开更多
关键词 Morlet小波变换 时频分析 EEG 视觉言浯 McGurk效应
暂未订购
汉语语音视位的研究 被引量:10
19
作者 王志明 蔡莲红 《应用声学》 CSCD 北大核心 2002年第3期29-34,共6页
MPEG-4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从... MPEG-4首次作为国际标准正式定义了视位(Viseme)的概念,它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,将汉语发音分为28个基本静态视位。利用语音信息从AVI文件中自动抽取出这些基本视位图像,从MPEG-4所规定的68个面部动画参数(FAP)中提取出28个来描述这些口形,并实现了部分FAP参数的自动测量。最后,我们给出一个视位研究应用的实例。 展开更多
关键词 汉语 语音视位 文本-语音转换系统 文本-可视语音转换系统 静态视位 MPEG-4 语音识别
在线阅读 下载PDF
基于视频三音子的汉语双模态语料库的建立 被引量:7
20
作者 赵晖 林成龙 唐朝京 《中文信息学报》 CSCD 北大核心 2009年第5期98-103,共6页
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中... 为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。 展开更多
关键词 计算机应用 中文信息处理 可视语音合成 双模态语料 视频三音子 评估函数
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部