期刊文献+
共找到166篇文章
< 1 2 9 >
每页显示 20 50 100
Deep Learning-Based Approach for Arabic Visual Speech Recognition
1
作者 Nadia H.Alsulami Amani T.Jamal Lamiaa A.Elrefaei 《Computers, Materials & Continua》 SCIE EI 2022年第4期85-108,共24页
Lip-reading technologies are rapidly progressing following the breakthrough of deep learning.It plays a vital role in its many applications,such as:human-machine communication practices or security applications.In thi... Lip-reading technologies are rapidly progressing following the breakthrough of deep learning.It plays a vital role in its many applications,such as:human-machine communication practices or security applications.In this paper,we propose to develop an effective lip-reading recognition model for Arabic visual speech recognition by implementing deep learning algorithms.The Arabic visual datasets that have been collected contains 2400 records of Arabic digits and 960 records of Arabic phrases from 24 native speakers.The primary purpose is to provide a high-performance model in terms of enhancing the preprocessing phase.Firstly,we extract keyframes from our dataset.Secondly,we produce a Concatenated Frame Images(CFIs)that represent the utterance sequence in one single image.Finally,the VGG-19 is employed for visual features extraction in our proposed model.We have examined different keyframes:10,15,and 20 for comparing two types of approaches in the proposed model:(1)the VGG-19 base model and(2)VGG-19 base model with batch normalization.The results show that the second approach achieves greater accuracy:94%for digit recognition,97%for phrase recognition,and 93%for digits and phrases recognition in the test dataset.Therefore,our proposed model is superior to models based on CFIs input. 展开更多
关键词 Convolutional neural network deep learning lip reading transfer learning visual speech recognition
在线阅读 下载PDF
在Visual FoxPro系统中调用Excel实现数字语音辅助校对功能 被引量:1
2
作者 李小军 《河南理工大学学报(自然科学版)》 CAS 2005年第5期390-392,共3页
介绍了语音技术、TTS技术、Excel语音功能以及VisualFoxPro的OLE自动化技术;针对VisualFoxPro系统中数值型数据录入易出错的问题,提出了在VisualFoxPro中利用OLE自动化技术调用Excel对象的语音功能实现数字语音辅助校对的解决方案;给出... 介绍了语音技术、TTS技术、Excel语音功能以及VisualFoxPro的OLE自动化技术;针对VisualFoxPro系统中数值型数据录入易出错的问题,提出了在VisualFoxPro中利用OLE自动化技术调用Excel对象的语音功能实现数字语音辅助校对的解决方案;给出了在学生成绩管理中实现这一功能的具体步骤和方法. 展开更多
关键词 visual FOXPRO 语音 TTS Excel
在线阅读 下载PDF
Visual Lip-Reading for Quranic Arabic Alphabets and Words Using Deep Learning
3
作者 Nada Faisal Aljohani Emad Sami Jaha 《Computer Systems Science & Engineering》 SCIE EI 2023年第9期3037-3058,共22页
The continuing advances in deep learning have paved the way for several challenging ideas.One such idea is visual lip-reading,which has recently drawn many research interests.Lip-reading,often referred to as visual sp... The continuing advances in deep learning have paved the way for several challenging ideas.One such idea is visual lip-reading,which has recently drawn many research interests.Lip-reading,often referred to as visual speech recognition,is the ability to understand and predict spoken speech based solely on lip movements without using sounds.Due to the lack of research studies on visual speech recognition for the Arabic language in general,and its absence in the Quranic research,this research aims to fill this gap.This paper introduces a new publicly available Arabic lip-reading dataset containing 10490 videos captured from multiple viewpoints and comprising data samples at the letter level(i.e.,single letters(single alphabets)and Quranic disjoined letters)and in the word level based on the content and context of the book Al-Qaida Al-Noorania.This research uses visual speech recognition to recognize spoken Arabic letters(Arabic alphabets),Quranic disjoined letters,and Quranic words,mainly phonetic as they are recited in the Holy Quran according to Quranic study aid entitled Al-Qaida Al-Noorania.This study could further validate the correctness of pronunciation and,subsequently,assist people in correctly reciting Quran.Furthermore,a detailed description of the created dataset and its construction methodology is provided.This new dataset is used to train an effective pre-trained deep learning CNN model throughout transfer learning for lip-reading,achieving the accuracies of 83.3%,80.5%,and 77.5%on words,disjoined letters,and single letters,respectively,where an extended analysis of the results is provided.Finally,the experimental outcomes,different research aspects,and dataset collection consistency and challenges are discussed and concluded with several new promising trends for future work. 展开更多
关键词 visual speech recognition LIP-READING deep learning quranic Arabic dataset Tajwid
在线阅读 下载PDF
Using Speech Recognition in Learning Primary School Mathematics via Explain, Instruct and Facilitate Techniques 被引量:1
4
作者 Ab Rahman Ahmad Sami M. Halawani Samir K. Boucetta 《Journal of Software Engineering and Applications》 2014年第4期233-255,共23页
The application of Information and Communication Technologies has transformed traditional Teaching and Learning in the past decade to computerized-based era. This evolution has resulted from the emergence of the digit... The application of Information and Communication Technologies has transformed traditional Teaching and Learning in the past decade to computerized-based era. This evolution has resulted from the emergence of the digital system and has greatly impacted on the global education and socio-cultural development. Multimedia has been absorbed into the education sector for producing a new learning concept and a combination of educational and entertainment approach. This research is concerned with the application of Window Speech Recognition and Microsoft Visual Basic 2008 Integrated/Interactive Development Environment in Multimedia-Assisted Courseware prototype development for Primary School Mathematics contents, namely, single digits and the addition. The Teaching and Learning techniques—Explain, Instruct and Facilitate are proposed and these could be viewed as instructors’ centered strategy, instructors’—learners’ dual communication and learners' active participation. The prototype is called M-EIF and deployed only users' voices;hence the activation of Window Speech Recognition is required prior to a test run. 展开更多
关键词 EXPLAIN Instruct and Facilitate TECHNIQUES MULTIMEDIA-ASSISTED COURSEWARE Primary SCHOOL Mathematics visual Natural Language Window speech Recognition
暂未订购
低信噪比下多级特征深度融合的视听语音增强 被引量:1
5
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
Deep Learning-Based Lip-Reading for Vocal Impaired Patient Rehabilitation
6
作者 Chiara Innocente Matteo Boemio +6 位作者 Gianmarco Lorenzetti Ilaria Pulito Diego Romagnoli Valeria Saponaro Giorgia Marullo Luca Ulrich Enrico Vezzetti 《Computer Modeling in Engineering & Sciences》 2025年第5期1355-1379,共25页
Lip-reading technology,based on visual speech decoding and automatic speech recognition,offers a promising solution to overcoming communication barriers,particularly for individuals with temporary or permanent speech ... Lip-reading technology,based on visual speech decoding and automatic speech recognition,offers a promising solution to overcoming communication barriers,particularly for individuals with temporary or permanent speech impairments.However,most Visual Speech Recognition(VSR)research has primarily focused on the English language and general-purpose applications,limiting its practical applicability in medical and rehabilitative settings.This study introduces the first Deep Learning(DL)based lip-reading system for the Italian language designed to assist individuals with vocal cord pathologies in daily interactions,facilitating communication for patients recovering from vocal cord surgeries,whether temporarily or permanently impaired.To ensure relevance and effectiveness in real-world scenarios,a carefully curated vocabulary of twenty-five Italian words was selected,encompassing critical semantic fields such as Needs,Questions,Answers,Emergencies,Greetings,Requests,and Body Parts.These words were chosen to address both essential daily communication and urgent medical assistance requests.Our approach combines a spatiotemporal Convolutional Neural Network(CNN)with a bidirectional Long Short-Term Memory(BiLSTM)recurrent network,and a Connectionist Temporal Classification(CTC)loss function to recognize individual words,without requiring predefined words boundaries.The experimental results demonstrate the system’s robust performance in recognizing target words,reaching an average accuracy of 96.4%in individual word recognition,suggesting that the system is particularly well-suited for offering support in constrained clinical and caregiving environments,where quick and reliable communication is critical.In conclusion,the study highlights the importance of developing language-specific,application-driven VSR solutions,particularly for non-English languages with limited linguistic resources.By bridging the gap between deep learning-based lip-reading and real-world clinical needs,this research advances assistive communication technologies,paving the way for more inclusive and medically relevant applications of VSR in rehabilitation and healthcare. 展开更多
关键词 LIP-READING deep learning automatic speech recognition visual speech decoding 3D convolutional neural network
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:4
7
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 TRANSFORMER 动态权重分配机制
在线阅读 下载PDF
大模型驱动的多模态智能感知小车控制方法研究
8
作者 刘科 陈思维 +2 位作者 康怡琳 兰佳亦 刘磊 《现代信息科技》 2025年第22期179-183,188,共6页
支持视觉感知与大语言模型驱动的树莓派智能小车控制系统,提供了一种面向开放环境的智能交互控制方案。系统设计为三层架构形式,最底层的执行层以树莓派5作为其核心,最上层的感知层借助摄像头和麦克风构建而成,系统的处理层则部署在云端... 支持视觉感知与大语言模型驱动的树莓派智能小车控制系统,提供了一种面向开放环境的智能交互控制方案。系统设计为三层架构形式,最底层的执行层以树莓派5作为其核心,最上层的感知层借助摄像头和麦克风构建而成,系统的处理层则部署在云端,集成了微调的MiniCPM模型、SenseVoice语音识别模型、GroundingDINO零样本目标检测模型和Depth-Anything单目深度估计模型等处理模块。通过边缘与云端协同机制,系统能将自然语言指令拆解为语音识别、语义解析和环境感知3个子任务,最终生成具体的运动控制指令。测试结果表明,系统在语音识别和指令解析方面均达到了较高的准确率,能有效识别复杂多变的自然语言命令,成功突破了传统嵌入式智能系统依赖固定指令集的限制。 展开更多
关键词 大语言模型 语音识别 树莓派 视觉感知 目标检测
在线阅读 下载PDF
跨模态双向注意力的视听双主导语音增强方法 被引量:1
9
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
基于信息融合的抗噪视听语音识别 被引量:1
10
作者 李祯其 胡尧 +1 位作者 高翔 温志庆 《计算机应用与软件》 北大核心 2025年第9期189-195,269,共8页
针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补... 针对噪声环境下,基于单模态音频信息的连续语音识别算法抗噪能力较差问题,提出一种基于信息融合的抗噪视听语音识别模型。该网络模型利用注意力机制自主学习音频流和视频流间的对应关系,并通过对从音视频流中所提取的特征进行融合来补充单一模态所缺失的信息,以达到信息间的互补,提高信息利用率,增强鲁棒性。算法效果在LRS2数据集上进行验证,结果表明在不同信噪比的加噪环境下,该算法的识别词错误率较其他多个基准模型能取得更优的效果。 展开更多
关键词 信息融合 视听语音识别 噪声环境 注意力机制 连续语音 鲁棒性
在线阅读 下载PDF
视觉指导的分词和词性标注
11
作者 田海燕 黄赛豪 +1 位作者 张栋 李寿山 《计算机应用》 北大核心 2025年第5期1488-1495,共8页
中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮... 中文分词(WS)和词性(POS)标注可以有效帮助其他下游任务,如知识图谱创建和情感分析。但现有工作通常仅利用纯文本信息进行WS和POS标注,忽略了网络中许多与之相关的图片和视频信息。针对这一现状,尝试从这些视觉信息中挖掘相关线索,以帮助进行中文WS和POS标注。首先,制定一系列详细的数据标注规范,并基于微博推文中的文本和图像内容,使用WS和POS标签标注了一个多模态数据集VG-Weibo;其次,提出2种具有不同解码机制的多模态信息融合方法:VGTD(Visually Guided Two-stage Decoding model)和VGCD(Visually Guided Collapsed Decoding model)完成联合WS和POS标注的任务。其中:VGTD方法采用交叉注意力机制融合文本和图像信息,并通过两阶段解码策略,先预测可能的词语跨度,再预测相应的标签;VGCD方法也采用交叉注意力机制融合文本和图像信息,并采用了更适当的中文表示以及合并解码策略。在VG-Weibo测试集上的实验结果表明,在WS和POS标注任务上,VGTD方法的F1得分比传统的纯文本方法的两阶段解码模型(TD)分别提升了0.18和0.22个百分点;VGCD方法的F1得分比传统的纯文本方法的合并解码模型(CD)分别提升了0.25和0.55个百分点。可见,VGTD和VGCD方法都能有效利用视觉信息提升WS和POS标注的性能。 展开更多
关键词 分词 词性标注 多模态数据 视觉信息 社交媒体
在线阅读 下载PDF
基于双流门控视听融合的多模态语音增强
12
作者 彭敏轩 梁艳 《计算机系统应用》 2025年第11期127-138,共12页
针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及... 针对现有音视频语音增强方法在复杂场景下存在的鲁棒性不足、多模态信息融合效率低下、计算复杂度高等问题,本文提出一种双流门控视听融合(dual-stream gated audio-visual fusion,DS-GAVF)架构.该架构通过静态与动态视觉协同建模,以及细粒度的跨模态交互,实现语音增强性能的提升.在特征提取阶段,采用U-Net编码音频时频特性,同时设计双流视觉网络,采用ResNet-18提取单帧面部静态特征,使用时空图卷积网络捕捉连续面部标志点的动态运动模式.为解决视听模态时序差异,提出动态时间插值对齐方法,并设计了一种门控交叉注意力机制,通过门控单元动态调节特征融合权重,在视觉可信度低时抑制噪声干扰.在解码阶段,通过跨模态跳跃连接,将多尺度视觉线索注入U-Net解码层,最终输出目标语音时频掩码.实验结果表明,DS-GAVF在3个数据集上的混合噪声环境下均表现出优异性能.与现有方法相比,DS-GAVF在保持较低计算复杂度的同时,实现了语音质量、可懂度与鲁棒性的协同提升. 展开更多
关键词 语音增强 视听融合 门控交叉注意力 U-Net
在线阅读 下载PDF
视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果分析
13
作者 徐丹丹 王雪 陶乙霆 《中国社区医师》 2025年第21期151-153,共3页
目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常... 目的:探讨视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果。方法:选取2020年3月—2023年3月于连云港市妇幼保健院进行康复训练的全面发育迟缓患儿64例作为研究对象,采用随机数字表法进行分组,各32例。对照组采用常规康复训练方案,观察组在对照组基础上实施视听觉统合训练。对比两组康复效果。结果:观察组干预有效率高于对照组(P=0.048)。干预前,两组发育商评分比较,差异无统计学意义(P>0.05);干预后,两组发育商评分升高,且观察组高于对照组(P<0.001)。干预前,两组智力评分比较,差异无统计学意义(P>0.05);干预后,两组智力评分升高,且观察组高于对照组(P<0.001)。结论:视听觉统合训练联合常规康复训练在全面发育迟缓患儿康复中的应用效果明显,能够改善患儿发育、智力水平。 展开更多
关键词 言语治疗 视听觉统合康复训练 全面发育迟缓
暂未订购
基于深度学习的交叉残差连接网络应用于语音分离 被引量:2
14
作者 褚俊佟 魏爽 《上海师范大学学报(自然科学版中英文)》 2025年第2期229-237,共9页
在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音... 在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音视频与文本融合方法,以实现音频、视频和文本特征的深度融合,从而改善语音分离效果.该方法在任意两个模态之间建立联系,通过交叉连接,与其他所有模态共享信息,并利用残差连接将原始输入特征与处理中的特征表示相结合,既保留了各模态特征原始的完整性,也充分利用了模态间的相关性,使每一模态都能有效学习到其他模态的信息,提高了融合特征的稳健性.实验结果表明,相较于传统的基于特征拼接的音视频或音视频-文本语音分离方法,本方法在源失真比(SDR)和客观语音质量评估(PESQ)等关键指标上均获得显著提升,证明了该方法的优势. 展开更多
关键词 多模态语音分离 音视频特征 文本特征 特征融合 交叉-残差连接
在线阅读 下载PDF
经颅直流电刺激协同言语疗法和视听觉统合训练对孤独症伴精神发育迟滞患儿的影响
15
作者 朱景维 刘鹏民 贾倩芳 《广东医学》 2025年第8期1229-1234,共6页
目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴... 目的探究经颅直流电刺激(tDCS)协同言语疗法和视听觉统合训练对孤独症(ASD)伴精神发育迟滞患儿的影响,以进一步明确tDCS协同言语疗法和视听觉统合训练对ASD伴精神发育迟滞患儿的治疗效果。方法以2022年2月至2024年2月收治的120例ASD伴精神发育迟滞患儿为研究对象。采用随机数字表法将研究对象均分为对照组和联合组,每组60例。给予对照组经颅直流电刺激治疗,联合组在对照组基础上协同言语疗法和视听觉统合训练,两组患儿均进行6个月治疗。比较两组患儿临床疗效和治疗前后ASD情况、情绪状态、智力发育、运动能力、社会适应性等。结果经6个月治疗后,联合组治疗总有效率高于对照组(P<0.05)。治疗后两组患儿孤独症行为量表(ABC)、孤独症评定量表(CARS)评分均下降,且联合组低于对照组(P<0.05)。治疗后两组患儿格赛尔发展量表(Gesell)评分中均提升,且联合组高于对照组(P<0.05)。治疗后两组患儿粗大运动功能评估量表(GMFM-88)和Peabody精细运动发育量表(PDMS-FM)评分均增加,且联合组高于对照组(P<0.05)。治疗后两组患儿婴儿-初中学生社会生活能力量表(S-M)和孤独症儿童心理教育量表第3版(PEP-3)评分均提升,且联合组高于对照组(P<0.05)。结论tDCS协同言语疗法和视听觉统合训练可缓解ASD伴精神发育迟滞患儿的ASD症状,改善患儿语言能力、情绪状态、智力发育、运动能力和社会适应性。 展开更多
关键词 经颅直流电刺激 言语疗法 视听觉统合训练 孤独症 精神发育迟滞 临床效果
暂未订购
视听语言智能康复技术联合治疗性游戏对语言发育迟缓患儿的影响 被引量:1
16
作者 万玲 《中国听力语言康复科学杂志》 2025年第4期401-404,共4页
目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组... 目的探究视听语言智能康复技术联合治疗性游戏对语言发育迟缓(delayed language development,DLD)患儿言语功能的影响。方法纳入2022年2月~2023年1月我院收治的LDD患儿86例,随机分为观察组和对照组各43例。对照组行常规语言训练,观察组在对照组基础上使用视听语言智能康复技术联合治疗性游戏进行干预,均干预3个月。干预前后分别采用Gesell发育量表(gesell developmental schedules,GDS)、普通话听觉理解和表达能力标准化评估表(diagnostic receptive and expressive assessment of mandarin-comprehensive,DREAM-C)、口部运动量表评估两组患儿的发育商(developmental quotient,DQ)、语言发育水平、口部运动功能。结果干预后,观察组Gesell发育评分(语言行为、适应性行为、个人-社交行为)、DREAM-C评分(总体语言、听力理解、语言表达、语义、句法)、唇部、下颌和舌部功能均显著高于对照组(P<0.05)。结论视听语言智能康复技术联合治疗性游戏可促进DLD患儿智力发育,改善言语和口部运动功能。 展开更多
关键词 视听语言智能康复技术 治疗性游戏 语言发育迟缓 言语功能
暂未订购
汉语文本-可视语音转换的研究 被引量:9
17
作者 王志明 蔡莲红 +1 位作者 吴志勇 陶建华 《小型微型计算机系统》 CSCD 北大核心 2002年第4期474-477,共4页
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中... 本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS) 展开更多
关键词 视觉语音 汉语文本-可视语音转换系统 协同发音 汉字信息处理
在线阅读 下载PDF
基于MPEG-4的融合多元素的三维人脸动画合成方法 被引量:7
18
作者 尹宝才 王恺 王立春 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第2期266-271,共6页
为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,... 为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点. 展开更多
关键词 人脸动画 可视语音合成 表情合成 MPEG-4
在线阅读 下载PDF
汉语母语者视听双通道言语知觉的特点及发展研究 被引量:7
19
作者 李燕芳 梅磊磊 董奇 《心理发展与教育》 CSSCI 北大核心 2008年第3期43-47,共5页
以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务... 以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务是出声报告自己听到的刺激。结果发现:(1)汉语为母语的二年级小学生、五年级小学生和大学生在自然听力环境下的单音节加工中都受到视觉线索的影响,表现出了McGurk效应;(2)二年级小学生、五年级小学生和大学生受视觉言语影响的程度,也就是McGurk效应的强度没有显著差异,没有表现出类似英语母语者的发展趋势。该结果支持了McGurk效应"普遍存在"的假说。 展开更多
关键词 McGurk效应 视听双通道言语知觉 视觉言语 听觉言语
在线阅读 下载PDF
语音同步的可视语音合成技术研究 被引量:6
20
作者 贾熹滨 尹宝才 李敬华 《北京工业大学学报》 CAS CSCD 北大核心 2005年第6期656-661,共6页
为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析... 为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析了目前国内外研究方法的主要解决方案,提出了在未来研究中本系统将采用的系统框架和重点研究内容. 展开更多
关键词 语音动画 声视频映射 特征定位 人脸建模
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部