期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于双通道的流式语音识别技术研究
1
作者 高鹭 王亚豪 +3 位作者 张飞 任晓颖 郝斌 韩亚旭 《电子器件》 2025年第6期1260-1267,共8页
最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,... 最近,基于RNN-T的端到端模型在流式语音识别任务上表现出了优越的性能。虽然该模型具有天然的流式特性,但是其识别质量仍然落后于先进的非流式模型;其次,该模型倾向于将预测延迟放在最后,因此模型产生了更高的部分延迟。针对以上问题,为了更好地平衡字错误率(Character Error Rate,CER)和延迟指标,将RNN-T模型和基于Attention编码器-解码器模型联合构建双通道模型。具体来说,第一通道编码器利用分块机制思想的Transformer层替换RNN-T的编码层,通过并行处理整个假设序列从而捕获部分组块之间的全局上下文信息,降低解码的计算成本,改善延迟。第二通道使用改进的Transformer rescore并行处理整个流式假设序列来更有效地利用系统计算资源。实验表明,所提出的双通道模型与RNN-T模型相比,在保证延迟可接受范围内,CER也降低了约40%。 展开更多
关键词 流式语音识别 块机制 端到端 TRANSFORMER CONFORMER
在线阅读 下载PDF
融合外部语言知识的流式越南语语音识别
2
作者 王俊强 余正涛 +2 位作者 董凌 高盛祥 王文君 《中文信息学报》 北大核心 2025年第8期99-106,共8页
越南语为低资源语言,训练语料难以获取;流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识,这些问题在一定程度上限制了流式越南语语音识别模型的性能。因此,该文以越南语音节作为语言模型和流式越南语语音识别模型的建模... 越南语为低资源语言,训练语料难以获取;流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识,这些问题在一定程度上限制了流式越南语语音识别模型的性能。因此,该文以越南语音节作为语言模型和流式越南语语音识别模型的建模单元,提出了一种将预训练越南语语言模型在训练阶段融合到流式语音识别模型的方法。在训练阶段,通过最小化预训练越南语语言模型和解码器的输出计算一个新的损失函数LAED-LM,帮助流式越南语语音识别模型学习一些越南语语言知识,从而优化其模型参数;在解码阶段,使用Shallow Fusion或者WFST技术再次融合预训练语言模型进一步提升模型识别率。实验结果表明,在VIVOS数据集上,相比基线模型,在训练阶段融合语言模型可以将流式越南语语音识别模型的词错率降低2.45%;在解码阶段使用Shallow Fusion或WFST再次融合语言模型,还可以将模型词错率分别降低1.35%和4.75%。 展开更多
关键词 流式语音识别 越南语 语言模型 预训练 端到端模型
在线阅读 下载PDF
主播话术情感对直播电商平台观众购买行为和点赞行为的不对称影响 被引量:7
3
作者 陈婷 陈曦 +2 位作者 丁宏昊 黄晓 吴江 《图书情报知识》 北大核心 2025年第4期151-162,共12页
[目的/意义]直播电商背景下,主播话术情感如何影响观众购买行为和点赞行为尚不明确。探究主播话术情感对观众购买行为和点赞行为的不对称影响,有助于主播调整语言情感表达以最大化直播效益。[研究设计/方法]基于情感传染理论及相关文献... [目的/意义]直播电商背景下,主播话术情感如何影响观众购买行为和点赞行为尚不明确。探究主播话术情感对观众购买行为和点赞行为的不对称影响,有助于主播调整语言情感表达以最大化直播效益。[研究设计/方法]基于情感传染理论及相关文献,构建直播电商平台的主播话术情感对观众购买行为和点赞行为影响的实证模型。然后,利用抖音平台的直播视频数据和灰豚平台的消费数据,结合自然语言处理和负二项回归分析,验证主播话术情感对观众购买行为和点赞行为的影响,并探讨主播影响力的调节作用。[结论/发现]主播话术情感对观众购买行为和点赞行为的影响具有不对称关系,即主播话术情感与购买行为、点赞行为分别呈倒U型关系和线性关系;主播影响力负向调节主播话术情感和点赞行为之间的关系,但对主播话术情感和购买行为之间的关系没有调节作用。[创新/价值]丰富了情感传染理论以及直播电商平台观众行为的研究范畴,为主播的话术交流策略提供了一定的启示。 展开更多
关键词 直播电商 主播话术情感 情感传染理论 购买行为 点赞行为
在线阅读 下载PDF
结合单流网络的自监督语音-人脸跨模态学习方法
4
作者 钟方昊 卜凡亮 +1 位作者 秦昊铭 马启明 《小型微型计算机系统》 北大核心 2025年第10期2409-2416,共8页
现有的非监督语音-人脸跨模态关联学习方法多采用双流网络结构,在降低计算复杂度和实现高效非监督方法方面还面临一些挑战,为了改善模型性能,提高跨模态学习的效率,提出一种结合单流网络的自监督语音-人脸跨模态学习方法.首先,将预处理... 现有的非监督语音-人脸跨模态关联学习方法多采用双流网络结构,在降低计算复杂度和实现高效非监督方法方面还面临一些挑战,为了改善模型性能,提高跨模态学习的效率,提出一种结合单流网络的自监督语音-人脸跨模态学习方法.首先,将预处理的两种模态数据送入单流特征提取网络,然后对提取的两种模态特征向量进行基于注意力机制的特征融合得到视频粒度的特征表示用以在线深度聚类,最后使用聚类步骤生成的伪标签指导度量学习方法来学习两种模态的关联,从而完成跨模态关联学习任务.实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,在考虑网络结构轻量化和灵活性的同时保证了优秀的性能. 展开更多
关键词 自监督学习 单流网络 语音-人脸跨模态 关联学习
在线阅读 下载PDF
列车数字无线调度通信系统语音质量评价方法研究
5
作者 张驰 朱红 +1 位作者 孙亮 洪波 《铁道通信信号》 2025年第11期66-71,共6页
为确保列车数字无线调度通信中语音通话质量在实际工程建设中可评价,对列车数字无线调度通信系统(DRTD)中语音质量及验收过程中的评价方法展开研究。分析DRTD中端到端语音传输处理方式,对语音质量评价体系的适应性进行研究总结。针对端... 为确保列车数字无线调度通信中语音通话质量在实际工程建设中可评价,对列车数字无线调度通信系统(DRTD)中语音质量及验收过程中的评价方法展开研究。分析DRTD中端到端语音传输处理方式,对语音质量评价体系的适应性进行研究总结。针对端到端传输过程中有线侧与无线空口侧的信号传播过程,研究语音数据格式转换及编码方式。分析DRTD语音业务特点、语音质量评价涉及的关键参数,结合不同评价方法的适用场景,考虑到编码速率高压缩比造成的接收端信号与原始信号差异显著的特点,传统有参评价方法因依赖原始参考信号,其评价结果的参考性不足。据此,提出在工程验收中宜采用主观评价和无参评价相结合的方式。本研究成果可为工程设计和验收提供参考,为DRTD语音质量验收的标准化提供支撑。 展开更多
关键词 感知语音质量评价 语音流 平均意见分数 编解码器 评价体系 有参评价 无参评价
在线阅读 下载PDF
基于G.729编码语音流的隐秘通信方法 被引量:1
6
作者 张秋余 文付华 +1 位作者 乔思斌 胡文进 《兰州理工大学学报》 CAS 北大核心 2018年第6期96-101,共6页
为了解决实时语音移动通信过程中语音隐秘通信的安全性问题,提出一种新的基于G.729编码语音流的隐秘通信方法.该方法首先利用数字逻辑变换(数字逻辑运算与循环移位运算)对隐秘信息进行各种变换,然后结合嵌入载体(从G.729编码比特流中选... 为了解决实时语音移动通信过程中语音隐秘通信的安全性问题,提出一种新的基于G.729编码语音流的隐秘通信方法.该方法首先利用数字逻辑变换(数字逻辑运算与循环移位运算)对隐秘信息进行各种变换,然后结合嵌入载体(从G.729编码比特流中选取的特定比特位所组成的码字)进行相似度(PSV)计算,最后从PSV中找出最大值所对应的一组码字向量进行信息隐藏.实验结果表明,该方法透明性较好,嵌入效率很高(5.02),嵌入速率也比较大(1.00),并在G.729编解码过程中嵌入和提取时满足实时性要求,可用于实时语音通信过程中的隐秘信息传输. 展开更多
关键词 隐秘通信 G.729编码 语音流 隐秘信息 相似度计算
在线阅读 下载PDF
基于G.729b的VOIP流媒体信息隐藏方法 被引量:4
7
作者 吴秋玲 吴蒙 《计算机工程与设计》 北大核心 2016年第3期618-622,共5页
针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特... 针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特征参数后,把静态机密语音信息装载到VOIP语音的静音帧内伪装背景噪声进行信息隐秘传输,在接收端获取机密语音并重构载体语音。实验结果表明,在保证语音质量的前提下,该方法具有960bps以上的隐藏容量和很好的隐蔽性能。 展开更多
关键词 语音编码 信息隐藏 流媒体 静音检测 隐蔽性
在线阅读 下载PDF
基于小数基音延迟相关性的自适应多速率语音流隐写分析 被引量:2
8
作者 田晖 吴俊彦 +2 位作者 严艳 王慧东 全韩彧 《计算机学报》 EI CAS CSCD 北大核心 2022年第6期1308-1325,共18页
网络语音流隐写分析是信息隐藏检测领域中的一个研究热点.针对自适应多速率语音流隐写检测问题,本文提出了一种基于小数基音延迟相关性的隐写分析方案.首先通过理论分析和实验对比验证了小数基音延迟相关性作为隐写特征的有效性;其次,... 网络语音流隐写分析是信息隐藏检测领域中的一个研究热点.针对自适应多速率语音流隐写检测问题,本文提出了一种基于小数基音延迟相关性的隐写分析方案.首先通过理论分析和实验对比验证了小数基音延迟相关性作为隐写特征的有效性;其次,摒弃了“手工”寻找特征的传统方式,通过采用深度神经网络获取编码参数的相关性,分别设计了基于局部相关性的检测模型、基于全局相关性的检测模型以及基于特征融合的检测模型;最后,以上述3种模型为基础,结合基于线性回归的多模型融合思想,给出了7种检测模式,即3种单一模型检测模式和4种多模型融合检测模式.通过大量的语音样本,对方案进行了性能评估,并与相关工作进行了实验对比分析.实验结果表明,方案中提出的各种检测模式均是可行和有效的,其中三模型融合检测模式整体性能最优.此外,本文工作填补了基于小数基音延迟隐写检测的空白,且较之已有方案对于各类基音延迟隐写方法在任意的嵌入率和样本长度下均具有更好的检测性能和更低的时间开销,从而实现了更为实时高效的检测. 展开更多
关键词 隐写分析 深度学习 多元线性回归 网络语音流 自适应多速率语音编码 小数基音延迟
在线阅读 下载PDF
英语语流音变与语音教学 被引量:4
9
作者 白心敏 《河北北方学院学报(社会科学版)》 2012年第3期93-95,共3页
多年来,中国的英语语音教学一直以音段音位内容为重,忽略了超音段音位内容的讲授,造成学生语音水平较低,汉语腔调浓重。超音段音位包括重音、节奏、声调、语调、语流音变等。语流音变是超音段音位的一项重要内容,熟练掌握音变的规律及... 多年来,中国的英语语音教学一直以音段音位内容为重,忽略了超音段音位内容的讲授,造成学生语音水平较低,汉语腔调浓重。超音段音位包括重音、节奏、声调、语调、语流音变等。语流音变是超音段音位的一项重要内容,熟练掌握音变的规律及技巧对培养流畅的英语会话者起着举足轻重的作用。 展开更多
关键词 连贯语流 语流音变 语音教学
在线阅读 下载PDF
一种基于数据筛的音频视频连续语音识别系统 被引量:1
10
作者 谢磊 I Ravyse +4 位作者 蒋冬梅 赵荣椿 H Sahli W Verhelst J Cornelis 《计算机应用》 CSCD 北大核心 2003年第7期1-3,共3页
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双... 文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。 展开更多
关键词 语音识别 音频视频 连续语音识别 数据筛 多数据流HMM
在线阅读 下载PDF
多数据流子带噪声语音识别方法 被引量:1
11
作者 蒋文建 韦岗 《计算机工程与应用》 CSCD 北大核心 2001年第19期52-54,共3页
提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通... 提出一种噪声下的多数据流子带语音识别方法。传统的子带特征方法虽然能提高噪声下的语音识别性能,但通常会使无噪声情况下的识别性能下降。新方法提取感知线性预测(PLP)特征和子带特征,分别进行识别,然后在识别概率层将两者相结合。通过E-Set在NoiseX92下的白噪声的识别实验表明,新方法不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。 展开更多
关键词 语音识别 噪声 多数据流 子带 隐马尔可夫模型
在线阅读 下载PDF
关于美国英语非正式口语连贯语流中的发音规律 被引量:1
12
作者 司福成 《华侨大学学报(哲学社会科学版)》 2005年第3期128-132,共5页
当前,美国通用英语(GA)在很大程度上影响着我国的英语教学与实际应用。文章旨在探讨和研究美国通用英语(GA)在非正式口语连贯语流中的发音规律,其特点与正常美国口语有很大差别,这主要表现在连贯语流中的音位变化,其中一些特殊发音的美... 当前,美国通用英语(GA)在很大程度上影响着我国的英语教学与实际应用。文章旨在探讨和研究美国通用英语(GA)在非正式口语连贯语流中的发音规律,其特点与正常美国口语有很大差别,这主要表现在连贯语流中的音位变化,其中一些特殊发音的美式拼法已发展成了固定使用的词汇,甚至已进入了词典,说明英语语音的不断发展变化已影响到了英语词汇的拼写形式及其词语的发展。这是学习英语必须重视的。 展开更多
关键词 发音规律 非正式口语 连贯语流 语流音变 美式拼法
在线阅读 下载PDF
基于At-LSTM模型的音/视频双流语音识别算法仿真 被引量:6
13
作者 张添添 王婧 《计算机仿真》 北大核心 2023年第1期251-254,282,共5页
语音中的噪声会影响语音信号中的正常信息,影响语音识别效果,为提升音/视频双流语音识别准确率与效率,提出基于注意力LSTM的音/视频双流语音识别算法。使用小波阈值方法对音/视频双流语音数据实施去噪处理,依据去噪结果对语音数据矢量量... 语音中的噪声会影响语音信号中的正常信息,影响语音识别效果,为提升音/视频双流语音识别准确率与效率,提出基于注意力LSTM的音/视频双流语音识别算法。使用小波阈值方法对音/视频双流语音数据实施去噪处理,依据去噪结果对语音数据矢量量化;基于语音数据量化结果构建At-LSTM模型,运用该模型提取语音数据的局部与整体特征,并融合处理特征;基于语音数据特征融合结果,对语音数据实施分类,实现音/视频双流语音的识别。实验结果表明,使用上述方法识别音/视频双流语音时,识别准确率高、识别时间短,且语音中的含噪部分较少,识别的语音更加流畅。 展开更多
关键词 注意力机制 音/视频 双流语音识别 语音数据去噪
在线阅读 下载PDF
噪声自适应的多数据流复合子带语音识别方法 被引量:3
14
作者 张军 韦岗 《电子与信息学报》 EI CSCD 北大核心 2006年第7期1183-1187,共5页
首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中;然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪... 首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中;然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪声中的互补性能,提出了一种噪声自适应的多数据流复合子带语音识别方法。实验结果表明,所提识别方法可以自适应地选出全带和子带数据流中受噪声影响较小者并以之为主要依据进行识别,有效地提高了识别系统在多变噪声环境中的鲁棒性。 展开更多
关键词 语音识别 丢失数据 边缘化 多数据流 复合子带
在线阅读 下载PDF
鞍山方言的语音特征 被引量:3
15
作者 赵彩红 陈会斌 《辽宁科技大学学报》 CAS 2014年第2期184-187,共4页
鞍山方言作为东北方言的重要组成部分,一直以来很少有人研究。为了保护作为鞍山地方文化一部分的鞍山方言,通过实地考察,从语音方面记录和描述了鞍山方言在声调变化和声韵母转换等方面的特征,得出了鞍山方言与普通话在不同语音特征上的... 鞍山方言作为东北方言的重要组成部分,一直以来很少有人研究。为了保护作为鞍山地方文化一部分的鞍山方言,通过实地考察,从语音方面记录和描述了鞍山方言在声调变化和声韵母转换等方面的特征,得出了鞍山方言与普通话在不同语音特征上的主要表现,指出了鞍山方言在平翘舌发音、声母[r]的硬腭化等方面的一些不同于普通话的语音现象与特征。 展开更多
关键词 鞍山方言 语音特点 语流音变 声、韵母转换 儿化音
在线阅读 下载PDF
汉语节律朗读——读者语流音律和作者意象心律的碰撞 被引量:1
16
作者 吴洁敏 何文忠 《浙江教育学院学报》 2003年第6期73-78,共6页
字正腔圆、表情达意的节律朗读 ,是读者的语流音律和作者的意象心律相碰撞的产物 ,也是语音链和语意、语用的表里合一。文章列举了汉语节律特征的表意功能 ,分析了导致朗读产生误码的各种因素 ,指出节律朗读的最高境界是“字中有音 ,音... 字正腔圆、表情达意的节律朗读 ,是读者的语流音律和作者的意象心律相碰撞的产物 ,也是语音链和语意、语用的表里合一。文章列举了汉语节律特征的表意功能 ,分析了导致朗读产生误码的各种因素 ,指出节律朗读的最高境界是“字中有音 ,音中无字”。 展开更多
关键词 汉语 节律朗读 语流音律 意象心律 语音
在线阅读 下载PDF
基于分组网络的实时语音自适应同步算法 被引量:1
17
作者 郭永冲 冯泽森 汤俊 《计算机工程与应用》 CSCD 北大核心 2003年第5期178-179,184,共3页
首先介绍了多媒体通信中的流同步问题以及影响同步的各种因素,然后提出一种基于播放时间的自适应同步算法并加以推导证明,最后介绍了它在已设计的语音传输系统中的具体实现。
关键词 分组网络 实时语音自适应同步算法 流同步 多媒体通信 语音传输系统
在线阅读 下载PDF
关于高师英语专业学生语音现状的调查与思考——兼谈英语语音教学中的合作学习策略及学习者的情感 被引量:27
18
作者 刘金梅 《湖北师范学院学报(哲学社会科学版)》 2005年第3期111-114,共4页
回顾语音教学过去一百多年的起伏,从某省属高等师范院校英语专业一年级学生的语音现状,寻求学生语音问题的成因,并提出如下建议:英语教师遵循语言习得的基本原理,科学地对待语音教学;运用合作学习策略,提高学生的语音学习效果;帮助学生... 回顾语音教学过去一百多年的起伏,从某省属高等师范院校英语专业一年级学生的语音现状,寻求学生语音问题的成因,并提出如下建议:英语教师遵循语言习得的基本原理,科学地对待语音教学;运用合作学习策略,提高学生的语音学习效果;帮助学生克服情感障碍,坚定其学好语音的信心。 展开更多
关键词 语音教学 音素 语流 合作学习 情感
在线阅读 下载PDF
基于语音识别的英语翻译器设计研究 被引量:2
19
作者 左广明 胡庭树 《自动化与仪器仪表》 2022年第9期106-109,共4页
为了提高英语翻译语音识别的识别精度,提出基于语音识别的英语翻译器设计方法。设计的英语翻译器分为客户端、网络传输端、流媒体服务器、语音信息处理器以及人机交互界面等。采用多阵列的声传感器实现对英语语音发声采集,构建英语语音... 为了提高英语翻译语音识别的识别精度,提出基于语音识别的英语翻译器设计方法。设计的英语翻译器分为客户端、网络传输端、流媒体服务器、语音信息处理器以及人机交互界面等。采用多阵列的声传感器实现对英语语音发声采集,构建英语语音信号模型,采用谱峰检测方法,进行英语发声语音信号滤波和特征提取,对提取的语音特征采用语义分析方法进行实时翻译,将语音信息输入到翻译器的信息处理器中。设计基于B/S架构的流媒体服务器实现英语翻译器的组网设计和知识库构造,在Hi3520D和Muduo网络库平台下实现翻译器的开发设计。实验结果表明,相较于对照语音翻译系统,所设计英语翻译器的语音识别准确率更高,其具备实际应用价值。 展开更多
关键词 语音识别 英语 翻译器 流媒体 语音信号
原文传递
基于信号能量的浊语音盲信号分离算法 被引量:2
20
作者 李鸿燕 屈俊玲 张雪英 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1665-1670,共6页
针对以往单声道浊语音分离算法对目标语音信号分离不稳定性和信噪比低的不足,引入了浊语音的另一个重要特征,即信号能量。提出了一种基于信号能量的浊语音分离算法,算法对经典的Hu-Wang算法进行了改进,将能量特征应用于听觉重组部分,通... 针对以往单声道浊语音分离算法对目标语音信号分离不稳定性和信噪比低的不足,引入了浊语音的另一个重要特征,即信号能量。提出了一种基于信号能量的浊语音分离算法,算法对经典的Hu-Wang算法进行了改进,将能量特征应用于听觉重组部分,通过能量特征来改进目标语音听觉流的重组性能,降低噪声对重组后的目标听觉流的干扰,提高算法的稳定性。实验结果表明:与Hu-Wang算法相比较,该改进算法可提高目标语音的分段信噪比,改善了目标浊语音的分离性能。 展开更多
关键词 通信技术 计算听觉场景分析 语音分离 信号能量 听觉片段 听觉流
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部