期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
MAP-based Audio Coding Compensation for Speaker Recognition
1
作者 Tao Jiang Jiqing Han 《Journal of Signal and Information Processing》 2011年第3期165-169,共5页
The performance of the speaker recognition system declines when training and testing audio codecs are mismatched. In this paper, based on analyzing the effect of mismatched audio codecs in the linear prediction cepstr... The performance of the speaker recognition system declines when training and testing audio codecs are mismatched. In this paper, based on analyzing the effect of mismatched audio codecs in the linear prediction cepstrum coefficients, a method of MAP-based audio coding compensation for speaker recognition is proposed. The proposed method firstly sets a standard codec as a reference and trains the speaker models in this codec format, then learns the deviation distributions between the standard codec format and the other ones, next gets the current bias via using a small number adaptive data and the MAP-based adaptive technique, and then adjusts the model parameters by the type of coming audio codec format and its related bias. During the test, the features of the coming speaker are used to match with the adjusted model. The experimental result shows that the accuracy reached 82.4% with just one second adaptive data, which is higher 5.5% than that in the baseline system. 展开更多
关键词 audio CODING COMPENSATION SPEAKER RECOGNITION map-Based
在线阅读 下载PDF
基于EchoMimic改进的面部动画生成算法及其应用规范
2
作者 詹奇玮 任好佳 肖甜甜 《计算机科学》 北大核心 2026年第4期326-336,共11页
近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉... 近年来,基于扩散模型的语音驱动面部动画生成方法已取得突破性进展,此类方法能够高效生成长时序、音频嘴型同步的高分辨率讲话视频。然而,当前方法生成的视频在嘴部区域普遍存在显著的模糊与伪影问题,严重制约了合成视频的真实感与视觉可信度。针对这一问题,提出一种基于EchoMimic改进的面部动画生成算法LiveEchoMimic,并深入探讨其标准化应用规范。首先,在技术应用层面,以EchoMimic扩散模型与隐式关键点模型为双核心基础架构,构建了一套端到端的自然化讲话视频生成框架。其中,EchoMimic扩散模型借助音频特征与面部关键点的联合控制机制,完成粗粒度讲话视频的生成任务;隐式关键点模型则采用视频驱动的范式,通过控制隐式关键点空间的位移特征,实现高质量面部动画视频的精细化生成。其次,构建音频-嘴型映射模型,用于精准建模音频特征与嘴部运动状态间的内在关联,并针对性设计映射网络,以强化生成视频的音频-嘴型同步精度。最后,在公开数据集CelebV-HQ、MEAD及私有数据集Avatar上开展大规模实验验证,定量与定性结果表明,LiveEchoMimic方法在视觉质量、音频-嘴型同步性等核心指标上显著优于当前主流方法,实现了最佳的视频生成性能。在应用规范层面,鉴于高度逼真的语音驱动面部动画技术可能引发身份与行为的失真问题,从面临挑战、应用理念、实施措施等方面提出了可操作性的建议,以促进语音驱动面部动画技术在可控、安全前提下更好地契合社会发展需求。 展开更多
关键词 扩散模型 隐式关键点模型 音频-嘴型同步 隐式空间 映射网络 面部动画 身份与行为失真
在线阅读 下载PDF
基于BiLSTM与Chroma的音频与文本特征映射方法研究
3
作者 卢心陶 《北京工业职业技术学院学报》 2026年第1期25-30,共6页
随着人工智能技术的发展,跨媒体信息检索已然成为一个重要的研究方向。提出一种基于深度学习的跨媒体特征映射方法,采用包含双向长短期记忆网络(BiLSTM)的循环神经网络模型,使用Chroma向量表示歌曲音频中音高信息的时序特征,并将该特征... 随着人工智能技术的发展,跨媒体信息检索已然成为一个重要的研究方向。提出一种基于深度学习的跨媒体特征映射方法,采用包含双向长短期记忆网络(BiLSTM)的循环神经网络模型,使用Chroma向量表示歌曲音频中音高信息的时序特征,并将该特征映射到通过词向量技术生成的文档向量。通过这种非线性映射,系统能够根据给定的文本内容检索匹配或类似的音乐,从而实现根据实时文本或对话内容自动匹配背景音乐等应用场景功能。实验结果表明:模型能够成功学习并建立音频特征与文本特征之间的对应关系。 展开更多
关键词 音频识别 深度学习 跨媒体映射 特征映射
在线阅读 下载PDF
可控源音频大地电磁测深法在冀东地区地热资源勘探中的应用
4
作者 郝晋 赵伟锋 +5 位作者 孙建宏 李添 王瑞鹏 杨舒为 谢吾 胡浩 《工程地球物理学报》 2026年第2期100-109,共10页
地热资源作为一种宝贵的绿色能源,具备显著的开发潜力。冀东地区的地热资源分布主要受断裂构造的控制,通过可控源音频大地电磁测深法对工作区进行系统勘查,以明确其构造特征性质及分布规律;通过对剖面数据进行处理,提取了各剖面在100 m... 地热资源作为一种宝贵的绿色能源,具备显著的开发潜力。冀东地区的地热资源分布主要受断裂构造的控制,通过可控源音频大地电磁测深法对工作区进行系统勘查,以明确其构造特征性质及分布规律;通过对剖面数据进行处理,提取了各剖面在100 m、300 m、500 m深度的电阻率数值,并绘制了相应深度的电阻率平面等值线图,以此圈定低阻异常区在空间上的分布情况;结合断裂构造特征及低阻异常区的平面空间分布规律,成功圈定了地热资源赋存区域,并为钻孔布设提供了指导。钻探验证结果表明,地下热水资源受F2断层控制,与本研究的推断结果一致。综合分析表明,该技术方法具有可行性,找热成果显著,对冀东地区深部地热资源勘探具有积极的指导意义。 展开更多
关键词 可控源大地电磁测深法 断裂构造 电阻率平面图 地热资源
在线阅读 下载PDF
基于文旅深度融合的非遗文化开发利用研究——以方言版荔浦风物传说主题有声地图项目为例
5
作者 刘莉 司雅伦 《文化创新比较研究》 2025年第15期100-104,共5页
文旅融合发展已成为党、国家和人民的基本共识。当下,在文旅产业发展过程中,存在产品趋同化现象。如何避免旅游产品的同质化,使文旅深度融合得以落实,是当前需要不断实践探索的问题。“方言版荔浦风物传说主题有声地图”项目,根据文化... 文旅融合发展已成为党、国家和人民的基本共识。当下,在文旅产业发展过程中,存在产品趋同化现象。如何避免旅游产品的同质化,使文旅深度融合得以落实,是当前需要不断实践探索的问题。“方言版荔浦风物传说主题有声地图”项目,根据文化叙事和文化展示理论,以荔浦风物传说为主题,发挥方言充分展示地方文化的优势,并以方言为契合点整合非遗文旅资源,利用数字科技和互联网技术,在单一的山水观光线路外,推出具有地域文化特点的精品文旅线路。项目建成后,能创新非遗传承与传播的模式,有效避免旅游产品同质化问题,增强地方旅游的吸引力和竞争力,实现非遗文旅的深度融合,促进旅游产业高质量发展。 展开更多
关键词 荔浦风物传说 方言 有声地图 文旅融合 非物质文化遗产 数字化
原文传递
可控源音频大地电磁测深金属矿的数据处理与应用
6
作者 王在伟 苑高选 +2 位作者 李源 孙杰 谢立洋 《世界有色金属》 2025年第12期180-182,共3页
本文综述可控源音频大地电磁测深(CSAMT)技术的数据处理与解释方法,重点阐述CSAMT的工作原理和在地质勘探中的应用优势,介绍了数据处理中关键技术,分析了线性、非线性和迭代反演算法的优劣及其适用条件,总结不同成图技术特点并探讨了解... 本文综述可控源音频大地电磁测深(CSAMT)技术的数据处理与解释方法,重点阐述CSAMT的工作原理和在地质勘探中的应用优势,介绍了数据处理中关键技术,分析了线性、非线性和迭代反演算法的优劣及其适用条件,总结不同成图技术特点并探讨了解释结果的综合性和多信息解释的重要性。文章还展望了人工智能和多尺度融合技术在未来CSAMT数据处理与解释中的应用潜力,旨为地球物理勘探领域的研究与实践提供参考。此外,以内蒙古哈珠东山地区为例,重点研究可控源音频大地电磁测深在多金属矿普查中的具体应用,在工区布设CSAMT剖面1条,识别出2条北西向隐伏断裂,认为CSAMT在西部覆盖区有着很好的应用前景。 展开更多
关键词 可控源音频大地电磁测深 数据处理 反演方法 成图技术 数据解释
在线阅读 下载PDF
基于两层隐马尔可夫模型的可视语音合成 被引量:4
7
作者 尹宝才 李敬华 +1 位作者 贾熹滨 孙艳丰 《北京工业大学学报》 EI CAS CSCD 北大核心 2006年第5期416-418,共3页
为了解决可视语音合成中语音与口型多对多的对应关系,本文提出基于两层隐马尔可夫模型的可视语音合成,该模型有效结合了语音和口型的上下文相关性,解决了语音与口型多对多的对应问题,合成出了准确率高、连贯、自然的口型序列,该方法具... 为了解决可视语音合成中语音与口型多对多的对应关系,本文提出基于两层隐马尔可夫模型的可视语音合成,该模型有效结合了语音和口型的上下文相关性,解决了语音与口型多对多的对应问题,合成出了准确率高、连贯、自然的口型序列,该方法具有完全自动化的特点. 展开更多
关键词 语音合成 映射 隐马尔可夫模型
在线阅读 下载PDF
语音同步的可视语音合成技术研究 被引量:6
8
作者 贾熹滨 尹宝才 李敬华 《北京工业大学学报》 CAS CSCD 北大核心 2005年第6期656-661,共6页
为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析... 为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨.在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建.分析了目前国内外研究方法的主要解决方案,提出了在未来研究中本系统将采用的系统框架和重点研究内容. 展开更多
关键词 语音动画 声视频映射 特征定位 人脸建模
在线阅读 下载PDF
新颖的音频信息隐藏算法 被引量:4
9
作者 王让定 李倩 陈金儿 《光电工程》 EI CAS CSCD 北大核心 2005年第9期79-82,共4页
基于混沌映射和改进Patchwork算法的DWT(discretewavelettransform)域音频信息隐藏技术,实现保密语音在音频信号中的隐藏与恢复。利用混沌序列保密性高和容易再生的特性,保证了算法的安全性;新颖的Patchwork算法,修改部分小波系数,使其... 基于混沌映射和改进Patchwork算法的DWT(discretewavelettransform)域音频信息隐藏技术,实现保密语音在音频信号中的隐藏与恢复。利用混沌序列保密性高和容易再生的特性,保证了算法的安全性;新颖的Patchwork算法,修改部分小波系数,使其统计特征产生相反方向偏移,实现保密语音码流的隐藏。混沌序列的使用与小波系数修改的隐蔽性,加强了算法的安全性;在保证隐藏量的同时,实现了隐藏信息的盲提取。实验表明,隐藏信息后载体音频SNR在50dB左右;在载体音频失真可容忍的情况下,提取的保密语音码流BER均小于0.1%,能够保证隐藏音频的听觉质量和隐藏信息的安全。 展开更多
关键词 信息隐藏 音频 小波变换 混沌映射
在线阅读 下载PDF
基于帐篷映射迭路的置乱方法 被引量:4
10
作者 叶瑞松 庄乐仪 《计算机应用》 CSCD 北大核心 2009年第10期2713-2715,共3页
提出了一种基于帐篷映射迭路的音频和图像的置乱方法。帐篷映射迭路产生的编码可用于音频信号置乱。另外,将映射推广至二维便可用于图像置乱;讨论了图像置乱的置乱度、置乱周期和鲁棒性。和传统的Arnold变换的置乱比较,该方法总体上具... 提出了一种基于帐篷映射迭路的音频和图像的置乱方法。帐篷映射迭路产生的编码可用于音频信号置乱。另外,将映射推广至二维便可用于图像置乱;讨论了图像置乱的置乱度、置乱周期和鲁棒性。和传统的Arnold变换的置乱比较,该方法总体上具有更大的置乱周期和更好的置乱度。 展开更多
关键词 迭路 帐篷映射 置乱 音频 图像
在线阅读 下载PDF
丢包对音频流体验质量的影响分析 被引量:2
11
作者 张大陆 沈斌 +1 位作者 胡治国 侯翠平 《计算机应用》 CSCD 北大核心 2009年第1期16-17,31,共3页
分组网络中丢包对音频流媒体用户体验具有显著影响,为了深入分析两者间的相关性,设计了丢包可控的多媒体仿真传输实验平台,采用回归分析,建立了编码方式、RTP分组间隔等多因素限定下丢包率与体验质量间的映射模型。该模型计算复杂度低,... 分组网络中丢包对音频流媒体用户体验具有显著影响,为了深入分析两者间的相关性,设计了丢包可控的多媒体仿真传输实验平台,采用回归分析,建立了编码方式、RTP分组间隔等多因素限定下丢包率与体验质量间的映射模型。该模型计算复杂度低,可实时预测丢包对体验质量的损害。 展开更多
关键词 体验质量 音频流 丢包 映射模型
在线阅读 下载PDF
基于混沌的语音实时加密传输系统 被引量:3
12
作者 陈平华 谢国波 +1 位作者 刘怡俊 杨时楷 《通信技术》 2010年第8期140-142,145,共4页
提出了一种基于Logistic映射的语音混沌加密方案,该方案选择参数μ、迭代初始值和初始迭代次数作为密钥,扩大了密钥空间,避免了Logistic映射所遇到的周期窗口问题和短周期问题。基于该方案,在ARM9开发板上,开发了包含语音采集、压缩、... 提出了一种基于Logistic映射的语音混沌加密方案,该方案选择参数μ、迭代初始值和初始迭代次数作为密钥,扩大了密钥空间,避免了Logistic映射所遇到的周期窗口问题和短周期问题。基于该方案,在ARM9开发板上,开发了包含语音采集、压缩、实时加/解密等功能的语音实时加密传输系统。测试结果表明,经压缩/解压、加密/解密后的语音波形与原始波形相比,失真小,加密后的语音波形分布均匀,方案可行。 展开更多
关键词 混沌 LOGISTIC映射 语音加密
原文传递
基于混沌置乱的小波域数字音频水印算法 被引量:1
13
作者 王庆席 郑晓势 +2 位作者 刘广起 赵彦玲 李娜 《电声技术》 2006年第7期35-38,共4页
利用混沌动力学系统中logistic映射先对水印图像进行置乱预处理以增强其鲁棒性,在小波域中将原始音频信号按比例分段,此比例为原始音频信号低频部分与水印信号个数之比,然后将水印信号加入到音频信号的低频部分。用StirMark攻击后的实... 利用混沌动力学系统中logistic映射先对水印图像进行置乱预处理以增强其鲁棒性,在小波域中将原始音频信号按比例分段,此比例为原始音频信号低频部分与水印信号个数之比,然后将水印信号加入到音频信号的低频部分。用StirMark攻击后的实验结果表明,该算法对StirMark的部分攻击具有一定的鲁棒性。 展开更多
关键词 数字水印 音频水印 置乱加密 离散小波变换 LOGISTIC映射
在线阅读 下载PDF
音频大地电磁法在黄土区填图中的应用 被引量:1
14
作者 郭伟 张少鹏 +7 位作者 杜利明 胡创业 李朝柱 胡加斌 陈琦 王小玉 张保涛 张永三 《华北地震科学》 2020年第2期72-77,共6页
通过在工作区内布设音频大地电磁测线,并结合当地已有的地质与测井资料对测深数据进行约束反演,结果表明:①音频大地电磁测深法对工作区的地层岩性分层具有较好的效果,并对深部的基岩面与上部土层的分界具有较好的反映;②工作区内的地... 通过在工作区内布设音频大地电磁测线,并结合当地已有的地质与测井资料对测深数据进行约束反演,结果表明:①音频大地电磁测深法对工作区的地层岩性分层具有较好的效果,并对深部的基岩面与上部土层的分界具有较好的反映;②工作区内的地层产状比较稳定;③测点点距对结果精准度有一定的影响。进一步总结了音频大地电磁法在黄土区填图中的适用性,对指导音频大地电磁法在黄土区填图中应用具有重要意义。 展开更多
关键词 音频大地电磁法 黄土区 填图 应用
在线阅读 下载PDF
X终端音频文件系统映射设计
15
作者 黎茂锋 刘志勤 龙伟 《计算机工程与设计》 CSCD 北大核心 2006年第5期749-751,共3页
Linux操作系统下的X-Windows系统仅能实现终端机上的远程图形用户界面,而不能实现声音在终端机上的远程播放,直接限制了X终端的多媒体表达能力。利用虚拟设备机制和远程映射机制,让服务器端用户进程在运行过程中的音频数据映射到服务器... Linux操作系统下的X-Windows系统仅能实现终端机上的远程图形用户界面,而不能实现声音在终端机上的远程播放,直接限制了X终端的多媒体表达能力。利用虚拟设备机制和远程映射机制,让服务器端用户进程在运行过程中的音频数据映射到服务器端编制的虚拟音频设备上,虚拟音频设备软件截取相关数据后,透过网络发送到对应的X终端,X终端机再利用相关软件映射到本地音频设备进行媒体再现。该模式实现了音频设备的远程映射,使得多媒体播放更加流畅,X终端应用更加广泛。 展开更多
关键词 X—Windows X终端 音频文件系统 映射 虚拟设备
在线阅读 下载PDF
广西博白县混合岩化银铅锌矿区地球物理方法快速找矿评价
16
作者 黄理善 敬荣中 +3 位作者 赵毅 唐艳萍 李渊 裴超 《地质论评》 CAS CSCD 北大核心 2016年第B11期387-388,共2页
市场经济条件下,金属矿产资源的勘查工作越来越注重时效,特别是在一些成矿地质条件复杂、植被覆盖较厚的地区,应用便捷、有效、经济的地球物理勘探方法,能快速圈定矿区的地球物理异常,可对矿区成矿前景做出快速评价,达到事半功倍... 市场经济条件下,金属矿产资源的勘查工作越来越注重时效,特别是在一些成矿地质条件复杂、植被覆盖较厚的地区,应用便捷、有效、经济的地球物理勘探方法,能快速圈定矿区的地球物理异常,可对矿区成矿前景做出快速评价,达到事半功倍的效果。广西博白县文地镇堂兰银铅锌矿区域变质岩及混合岩广泛发育,矿体受混合岩化控制,产于矽卡岩之中。 展开更多
关键词 地质特征 激电中梯扫面 可控源音频大地电磁测深 银铅锌矿 博白
在线阅读 下载PDF
基于离散余弦变换语音水印算法的研究和实现
17
作者 陈昕 郝川艳 《福建师范大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第5期40-42,48,共4页
作为信息隐藏技术中的数字水印技术是信息时代的一个热门研究课题,语音水印技术由于受到人听觉特性的限制,使得传统数字水印技术在实现上有一定难度.提出并实现了一种基于均值量化的DCT域语音水印算法,将置乱技术、均值量化技术引入传统... 作为信息隐藏技术中的数字水印技术是信息时代的一个热门研究课题,语音水印技术由于受到人听觉特性的限制,使得传统数字水印技术在实现上有一定难度.提出并实现了一种基于均值量化的DCT域语音水印算法,将置乱技术、均值量化技术引入传统的DCT域语音水印算法中,有效提高了语音水印系统的透明性、安全性及鲁棒性. 展开更多
关键词 离散余弦变换 数字水印 语音水印 均值量化 置乱技术
在线阅读 下载PDF
多媒体电子地图中数字音频水印的研究与实现
18
作者 王俊 《计算机与数字工程》 2006年第1期140-142,共3页
讨论了多媒体电子地图中数字音频水印技术的原理及实现过程,提供了一条通过数字音频水印对多媒体电子地图产品进行版权保护的途径。
关键词 多媒体电子地图 数字音频水印 版权保护
在线阅读 下载PDF
基于定性映射的数字音频水印算法 被引量:2
19
作者 周炎岩 冯嘉礼 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第2期200-204,共5页
在将Harr小波归结为两定性映射的差的基础上,本文提出一种基于定性映射小波变换和均值量化理论的数字音频水印算法。本算法在一段数字音频文件中隐藏一幅对于听觉不可感知的二值图像。在图像预处理阶段,引入了基于极化恒等式的数字图像... 在将Harr小波归结为两定性映射的差的基础上,本文提出一种基于定性映射小波变换和均值量化理论的数字音频水印算法。本算法在一段数字音频文件中隐藏一幅对于听觉不可感知的二值图像。在图像预处理阶段,引入了基于极化恒等式的数字图像加密算法,大大加强了算法的安全性。利用人类听觉特性,通过定性映射诱导的小波,将水印信号嵌入到经过处理的小波变换的低频系数中。仿真实验表明:所提出的算法具有较强的鲁棒性和不可感知性,并能抵御常见的各种攻击。 展开更多
关键词 数字音频水印 定性映射 离散小波变换 均值量化
在线阅读 下载PDF
基于DAB信号的城市车辆定位方法研究
20
作者 丁柏群 邹浙湘 《交通标准化》 2010年第3期99-101,共3页
通过阐述数字音频广播的特点,发现DAB/GIS组合定位是一个高精度、高可靠性、经济、适用于车辆在复杂城市环境中的定位方案。同时,基于DAB定位伪距测量的原理和定位实现方法,可有效分析DAB信号定位技术的特点。该方法可对现有定位技术如... 通过阐述数字音频广播的特点,发现DAB/GIS组合定位是一个高精度、高可靠性、经济、适用于车辆在复杂城市环境中的定位方案。同时,基于DAB定位伪距测量的原理和定位实现方法,可有效分析DAB信号定位技术的特点。该方法可对现有定位技术如GPS定位形成有益的补充。 展开更多
关键词 数字音频广播 车辆定位 伪距 地图匹配
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部