期刊文献+
共找到2,767篇文章
< 1 2 139 >
每页显示 20 50 100
Fine-scale Phased-array Radar Observations of an EF2 Tornadic Supercell near Mountain Lee
1
作者 Zhaoming LI Lanqiang BAI +1 位作者 Pak Wai CHAN Peiling FU 《Advances in Atmospheric Sciences》 2025年第7期1365-1375,共11页
This study presents finely resolved radar signatures of multiple cyclonic vortices associated with an EF2 tornadic supercell that occurred in Guangzhou on 16 June 2022 and discusses how the mesocyclone formed on the l... This study presents finely resolved radar signatures of multiple cyclonic vortices associated with an EF2 tornadic supercell that occurred in Guangzhou on 16 June 2022 and discusses how the mesocyclone formed on the lee side of mountain.A nearby X-band phased-array radar provides evidence that the mesocyclone was shallow,with a depth generally confined to less than 3 km.The mesocyclonic feature was observed to initiate from near-ground level,driven by the interaction between intensifying cold pool surges and shallow lee-side ambient flows.It was first recognized shortly after the presence of near-ground cyclonic convergence signatures over the leading edges of cold pool outflows.Over the subsequent 17 min,the mesocyclone developed upward,reaching a maximum height of 3 km,and produced a tornado 8min later.Nearly coinciding with the time of tornadogenesis,a noticeable separation of the low-level tornado cyclone from the midlevel mesocyclone was observed.This shift in the vertically oriented vortex tube was likely caused by modifications to the low-level flow due to the complex hilly terrain or by occlusions associated with rear-flank downdrafts.After tornadogenesis,high-resolution X-PAR observations revealed that the lowest-level mesocyclonic signature contracted into a gate-to-gate tornadic vortex signature(TVS)at the tip of hook echoes.Compared to conventional S-band operational weather radars,rapid-scan X-PAR observations indicate that a core diameter threshold of 1.5–2 km could be employed to identify a cyclonically sheared radial velocity couplet as a TVS,potentially extending the lead time for Doppler-based tornado warnings. 展开更多
关键词 phased-array radar MESOCYCLONE TORNADO cold pool outflow topography
在线阅读 下载PDF
Forest Fire Monitoring Analysis Based on X-band Dual-Polarization Phased-Array Radar and Himawari-8 Satellite Remote Sensing
2
作者 WEN Wen ZHANG Yu +3 位作者 LIU Xian-tong ZHAO Wen-hua XIAO Hui XU Bi-yu 《Journal of Tropical Meteorology》 2025年第4期422-433,共12页
To verify the detection capability of X-band dual-polarization phased-array radar for forest fires,this paper utilizes X-band dual-polarization phased-array radar data,Himawari-8 satellite data,combined with ground me... To verify the detection capability of X-band dual-polarization phased-array radar for forest fires,this paper utilizes X-band dual-polarization phased-array radar data,Himawari-8 satellite data,combined with ground meteorological automatic station data.A case study of a forest fire in Ao Feng Mountain on February 19,2021,was conducted to comparatively analyze the monitoring results from these two remote sensing methods.The results show that both methods exhibit significant features associated with the forest fire process observed and are effective modern methods of forest fire monitoring.The Himawari-8 satellite identified the fire point at 07:10(LST;LST=UTC+8)with subsequent observations every 10 minutes until 10:00,nearly two hours before the fire was fully extinguished.Compared with the satellite,the Xband dual polarization phased array radar detectedthe fire 14 minutes earlier,with an improved temporal resolution of one minute,and was not affected by cloud cover.In the triggering stage,vigorous stage,sustained burning stage,and extinguishing stage of the forest fire,radar characteristic factors including reflectivity(Z),differential reflectivity(ZDR),and correlation coefficient(CC)showed strong correlations with the fire progression.The radar monitoring results were continuous,complete,and precise.In summary,the X-band dual-polarization phased-array radar offers more detailed detection information,shorter detection time interval,and higher detection spatial accuracy.It presents a promising new method for forest fire detection,providing crucial guidance for on-site rescue operations,particularly for small-scale fire events. 展开更多
关键词 forest fire monitoring phased-array radar SATELLITE
在线阅读 下载PDF
Fine-Scale Spatiotemporal Characteristics of Warm-Season Severe Convection in 2021 Revealed from X-Band Phased-Array Radar Network Observations in Xiamen,China
3
作者 ZHANG Yu-qing HUANG Yi-peng +3 位作者 HUANG Xin ZHENG Hui SU Zhi-zhong HUANG Qi-nan 《Journal of Tropical Meteorology》 2025年第5期530-544,共15页
In September 2020,a pioneering observational network of three X-band phased-array radars(XPARs)was established in Xiamen,a subtropical coastal and densely populated city in southeastern China.Statistically,this study ... In September 2020,a pioneering observational network of three X-band phased-array radars(XPARs)was established in Xiamen,a subtropical coastal and densely populated city in southeastern China.Statistically,this study demonstrated that the XPAR network outperforms single S-band radar in revealing the warm-season convective storms in Xiamen in a fine-scale manner.The findings revealed that convective activity in Xiamen is most frequent in the central and northern mountainous regions,with lower frequency observed in the southern coastal areas.The diurnal pattern of convection occurrence exhibited a unimodal distribution,with a peak in the afternoon.The frequent occurrence of convective storms correlates well in both time and space with the active terrain uplift that occurs when the prevailing winds encounter mountainous areas.Notably,September stands apart with a bimodal diurnal pattern,featuring a prominent afternoon peak and a significant secondary peak before midnight.Further examination of dense rain gauge data in Xiamen indicates that high-frequency areas of short-duration heavy rainfall largely coincide with regions of active convective storms,except for a unique rainfall hotspot in southern Xiamen,where moderate convection frequency is accompanied by substantial rainfall.This anomalous rainfall,predominantly nocturnal,appears less influenced by terrain uplift and exhibits higher precipitation efficiency than daytime rainfall.These preliminary findings offer insights into the characteristics of convection occurrence in Xiamen's subtropical coastal environment and hold promise for enhancing the accuracy of convection and precipitation forecasts in similar environments. 展开更多
关键词 X-band phased-array radar convective storms radar climatology terrain uplift
在线阅读 下载PDF
Deep Learning-Based Identification of Cracks Using Ultrasonic Phased-Array Images
4
作者 Lijuan Yang Huan Liu +3 位作者 Desheng Wu Zhibo Yang Xuefeng Chen Shaohua Tian 《Acta Mechanica Solida Sinica》 2025年第5期803-814,共12页
In order to realize the automatic recognition and classification of cracks with different depths,in this study,several deep convolutional neural networks including AlexNet,ResNet,and DenseNet were employed to identify... In order to realize the automatic recognition and classification of cracks with different depths,in this study,several deep convolutional neural networks including AlexNet,ResNet,and DenseNet were employed to identify and classify cracks at different depths and in various materials.An analysis process for the automatic classification of crack damage was presented.The image dataset used for model training was obtained from scanning experiments on aluminum and titanium alloy plates using an ultrasonic phased-array flaw detector.All models were trained and validated with the dataset;the proposed models were compared using classification precision and loss values.The results show that the automatic recognition and classification of crack depth can be realized by using the deep learning algorithm to analyze the ultrasonic phased array images,and the classification precision of DenseNet is the highest.The problem that ultrasonic damage identification relies on manual experience is solved. 展开更多
关键词 Crack damage Deep convolutional neural network Ultrasonic phased-array image Automatic crack recognition
原文传递
A 24−30 GHz 8-element dual-polarized 5G FR2 phased-array transceiver IC with 20.8-dBm TX OP1dB and 4.1-dB RX NF in 65-nm CMOS
5
作者 Yongran Yi Dixian Zhao +5 位作者 Jiajun Zhang Peng Gu Chenyu Xu Yuan Chai Huiqi Liu Xiaohu You 《Journal of Semiconductors》 EI CAS CSCD 2024年第1期22-32,共11页
This article presents an 8-element dual-polarized phased-array transceiver(TRX)front-end IC for millimeter-wave(mm-Wave)5G new radio(NR).Power enhancement technologies for power amplifiers(PA)in mm-Wave 5G phased-arra... This article presents an 8-element dual-polarized phased-array transceiver(TRX)front-end IC for millimeter-wave(mm-Wave)5G new radio(NR).Power enhancement technologies for power amplifiers(PA)in mm-Wave 5G phased-array TRX are discussed.A four-stage wideband high-power class-AB PA with distributed-active-transformer(DAT)power combining and multi-stage second-harmonic traps is proposed,ensuring the mitigated amplitude-to-phase(AM-PM)distortions across wide carrier frequencies without degrading transmitting(TX)power,gain and efficiency.TX and receiving(RX)switching is achieved by a matching network co-designed on-chip T/R switch.In each TRX element,6-bit 360°phase shifting and 6-bit 31.5-dB gain tuning are respectively achieved by the digital-controlled vector-modulated phase shifter(VMPS)and differential attenuator(ATT).Fabricated in 65-nm bulk complementary metal oxide semiconductor(CMOS),the proposed TRX demonstrates the measured peak TX/RX gains of 25.5/21.3 dB,covering the 24−29.5 GHz band.The measured peak TX OP1dB and power-added efficiency(PAE)are 20.8 dBm and 21.1%,respectively.The measured minimum RX NF is 4.1 dB.The TRX achieves an output power of 11.0−12.4 dBm and error vector magnitude(EVM)of 5%with 400-MHz 5G NR FR2 OFDM 64-QAM signals across 24−29.5 GHz,covering 3GPP 5G NR FR2 operating bands of n257,n258,and n261. 展开更多
关键词 fifth-generation(5G) power amplifier millimeter-wave TRANSCEIVER phased-array
在线阅读 下载PDF
Rethinking multi-spatial information for transferable adversarial attacks on speaker recognition systems
6
作者 Junjian Zhang Hao Tan +2 位作者 Le Wang Yaguan Qian Zhaoquan Gu 《CAAI Transactions on Intelligence Technology》 SCIE EI 2024年第3期620-631,共12页
Adversarial attacks have been posing significant security concerns to intelligent systems,such as speaker recognition systems(SRSs).Most attacks assume the neural networks in the systems are known beforehand,while bla... Adversarial attacks have been posing significant security concerns to intelligent systems,such as speaker recognition systems(SRSs).Most attacks assume the neural networks in the systems are known beforehand,while black-box attacks are proposed without such information to meet practical situations.Existing black-box attacks improve trans-ferability by integrating multiple models or training on multiple datasets,but these methods are costly.Motivated by the optimisation strategy with spatial information on the perturbed paths and samples,we propose a Dual Spatial Momentum Iterative Fast Gradient Sign Method(DS-MI-FGSM)to improve the transferability of black-box at-tacks against SRSs.Specifically,DS-MI-FGSM only needs a single data and one model as the input;by extending to the data and model neighbouring spaces,it generates adver-sarial examples against the integrating models.To reduce the risk of overfitting,DS-MI-FGSM also introduces gradient masking to improve transferability.The authors conduct extensive experiments regarding the speaker recognition task,and the results demonstrate the effectiveness of their method,which can achieve up to 92%attack success rate on the victim model in black-box scenarios with only one known model. 展开更多
关键词 speaker recognition spoofing attacks
在线阅读 下载PDF
口语交际中的话语潜藏
7
作者 李先银 王博雅 《汉语学报》 北大核心 2025年第2期13-24,共12页
本文以柜台对话中的非疑问式直接请求为例,考察自然口语交际中的话语潜藏现象。文章认为,话语潜藏不是省略,而是口语交际中基于语言框架性的一种话语设计,通过对话语元素的征选、对备选表达形式的选择和对征选元素的排序,实现因人因地... 本文以柜台对话中的非疑问式直接请求为例,考察自然口语交际中的话语潜藏现象。文章认为,话语潜藏不是省略,而是口语交际中基于语言框架性的一种话语设计,通过对话语元素的征选、对备选表达形式的选择和对征选元素的排序,实现因人因地因事的潜藏设计,以满足多样性的表达需求和实现丰富性的表达效果。话语潜藏的运作机制包括说话人征选机制和场景补偿机制,说话人在话语元素征选频次和长短形式的使用频次上有现实的使用偏好,反映出说话人设计的语用驱动。 展开更多
关键词 话语潜藏 说话人设计 场景补偿 互动语言学
原文传递
英语母语者汉语标点符号习得及分级教学研究
8
作者 曾丽娟 彭洁 《语言文字应用》 北大核心 2025年第1期60-73,共14页
文章通过自建语料库探析了英语母语者28类汉语标点符号的正误情况及偏误成因。正误用例及偏误占比均居前5位的用法包括:表示陈述语气的句号、分句之间的逗号、句首状语之后的逗号、较长谓语中间的逗号、并列词语之间的顿号。这5种用法... 文章通过自建语料库探析了英语母语者28类汉语标点符号的正误情况及偏误成因。正误用例及偏误占比均居前5位的用法包括:表示陈述语气的句号、分句之间的逗号、句首状语之后的逗号、较长谓语中间的逗号、并列词语之间的顿号。这5种用法应列为教学的重难点。文章采用正确使用相对频率法、正确率法和蕴含量表三种统计方法探讨英语母语者汉语标点符号习得顺序,提出分级教学建议。并与韩语母语者习得情况进行对比,根据其共性和差异,提出兼具普适性和针对性的建议。 展开更多
关键词 英语母语者 标点符号 偏误分析 习得顺序 分级教学建议
原文传递
短时语音的法庭自动说话人识别研究
9
作者 张翠玲 刘明星 《中国人民公安大学学报(自然科学版)》 2025年第2期100-108,共9页
为了探究短时语音在法庭说话人识别中的应用价值,利用基于似然比框架的法庭自动说话人识别系统,对典型案件条件下的短时语音进行了法庭说话人识别的验证测试和分析比较。通过对不同时长、不同校准集人数规模及其音频数量的测试比较,量... 为了探究短时语音在法庭说话人识别中的应用价值,利用基于似然比框架的法庭自动说话人识别系统,对典型案件条件下的短时语音进行了法庭说话人识别的验证测试和分析比较。通过对不同时长、不同校准集人数规模及其音频数量的测试比较,量化评估了系统在短时语音条件下的识别性能、3种因素对识别性能的影响以及短时语音在司法实践中的应用价值。研究结果表明,短时语音条件下系统仍具有良好的准确性和可靠性,这不仅验证了该系统的有效性和顽健性,也说明了短时语音在司法实践中的应用潜力。 展开更多
关键词 短时语音 法庭说话人识别 自动说话人识别 似然比
在线阅读 下载PDF
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
10
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
说话人识别综述 被引量:1
11
作者 张葛祥 曾鑫 +3 位作者 姚光乐 杨强 贾勇 朱明 《控制工程》 北大核心 2025年第2期251-264,共14页
说话人识别是一种利用人类语音中存在的与身份相关的特征来识别说话人身份的技术,也称为声纹识别。这项技术既是新一代人工智能的重要研究方向,也是计算机领域的研究热点,吸引了许多学者的关注与研究。首先,在结合以往和当前有关该领域... 说话人识别是一种利用人类语音中存在的与身份相关的特征来识别说话人身份的技术,也称为声纹识别。这项技术既是新一代人工智能的重要研究方向,也是计算机领域的研究热点,吸引了许多学者的关注与研究。首先,在结合以往和当前有关该领域的研究工作基础上,概括性地介绍了说话人识别的重要背景知识;然后,综述了以往工作,并从数据集、评估指标和相关比赛三部分对说话人识别系统性能评估进行了一个详细的梳理和归纳;最后,指出了在当前说话人识别方法中存在的难点与挑战。 展开更多
关键词 说话人识别 声纹识别 说话人欺诈 深度学习
原文传递
村上“跑步”类比:文化认同与传播
12
作者 余亮妹 《湖北开放职业学院学报》 2025年第8期193-195,共3页
基于“跑步”文集,探讨类比写作对村上春树文化认同的意义与传播价值。作为一个动态发展的过程,文化认同直接反映在村上写作的不同阶段。在了解其作品西方中心主义潜在置换逻辑的同时也要注意到村上如何在跑步文集中充分调动西方的类比... 基于“跑步”文集,探讨类比写作对村上春树文化认同的意义与传播价值。作为一个动态发展的过程,文化认同直接反映在村上写作的不同阶段。在了解其作品西方中心主义潜在置换逻辑的同时也要注意到村上如何在跑步文集中充分调动西方的类比逻辑“跑”向国际:在无序中求秩序;在秩序中挑战极限;在极致的幻觉中发现本真;在文化的跨越中确立文化认同。对村上文化认同建构过程的研究发现跨文化传播使者的基本素养,即探索正念导向的交流动机、发现生活重复性对人格的锤炼价值、悬置刻板印象、跳出常规绕道瓶颈找自我以及对西方中心主义的警觉。 展开更多
关键词 村上春树 类比 文化认同 西方中心主义 跨文化传播使者
在线阅读 下载PDF
英语母语者对汉语多类型歧义句消歧的韵律特征
13
作者 章婷 明月 《南京师范大学文学院学报》 2025年第1期159-169,共11页
本研究通过声学实验考察了汉语高级水平的英语母语者对汉语三层面九类歧义结构消歧的韵律特征。结果发现:英语母语者可以有效利用韵律手段区别句法歧义,如时长缩短、音高降低和停顿变化;部分采用韵律手段区别语义歧义,即通过一定的音高... 本研究通过声学实验考察了汉语高级水平的英语母语者对汉语三层面九类歧义结构消歧的韵律特征。结果发现:英语母语者可以有效利用韵律手段区别句法歧义,如时长缩短、音高降低和停顿变化;部分采用韵律手段区别语义歧义,即通过一定的音高变化来区别句子的语义焦点;语用歧义消解的韵律特征仅表现为时长和音高的略微变化。这说明高级水平的英语母语者具有一定的汉语韵律编码能力,但其韵律特征表现为单一性、补偿性、错置性和弱化性。该研究证明界面假说并不能完全解释学习者对歧义类型的习得程度,界面需处理的信息量大小以及母语迁移都是影响习得的重要因素。 展开更多
关键词 英语母语者 歧义结构 韵律特征
在线阅读 下载PDF
域对抗神经网络自适应的跨域说话人日志方法
14
作者 牛铜 焦啸林 屈丹 《信息工程大学学报》 2025年第4期379-385,共7页
针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务... 针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务与数据域判别任务的对抗训练;最后,完成在数据域上的自适应。实验对比不同模型在真实场景下的性能,所提模型整体性能优于其他模型。相较于基线模型,数据域不匹配时,两个说话人场景相对提升4.91%,3个说话人场景相对提升5.41%;数据域匹配时,分别相对提升3.81%和5.14%。实验结果表明,所提方法通过降低特征对域信息的敏感性有效提升系统跨域泛化能力。 展开更多
关键词 说话人日志 域对抗神经网络 梯度翻转层 对抗训练 注意力统计池化
在线阅读 下载PDF
汉语国际教育专业基础英语课程课堂焦虑及应对策略
15
作者 刘艳丽 《黄山学院学报》 2025年第3期132-135,共4页
利用外语课堂焦虑量表(FLCAS),采用定量统计与分析方法,对汉语国际教育专业学生基础英语课堂学习焦虑展开具体分析。研究表明,其课堂焦虑度为中等,原因主要在于学习动机不明确、自我负面评价高以及教师的影响。基于此,提出强化学生的内... 利用外语课堂焦虑量表(FLCAS),采用定量统计与分析方法,对汉语国际教育专业学生基础英语课堂学习焦虑展开具体分析。研究表明,其课堂焦虑度为中等,原因主要在于学习动机不明确、自我负面评价高以及教师的影响。基于此,提出强化学生的内在动机、改善课堂环境、发掘有效学习策略、完善课堂过程性评价等对策,以期降低学生外语学习焦虑、提高学习效果。 展开更多
关键词 汉语国际教育专业 基础英语 课堂焦虑 策略
在线阅读 下载PDF
基于声纹特征的伪造语音检测 被引量:1
16
作者 张宇翔 李茁 +4 位作者 陆镜泽 尚增强 陈树丽 王文超 张鹏远 《声学学报》 北大核心 2025年第1期201-210,共10页
目前的伪造语音检测方法在特定数据集上表现良好,但鲁棒性和可解释性较差。伪造语音生成通常通过单一特征实现说话人表示,缺乏对声纹特征的精细控制,导致真伪语音声纹特征分布存在差异。为此提出了一种基于声纹特征的伪造语音检测方法... 目前的伪造语音检测方法在特定数据集上表现良好,但鲁棒性和可解释性较差。伪造语音生成通常通过单一特征实现说话人表示,缺乏对声纹特征的精细控制,导致真伪语音声纹特征分布存在差异。为此提出了一种基于声纹特征的伪造语音检测方法。该方法通过在预训练声纹识别系统基础上训练部分参数,建模真伪语音之间浅层帧级声纹特征的分布差异,实现伪造语音检测。该方法还改善了直接使用声纹特征鉴伪难以应对单元选择合成等音色高度相似的伪造算法的情况。所提方法在ASVspoof 2019 LA测试集中相比训练声纹识别系统全部参数的基线系统等错误率相对降低69.6%,且在跨信道和切除静音等场景中都具有良好的鲁棒性。 展开更多
关键词 伪造语音检测 声纹识别 鲁棒性 可解释性
原文传递
基于生成式算法的序列到序列目标说话人检测和日志系统 被引量:1
17
作者 陈正阳 钱彦旻 《信号处理》 北大核心 2025年第9期1570-1580,共11页
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可... 通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。 展开更多
关键词 目标说话人检测 说话人日志 生成式算法 扩散算法 流匹配算法
在线阅读 下载PDF
噪声环境下基于域对抗图卷积网络和坐标注意力的说话人确认方法 被引量:1
18
作者 陈家辉 葛子瑞 +2 位作者 王天朗 郭海燕 杨震 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期57-67,共11页
为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。... 为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。首先,针对噪声环境下局部特征变得不稳定这个问题,提出引入CA模块,将全局时间信息和全局频率信息编码到通道注意力中,以强调有用通道,提取鲁棒性的说话人特征。其次,提出构建DA⁃GCN来辅助主网络提取与噪声相关性更小的说话人特征来进行后续的分类。具体而言,将语音信号映射为图信号,利用GCN分别对干净语音图信号特征和含噪语音图信号特征进行聚合,通过域对抗(Domain Adversarial,DA)训练,辅助主网络提取干净语音域和含噪语音域共享的说话人特征,从而降低噪声对SV性能的影响。在VoxCeleb1数据集上的实验结果表明,所提CA⁃DA⁃GCN的性能优于基线模型ExU⁃Net且表现出良好的泛化能力。 展开更多
关键词 噪声环境 说话人确认 域对抗 坐标注意力机制 图卷积神经网络
在线阅读 下载PDF
孤独症访谈场景下融入角色信息的说话人日志方法
19
作者 王康月 程铭 +2 位作者 谢奕香 邹小兵 李明 《计算机科学》 北大核心 2025年第2期231-241,共11页
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然... 说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。 展开更多
关键词 说话人日志 角色分类 特定说话人语音活动检测 声纹特征提取 孤独症谱系障碍
在线阅读 下载PDF
大学英语语音教学模式建立及实践路径研究 被引量:1
20
作者 谢海芹 谭经玲 《黔南民族师范学院学报》 2025年第3期58-63,共6页
大学英语语音教学模式的建立对于提升学生的英语综合素质、提高大学英语课堂教学质量、推进教学改革等诸多方面都具有重要的促进意义。为了更好地提升大学英语语音教学模式的建立,就相关理论进行阐释,分析本土化与通用语模式的应用可行... 大学英语语音教学模式的建立对于提升学生的英语综合素质、提高大学英语课堂教学质量、推进教学改革等诸多方面都具有重要的促进意义。为了更好地提升大学英语语音教学模式的建立,就相关理论进行阐释,分析本土化与通用语模式的应用可行性,结合语音教学实况探究本族语教学模式的应用方式。与此同时,积极参考其他亚洲国家在英语语音教学方面的实践经验,探讨符合我国大学英语语音教学特色的实践路径。 展开更多
关键词 英语语音教学模式 世界英语变体 本族语者 非本族语者
在线阅读 下载PDF
上一页 1 2 139 下一页 到第
使用帮助 返回顶部