期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于TD-error自适应校正的深度Q学习主动采样方法 被引量:12
1
作者 白辰甲 刘鹏 +1 位作者 赵巍 唐降龙 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期262-280,共19页
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-erro... 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量. 展开更多
关键词 样本优先级 td-error校正 自适应 主动采样 深度Q学习 强化学习
在线阅读 下载PDF
深度Q学习的二次主动采样方法 被引量:18
2
作者 赵英男 刘鹏 +1 位作者 赵巍 唐降龙 《自动化学报》 EI CSCD 北大核心 2019年第10期1870-1882,共13页
实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样... 实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果. 展开更多
关键词 优先经验回放 td-error 深度Q网络 累积回报
在线阅读 下载PDF
一种二阶TD Error快速Q(λ)算法 被引量:5
3
作者 傅启明 刘全 +3 位作者 孙洪坤 高龙 李瑾 王辉 《模式识别与人工智能》 EI CSCD 北大核心 2013年第3期282-292,共11页
Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法... Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度. 展开更多
关键词 强化学习 马尔科夫决策过程 二阶TD ERROR 资格迹 Q(λ)算法
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:5
4
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度Q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
基于CPLD的DDS与PLL信号源的设计 被引量:6
5
作者 李庆 唐静 《武汉理工大学学报(信息与管理工程版)》 CAS 2007年第10期28-30,34,共4页
描述了直接数字频率合成(DDS)及锁相频率合成(PLL)的原理和特点,给出了一种利用Altera的CPLD器件(EPM570)设计DDS与PLL信号源的方法。设计电路经过测试,技术指标达到了预期要求,证明了基于CPLD的DDS+PLL信号源的可靠性和可行性。
关键词 直接数字频率合成器 锁相环 复杂可编程逻辑器件
在线阅读 下载PDF
基于改进优先经验回放的SAC算法路径规划 被引量:3
6
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先度 TD误差 离散度 优先经验回放 学习效率
在线阅读 下载PDF
SIR测量误差对内环功控影响情况的分析 被引量:1
7
作者 赵飞龙 余轮 梅杓春 《电子测量与仪器学报》 CSCD 2012年第5期385-391,共7页
在闭环功率控制中,终端对下行链路的测量是对基站进行下行功控的基础,测量的准确性和及时性将对网络性能造成直接的影响。文中首先分析测量误差和时延产生的原因和量级,进而基于线性的功控模型,给出了测量误差和功控误差的计算方法,并... 在闭环功率控制中,终端对下行链路的测量是对基站进行下行功控的基础,测量的准确性和及时性将对网络性能造成直接的影响。文中首先分析测量误差和时延产生的原因和量级,进而基于线性的功控模型,给出了测量误差和功控误差的计算方法,并得到链路BER解析式,最后分析了网络容量受影响的情况。仿真结果表明,测量误差标准差大于4 dB,时延对功控误差没有影响;大于10 dB,时延对链路性能和系统容量没有影响。要保证系统有较好的质量和容量,应将测量误差标准差控制在1 dB以内。因此,加强对入网终端测量能力的把控,对于提升网络整体性能将有积极的意义。 展开更多
关键词 功率控制 测量误差 QOS TD-SCDMA
在线阅读 下载PDF
智能天线技术在TD-SCDMA系统中的应用 被引量:1
8
作者 张爱丽 李志勇 张志军 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期53-56,共4页
介绍了智能天线技术及其在TD-SCDMA系统中的应用.通过对阵元接收信号加权处理,形成天线波束,使天线主波束对准用户信号到达方向,旁瓣或零陷对准干扰信号到达方向,可达到抑制干扰、提高接收灵敏度的目的.使用智能天线可以在不显著增加系... 介绍了智能天线技术及其在TD-SCDMA系统中的应用.通过对阵元接收信号加权处理,形成天线波束,使天线主波束对准用户信号到达方向,旁瓣或零陷对准干扰信号到达方向,可达到抑制干扰、提高接收灵敏度的目的.使用智能天线可以在不显著增加系统复杂程度的情况下扩充容量、加大覆盖范围、降低误码率. 展开更多
关键词 TD-SCDMA 智能天线 系统容量 误码率 波束成型网络
在线阅读 下载PDF
自抗扰控制器的原理解析 被引量:14
9
作者 马幼捷 刘增高 +1 位作者 周雪松 王新志 《天津理工大学学报》 2008年第4期27-30,共4页
透彻地分析自抗扰控制器的原理对提高自抗扰控制技术的应用效果,拓展其应用领域有着重要的意义.本文分析了自抗扰控制器的发展历程及其各模块的作用,详细介绍了其主要模块的常见形式及特性.仿真证明了自抗扰控制器的控制性能较PID有明... 透彻地分析自抗扰控制器的原理对提高自抗扰控制技术的应用效果,拓展其应用领域有着重要的意义.本文分析了自抗扰控制器的发展历程及其各模块的作用,详细介绍了其主要模块的常见形式及特性.仿真证明了自抗扰控制器的控制性能较PID有明显的改善. 展开更多
关键词 跟踪微分器 扩张状态观测器 非线性状态误差反馈
在线阅读 下载PDF
3G终端EVM指标一致性测试算法的研究 被引量:2
10
作者 金磊 王冰 李春媛 《高技术通讯》 CAS CSCD 北大核心 2006年第8期771-777,共7页
分析了EVM指标一致性测试需求和传统测试算法的缺陷,提出了一种基于准确的频偏估计和初始相位估计,快速、精确地测量终端EVM指标的算法。该算法不需要对信号进行解调,而是通过高精度的频偏估计和初始相位估计,快速、准确地恢复参考... 分析了EVM指标一致性测试需求和传统测试算法的缺陷,提出了一种基于准确的频偏估计和初始相位估计,快速、精确地测量终端EVM指标的算法。该算法不需要对信号进行解调,而是通过高精度的频偏估计和初始相位估计,快速、准确地恢复参考信号并计算终端的EVM指标,因此实现复杂度。将该算法的仿真结果与现有专业仪表的测试结果进行了比较,证明该算法耗时短,精度高,完全可以满足3G终端EVM一致性测试的需求,同时适合作为3G终端射频测试仪表的关键性算法。 展开更多
关键词 矢量误差幅度 一致性测试 3G终端 TD—SCDMA
在线阅读 下载PDF
线性联合检测算法在TD-SCDMA系统中的性能分析与比较 被引量:22
11
作者 康绍莉 裘正定 李世鹤 《通信学报》 EI CSCD 北大核心 2002年第6期74-81,共8页
时分、同步码分多址(TD-SCDMA)系统是基于时分双工(TDD)的块传输系统,它使用了联合检测这项关键技术来抵抗符号间干扰(ISI)和多址干扰(MAI)。以上行链路为例,本文分析了三种线性联合检测算法——匹配滤波块均衡器(MF-BLE)、... 时分、同步码分多址(TD-SCDMA)系统是基于时分双工(TDD)的块传输系统,它使用了联合检测这项关键技术来抵抗符号间干扰(ISI)和多址干扰(MAI)。以上行链路为例,本文分析了三种线性联合检测算法——匹配滤波块均衡器(MF-BLE)、迫零块均衡器(ZF-BLE)和最小均方误差块均衡器(MMSE-BLE)。从理论上,我们描述了这三种线性联合检测算法的基本原理,并对它们进行了比较(包括抗干扰性能和计算量)。随后,我们模拟了不同参数条件下(信道模型、码道数目、天线数目)这几种算法的性能,并与理论分析进行对照,得出一定结论。 展开更多
关键词 时分同步码分多址 联合检测 匹配滤波 迫零 最小均方误差 第三代无线通信
在线阅读 下载PDF
油气太赫兹光谱仪时域谱的误差分析与标定
12
作者 宝日玛 苗昕扬 +3 位作者 陈星洁 王丹丹 詹洪磊 邢颖 《物理与工程》 2018年第4期96-101,共6页
在针对油气产品进行太赫兹光谱测试时,仪器自身误差会为测试结果来较大影响,对实验仪器进行误差标定对油气资源的太赫兹表征与精细评价具有重要意义。对油气太赫兹光谱仪进行了误差测试与分析,并对由延迟线的移动速度导致的测试误差进... 在针对油气产品进行太赫兹光谱测试时,仪器自身误差会为测试结果来较大影响,对实验仪器进行误差标定对油气资源的太赫兹表征与精细评价具有重要意义。对油气太赫兹光谱仪进行了误差测试与分析,并对由延迟线的移动速度导致的测试误差进行了标定。结果表明,较小的移动速度有利于减少时域波形在延迟时间与幅值上产生的偏差及浮动,其中4组实验延迟时间的浮动范围分别为0.1Ps、0.1Ps、0.2Ps和0.4Ps;信号幅值的误差率分别为2.26%,1.76%,3.28%及5.82%。此外,在测试过程中,激光器输出功率的变化也是主要的误差来源,在测试时通过实时记录输出功率并根据线性关系进行归一化处理可降低这一误差。 展开更多
关键词 太赫兹光谱仪 延迟时间 幅值 误差分析
在线阅读 下载PDF
基于OFDM的LDPC误码测试系统设计
13
作者 许林峰 《电视技术》 北大核心 2006年第11期73-75,共3页
通过比较国内外几种LDPC误码平台测试系统,设计了一种基于OFDM的用于测试LDPC解码误码性能的窄带系统,采用了时域同步正交频分复用调制方式,具有抵抗多径干扰和多普勒频移的能力。该系统用FPGA予以实现,不仅可用于实验室测试,也可用于... 通过比较国内外几种LDPC误码平台测试系统,设计了一种基于OFDM的用于测试LDPC解码误码性能的窄带系统,采用了时域同步正交频分复用调制方式,具有抵抗多径干扰和多普勒频移的能力。该系统用FPGA予以实现,不仅可用于实验室测试,也可用于测试真实多径环境下的误码性能,还能作为通用系统用于其他信道纠错码的解码误码测试。 展开更多
关键词 时域同步正交频分复用 低密度奇偶校验码 误码测试 窄带系统 现场可编程门阵列
在线阅读 下载PDF
基于时间差分误差的离线强化学习采样策略 被引量:5
14
作者 张龙飞 冯旸赫 +3 位作者 梁星星 刘世旋 程光权 黄金才 《工程科学学报》 EI CSCD 北大核心 2023年第12期2118-2128,共11页
离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因... 离线强化学习利用预先收集的专家数据或其他经验数据,在不与环境交互的情况下离线学习动作策略.与在线强化学习相比,离线强化学习具有样本效率高、交互成本低的优势.强化学习中通常使用Q值估计函数或Q值估计网络表示状态-动作的价值.因无法通过与环境交互及时修正Q值估计误差,离线强化学习往往面临外推误差严重、样本利用率低的问题.为此,提出基于时间差分误差的离线强化学习采样方法,使用时间差分误差作为样本优先采样的优先度度量,通过使用优先采样和标准采样相结合的采样方式,提升离线强化学习的采样效率并缓解分布外误差问题.同时,在使用双Q值估计网络的基础上,根据目标网络的不同计算方法,比较了3种时间差分误差度量所对应的算法的性能.此外,为消除因使用优先经验回放机制的偏好采样产生的训练偏差,使用了重要性采样机制.通过在强化学习公测数据集—深度数据驱动强化学习数据集上与已有研究成果相比,基于时间差分误差的离线强化学习采样方法在最终性能、数据效率和训练稳定性上均有更好的表现.消融实验表明,优先采样和标准采样相结合的采样方式对算法性能的发挥至关重要,同时,使用最小化双目标Q值估计的时间差分误差优先度度量所对应的算法,在多个任务上具有最优的性能.基于时间差分误差的离线强化学习采样方法可与任何基于Q值估计的离线强化学习方法结合,具有性能稳定、实现简单、可扩展性强的特点. 展开更多
关键词 离线 强化学习 采样策略 经验回放 时间差分误差
在线阅读 下载PDF
一种TDS-OFDM接收机的定时同步算法 被引量:3
15
作者 王显煜 邹辉 +1 位作者 赵芳蕾 尚文静 《电视技术》 北大核心 2007年第11期31-34,共4页
提出了TDS-OFDM接收机中一种结合PN序列相位捕获的定时同步算法。利用本地PN与接收数据的相关特性,通过相关峰值检测快速提取定时误差信息完成定时同步,并且提出了能纠正较大采样偏移的小数因子补偿结构。仿真表明该算法在保证较好的同... 提出了TDS-OFDM接收机中一种结合PN序列相位捕获的定时同步算法。利用本地PN与接收数据的相关特性,通过相关峰值检测快速提取定时误差信息完成定时同步,并且提出了能纠正较大采样偏移的小数因子补偿结构。仿真表明该算法在保证较好的同步性能前提下,能对抗较大的采样偏和残留频偏。 展开更多
关键词 PN序列 定时误差 TDS—OFDM系统
在线阅读 下载PDF
基于Q学习和TD误差的传感器节点任务调度算法 被引量:1
16
作者 徐祥伟 魏振春 +1 位作者 冯琳 张岩 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2017年第4期470-475,521,共7页
针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习... 针对现有合作学习算法存在频繁通信、能量消耗过大等问题,应用目标跟踪建立任务模型,文章提出一种基于Q学习和TD误差(Q-learning and TD error,QT)的传感器节点任务调度算法。具体包括将传感器节点任务调度问题映射成Q学习可解决的学习问题,建立邻居节点间的协作机制以及定义延迟回报、状态空间等基本学习元素。在协作机制中,QT使得传感器节点利用个体和群体的TD误差,通过动态改变自身的学习速度来平衡自身利益和群体利益。此外,QT根据Metropolis准则提高节点学习前期的探索概率,优化任务选择。实验结果表明:QT具备根据当前环境进行动态调度任务的能力;相比其他任务调度算法,QT消耗合理的能量使得单位性能提高了17.26%。 展开更多
关键词 无线传感器网络(WSNs) 传感器节点 任务调度 Q学习 TD误差 协作机制
在线阅读 下载PDF
TD-SCDMA终端发射调制质量指标的研究 被引量:6
17
作者 陆秋捷 郑建宏 聂能 《重庆邮电学院学报(自然科学版)》 2005年第5期541-546,共6页
调制质量是TD-SCDMA终端一致性测试的重要组成部分。针对TD-SCDMA系统对误差矢量幅度(EVM)和峰值码域误差(PkCDE)的要求,介绍了这2个指标的基本概念和测试目的,分析了测试方法以及在TD-SCDMA系统中的具体应用,并利用测试实例验证了分析... 调制质量是TD-SCDMA终端一致性测试的重要组成部分。针对TD-SCDMA系统对误差矢量幅度(EVM)和峰值码域误差(PkCDE)的要求,介绍了这2个指标的基本概念和测试目的,分析了测试方法以及在TD-SCDMA系统中的具体应用,并利用测试实例验证了分析的正确性。 展开更多
关键词 TD-SCDMA 发射 误差矢量幅度 峰值码域误差
在线阅读 下载PDF
0I MATE TD数控机床机电联调技术
18
作者 王锐 王刚 《机械工程与自动化》 2020年第6期166-168,共3页
数控机床是机电一体化设备,详细介绍了0I MATE TD数控机床的机械部件和电气装置的联机调试,最终达到了优化机床性能的目的。
关键词 0I MATE TD数控机床 误差补偿 机电联调
在线阅读 下载PDF
数字电视多媒体广播系统的相位噪声抑制
19
作者 侯永宏 戴居丰 王安国 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第1期134-138,共5页
为提高数字电视多媒体广播(DTMB)系统抗相位噪声的能力,提出了利用DTMB系统保护间隔内所填充的PN序列的时域公共相位误差校正方案,以及利用传输参数信令(TPS)的判决辅助子载波间干扰抑制方案.计算机仿真结果表明,该方法可有效地抑制接... 为提高数字电视多媒体广播(DTMB)系统抗相位噪声的能力,提出了利用DTMB系统保护间隔内所填充的PN序列的时域公共相位误差校正方案,以及利用传输参数信令(TPS)的判决辅助子载波间干扰抑制方案.计算机仿真结果表明,该方法可有效地抑制接收机本振相位噪声引起的相位旋转和子载波间干扰,降低系统误符号率.而且时域公共相位误差校正方案具有抗噪声、抗干扰能力强的优点. 展开更多
关键词 时域同步正交频分复用 相位噪声 公共相位误差 子载波间干扰
在线阅读 下载PDF
TDS-OFDM系统的功率调整技术研究
20
作者 周晓 杨昉 宋健 《电视技术》 北大核心 2011年第3期71-73,80,共4页
针对频域双PN序列填充的TDS-OFDM系统,提出了通过调整训练序列与帧体数据功率比值来降低系统误符号率的方法,并通过调整两者的功率比值对系统在多径衰落信道下的误符号率性能进行仿真。仿真结果表明选择合适的功率比值会带来信噪比的增益。
关键词 TDS—OFDM 信道估计 训练序列 功率调整 误符号率
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部