期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于长尾词分布的藏汉机器翻译数据增强方法
1
作者 格桑加措 尼玛扎西 +5 位作者 群诺 嘎玛扎西 道吉扎西 罗桑益西 拉毛吉 钱木吉 《计算机科学》 北大核心 2026年第1期224-230,共7页
现有藏汉机器翻译语料中存在领域数据分布不平衡的问题,导致训练出来的模型对各个领域数据的翻译能力表现不均衡。反向翻译作为一种常见的数据增强方法,通过提供更多样化的伪数据来提高模型的性能。然而,传统的反向翻译方法难以充分考... 现有藏汉机器翻译语料中存在领域数据分布不平衡的问题,导致训练出来的模型对各个领域数据的翻译能力表现不均衡。反向翻译作为一种常见的数据增强方法,通过提供更多样化的伪数据来提高模型的性能。然而,传统的反向翻译方法难以充分考虑数据的领域分布不平衡问题,导致模型在整体性能提升过程中难以提升资源稀缺领域的翻译性能。对此,通过深入分析语料中的长尾词的分布,有针对性地利用现有藏汉双语语料的长尾词来选取单语数据,通过反向翻译构造伪数据进行数据增强操作。这一策略旨在提升藏汉机器翻译模型整体性能的同时,改善数据匮乏领域的翻译性能。实验结果表明,通过充分考虑领域数据不平衡情况,结合长尾词数据增强,能够有效提升机器翻译模型在稀缺领域的翻译性能,为解决领域数据不平衡问题提供了一种有针对性的策略。 展开更多
关键词 长尾词 数据增强 藏汉机器翻译 领域数据不平衡
在线阅读 下载PDF
The Uses and Benefits of Big Data for Geological Surveys 被引量:2
2
作者 Michael H.STEPHENSON 《Acta Geologica Sinica(English Edition)》 SCIE CAS CSCD 2019年第S01期64-65,共2页
’Long tail’data is the difficult-to-get-at data that sits in libraries,institutes and on the computers of individual scientists.Informatics specialists like to contrast it with the smaller number of large,more acces... ’Long tail’data is the difficult-to-get-at data that sits in libraries,institutes and on the computers of individual scientists.Informatics specialists like to contrast it with the smaller number of large,more accessible data sets(e.g.Sinha et al.,2013).The name’long tail’derives from graphs drawn of the size of data sets against their number:there are relatively few large datasets and a lot of smaller ones. 展开更多
关键词 long tail data informatics BIOSTRATIGRAPHY GEOLOGICAL survey
在线阅读 下载PDF
面向长尾异构数据的个性化联邦学习框架 被引量:1
3
作者 吴家皋 易婧 +1 位作者 周泽辉 刘林峰 《计算机科学》 北大核心 2025年第9期232-240,共9页
针对数据长尾分布和异构性引起的联邦学习模型性能下降的问题,提出了一种新的个性化联邦学习框架——平衡的个性化联邦学习(Balanced Personalized Federated Learning,BPFed),将整个联邦学习过程分为基于个性化联邦学习的表示学习和基... 针对数据长尾分布和异构性引起的联邦学习模型性能下降的问题,提出了一种新的个性化联邦学习框架——平衡的个性化联邦学习(Balanced Personalized Federated Learning,BPFed),将整个联邦学习过程分为基于个性化联邦学习的表示学习和基于全局特征增强的个性化分类器再训练两个阶段。在第一阶段,首先采用Mixup策略进行数据增强,然后提出基于参数解耦的个性化联邦学习特征提取器训练方法,在优化特征提取器性能的同时减少通信开销;在第二阶段,首先提出新的基于全局协方差矩阵的类级特征增强方法,然后提出基于样本权重的标签平滑损失函数对客户端分类器进行平衡的个性化再训练,以纠正头类置信过度并提高尾类的泛化能力。大量的实验结果表明,在不同的数据长尾分布和异构性设置下,BPFed模型的准确度相比其他代表性相关算法均有明显提升。此外,消融和超参数影响实验也进一步验证了所提方法和优化策略的有效性。 展开更多
关键词 个性化联邦学习 长尾分布 数据异构性 参数解耦 特征增强 优化策略
在线阅读 下载PDF
基于改进迁移学习的高压断路器新增类别故障识别方法
4
作者 王兴华 杨皓文 +1 位作者 麻玉林 赵俊生 《高压电器》 北大核心 2025年第10期106-116,共11页
针对实际高压断路器故障发生的时空不确定性和暂态过程的随机性引发新增类别的未知故障类型,且其样本分布呈现长尾特性,导致现有故障识别模型出现误判的问题,提出了一种基于改进迁移学习的高压断路器新增类别故障精准识别方法。首先,提... 针对实际高压断路器故障发生的时空不确定性和暂态过程的随机性引发新增类别的未知故障类型,且其样本分布呈现长尾特性,导致现有故障识别模型出现误判的问题,提出了一种基于改进迁移学习的高压断路器新增类别故障精准识别方法。首先,提取实际在运高压断路器振动信号的多维特征参数,构建具有强特征提取能力的故障识别模型。其次,通过计算Mahalanobis距离和置信度辨识新增类别的未知故障。最后,采用伪标签和迁移学习将长尾分布的未知故障类别纳入模型训练,更新后的模型能够准确预测运行数据的故障类型。结果表明,改进后的诊断模型平均准确率达到97.83%,相比于现有特征迁移方法的准确率平均提升了40.22%。 展开更多
关键词 高压断路器 故障识别 迁移学习 MAHALANOBIS距离 新增类别故障 长尾数据
在线阅读 下载PDF
基于生命周期管理的科学长尾数据管护研究 被引量:9
5
作者 杨滟 孙建军 《情报理论与实践》 CSSCI 北大核心 2016年第4期45-50,共6页
科学数据的保管和重用能够推动进一步的科学研究和新的科学发展,然而长期以来许多机构和个人在很大程度上忽略了对科学数据,特别是科学长尾数据的保管和利用。文章围绕没有被有效索引和存储,容易被各类人员忽视的科学长尾数据展开讨论... 科学数据的保管和重用能够推动进一步的科学研究和新的科学发展,然而长期以来许多机构和个人在很大程度上忽略了对科学数据,特别是科学长尾数据的保管和利用。文章围绕没有被有效索引和存储,容易被各类人员忽视的科学长尾数据展开讨论。从长尾经济学的概念出发描述了这类数据在科学发展中的关键作用,分析了这类数据的特征,以及科学长尾数据妥善保管和利用中存在的一些社会和技术壁垒。以数据管护生命周期理论为基础探讨科学长尾数据管护可能的解决方案,论述了科学长尾数据生命周期不同阶段的可能举措。 展开更多
关键词 科学数据 长尾数据 数据管护 生命周期
原文传递
一种提高预测结果多样性的资源分配算法 被引量:3
6
作者 邓晓军 满君丰 +1 位作者 文志强 王昱 《控制工程》 CSCD 北大核心 2015年第6期1137-1141,共5页
近些年,推荐系统的结果多样性引起了人们的广泛关注。为了提高推荐结果的多样性,同时保证一定的推荐准确性,应用产品数据中的长尾数据项来提高推荐结果的多样性,提出了一种包含资源分配和推荐2个阶段的推荐算法。在资源分配中,将"... 近些年,推荐系统的结果多样性引起了人们的广泛关注。为了提高推荐结果的多样性,同时保证一定的推荐准确性,应用产品数据中的长尾数据项来提高推荐结果的多样性,提出了一种包含资源分配和推荐2个阶段的推荐算法。在资源分配中,将"被推荐的机会"视为资源,通过预定义的分配策略将这些资源分配给所有的项。在推荐阶段,按照每个用户对所有项的偏好情况计算每个用户所分配的资源,并基于资源的分布情况对用户进行推荐。最后,给出了一种用于平衡推荐准确性与多样性的权衡算法。实验表明,提出的推荐算法与相关推荐算法相比较能更好的应用长尾数据,在保证推荐结果准确性的同时大大提高了推荐结果的多样性。 展开更多
关键词 推荐系统 长尾数据 多样性 学习算法
原文传递
开启区块链地质应用新时代 被引量:6
7
作者 周永章 刘楠 +1 位作者 陈川 杨威 《地质通报》 CAS CSCD 北大核心 2020年第1期1-6,共6页
人类已经叩响了区块链时代的大门,但在地质领域,区块链的应用几乎还处于空白的状态。哪怕是像深时数字地球(DDE)这样极具雄心的大科学项目,也没有意识到区块链技术有助于分散在科学家个人或实验室的“长尾数据”的有效收集和利用。地质... 人类已经叩响了区块链时代的大门,但在地质领域,区块链的应用几乎还处于空白的状态。哪怕是像深时数字地球(DDE)这样极具雄心的大科学项目,也没有意识到区块链技术有助于分散在科学家个人或实验室的“长尾数据”的有效收集和利用。地质科学信息是一个超大型共享数据库,需要许多人彼此信任去协作完成数据库的改写,区块链将是非常好的支撑技术。区块链基于其系统特性和智能合约提供有丰富交互接口,特别是其具有去中心化、不可篡改、隐私保护特性,为区块链技术在地质领域应用提供了重要的基础。地质勘查实物、资料、数据的溯源管理,面向更广泛科学共同体的长尾数据的收集,应该是区块链地质应用的重要突破口。地质通证使打造全球地质社区成为可能。 展开更多
关键词 区块链 地质大数据 地质数据溯源管理 深时数字地球(DDE) 长尾数据收集 地质通证 全球地质社区
在线阅读 下载PDF
长尾数据监护与图书馆的职责——伊利诺伊香槟大学图书馆范例研究 被引量:9
8
作者 赵艳枝 《国家图书馆学刊》 CSSCI 北大核心 2015年第3期79-84,共6页
长尾数据是一种重要的学术资源,是科研创新的源头,但由于缺乏关注与技术支持而长期被忽视。基于科学研究的长尾理论和国内外研究现状发现,图书馆可以作为主导长尾数据监护工作的最佳机构。在伊利诺伊香槟大学图书馆开展的环境科学长尾... 长尾数据是一种重要的学术资源,是科研创新的源头,但由于缺乏关注与技术支持而长期被忽视。基于科学研究的长尾理论和国内外研究现状发现,图书馆可以作为主导长尾数据监护工作的最佳机构。在伊利诺伊香槟大学图书馆开展的环境科学长尾科研数据监管实践中,需求调查、制订数据管理计划、科研数据的组织、数据保存和共享、数据监护评价等是数据监护的主要内容,数据监护工作重心从"大科学"向"小科学"转移,数据管理工作从科学研究的下游向上游转移,国书馆的职责从协助向主导转变,图书馆员从单一的"管理员"向多元化角色转变。图1。表2。参考文献14。 展开更多
关键词 长尾理论 长尾数据 数据监护 图书馆 小科学
在线阅读 下载PDF
基于H/T断裂点法的POI自然城市规模等级测度 被引量:6
9
作者 刘凌波 彭正洪 吴昊 《国际城市规划》 CSSCI 北大核心 2019年第3期56-64,共9页
城市规模等级及边界研究一直以来都是城市研究的重要内容,但仅凭传统的人口与经济规模统计数据通常无法精准界定,越来越多的研究开始引入灯光遥感、手机信令、道路交叉口以及基于位置的社会网络(LBSN)等新数据界定城市边界,以自下而上... 城市规模等级及边界研究一直以来都是城市研究的重要内容,但仅凭传统的人口与经济规模统计数据通常无法精准界定,越来越多的研究开始引入灯光遥感、手机信令、道路交叉口以及基于位置的社会网络(LBSN)等新数据界定城市边界,以自下而上的方式测度城市规模,可仍然存在数据表征性不强和缺乏分级标准两个问题,因此有学者通过H/T断裂点法来进行城市规模等级划分及边界界定。研究以反映丰富经济活动的兴趣点(POI)为数据,构建不规则三角网格(TIN),引入H/T断裂点法分级方法,对中国大陆城市的自然城市规模进行了测度和等级划分。通过与传统社会经济数据、开放数据的对比,以POITIN城市刻画方法和H/T断裂点法生成的自然城市边界反映了相对真实的聚居规模,遵循了位序-规模的齐普夫(Zipf)分布规律,为具有长尾序列和分形结构的城市规模自然分级提供了科学方法。研究验证了该方法在自然城市规模测度和分级中具备推广性,在精度及真实数据获取性方面有较大优势,对城市边界划定和规模分级有重要的研究和现实意义。 展开更多
关键词 大数据 自然城市 长尾法则 位序—规模 H/T断裂点法 不规则三角网格
原文传递
利用属性集相关性与源误差的多真值发现方法研究 被引量:2
10
作者 卢菁 胡成 刘丛 《小型微型计算机系统》 CSCD 北大核心 2019年第3期601-605,共5页
目前真值发现的研究主要利用数据源质量和数据之间的关系,然而实际数据的分布呈现长尾现象,传统算法在处理尾部数据时,准确率大大下降.本文对数据源进行分类,对头部数据源利用属性集相关性,给予正确集更多的置信度补偿,易于剔除错误数据... 目前真值发现的研究主要利用数据源质量和数据之间的关系,然而实际数据的分布呈现长尾现象,传统算法在处理尾部数据时,准确率大大下降.本文对数据源进行分类,对头部数据源利用属性集相关性,给予正确集更多的置信度补偿,易于剔除错误数据;对尾部数据源,根据误差小的数据源应获得更高的权值分配的理论,将真值发现转化成全局优化问题,通过寻求数据源权值的最佳分配,获得最可能接近真值列表的属性集合.实验表明,本文提出的方法在真实的长尾数据集上,准确率和召回率方面均优于传统算法. 展开更多
关键词 真值发现 数据冲突 长尾现象 相关性 源误差
在线阅读 下载PDF
基于长尾理论提高高校图书馆馆藏书刊利用率研究 被引量:9
11
作者 任艳芳 《科技情报开发与经济》 2007年第6期22-24,共3页
通过对长尾理论的分析,认为要全面提高馆藏书刊利用率,不仅要了解馆藏书刊的整体利用率,还应了解每种书刊的利用率。通过对高校图书借阅管理系统或OPAC系统中书刊借阅信息的挖掘,将馆藏书刊分为热门书刊、普通书刊和冷门书刊三大类,并... 通过对长尾理论的分析,认为要全面提高馆藏书刊利用率,不仅要了解馆藏书刊的整体利用率,还应了解每种书刊的利用率。通过对高校图书借阅管理系统或OPAC系统中书刊借阅信息的挖掘,将馆藏书刊分为热门书刊、普通书刊和冷门书刊三大类,并探讨了通过图书馆联盟和Internet扩大读者群以便提高馆藏书刊利用率的可行性。 展开更多
关键词 馆藏书刊利用率 长尾理论 数据挖掘 OPAC系统
在线阅读 下载PDF
互联网金融消费者权益保护研究 被引量:2
12
作者 付淑换 吴雪华 《重庆第二师范学院学报》 2018年第2期16-20,127,共6页
互联网金融在经历了初期的爆发式增长后逐渐降温,为相关机构、监管部门和学者对其进行分析了解提供了良好的时机。传统意义上的金融监管分为审慎监管和行为监管,现行的互联网金融仍然延续了这种监管方式。本文立足于保护金融消费者的利... 互联网金融在经历了初期的爆发式增长后逐渐降温,为相关机构、监管部门和学者对其进行分析了解提供了良好的时机。传统意义上的金融监管分为审慎监管和行为监管,现行的互联网金融仍然延续了这种监管方式。本文立足于保护金融消费者的利益,以分析消费者和互联网金融机构的行为特征为基础,统筹双方利益,论证保护互联网金融消费者的必要性,为相关政策的制定和完善提供了理论依据。 展开更多
关键词 互联网金融 数据垄断 长尾风险 金融消费者保护
在线阅读 下载PDF
征信替代数据助推长尾客户金融可得性研究 被引量:10
13
作者 王新军 赵竹青 +1 位作者 刘昭伯 王一楠 《西南金融》 北大核心 2021年第12期56-68,共13页
随着中国全面建成小康社会,普惠金融发展已进入深水区,长尾客户群体的金融可得性问题也日益受到各方重视。在结合国内外研究与实践基础上,深入阐述替代数据定义、分类、数据来源、作用机理以及国内外的实践探索,通过分析中国替代数据采... 随着中国全面建成小康社会,普惠金融发展已进入深水区,长尾客户群体的金融可得性问题也日益受到各方重视。在结合国内外研究与实践基础上,深入阐述替代数据定义、分类、数据来源、作用机理以及国内外的实践探索,通过分析中国替代数据采集应用方面存在的问题,有针对性地提出优化完善顶层设计、规范采集应用标准、推动数据充分共享、构建有力监管体系和平衡创新风险关系等建议,以期规范我国替代数据采集应用,提升长尾客户金融可得性,助推普惠金融高质量发展。 展开更多
关键词 征信 替代数据 数据共享 数据安全 个人信息保护 长尾客户 金融可得性 普惠金融
在线阅读 下载PDF
面向长尾分布数据的在线流特征选择 被引量:2
14
作者 范凯钧 林耀进 +2 位作者 张智慧 毛煜 王晨曦 《昆明理工大学学报(自然科学版)》 北大核心 2023年第1期77-88,共12页
在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的... 在开放动态环境下分类学习的任务中,数据通常存在类别长尾分布的特点,且数据标记空间存在层次化结构关系以及动态性.针对实际任务中不同的需求,许多特征选择算法被提出,但是这些已有的特征选择算法忽略数据的长尾分布特点和特征空间的不确定性.针对上述问题,文中提出基于邻域粗糙集的长尾分布数据在线流特征选择算法.借助邻域粗糙集模型,并考虑邻域内样本间的关系后,定义了自适应邻域关系,设计基于稀有类样本重要性的依赖度计算公式.同时,利用层次结构降低类别不平衡性,提出在线冗余度分析和在线重要度分析两种在线特征评价指标,用于选出具有高可分离性和强区分性的特征子集.实验结果表明所提算法优于其它先进算法. 展开更多
关键词 特征选择 长尾分布数据集 在线流特征选择 层次分类 邻域粗糙集
原文传递
基于长尾数据监管的图书馆服务研究 被引量:2
15
作者 江银凤 《大学图书情报学刊》 2016年第4期73-77,88,共6页
文章结合大数据时代长尾理论,探讨长尾数据在图书馆服务中需求的增长、图书馆参与数据监管服务的迫切性及图书馆在长尾数据监管中所产生的形态,论述长尾数据监管在图书馆服务中的应用,包括监管重心转移、资源长尾聚合、知识产权保护及... 文章结合大数据时代长尾理论,探讨长尾数据在图书馆服务中需求的增长、图书馆参与数据监管服务的迫切性及图书馆在长尾数据监管中所产生的形态,论述长尾数据监管在图书馆服务中的应用,包括监管重心转移、资源长尾聚合、知识产权保护及服务角色转变等对策措施,以期为图书馆长尾数据监管实践提供参考。 展开更多
关键词 长尾数据 数据监管 数据生命周期
在线阅读 下载PDF
基于双边采样对比增强的不平衡图像分类研究
16
作者 彭祎祺 林珊玲 +2 位作者 林志贤 周雄图 郭太良 《计算机应用与软件》 北大核心 2023年第6期205-210,共6页
针对训练数据不平衡问题,提出一种基于双边采样对比增强的渐进式学习分类网络(BBRCL)。该方法对训练数据分别进行均匀采样和倒置采样,将均匀采样后的数据使用随机图像增强生成两个视图;把视图样本和倒置采样样本分别送入卷积神经网络进... 针对训练数据不平衡问题,提出一种基于双边采样对比增强的渐进式学习分类网络(BBRCL)。该方法对训练数据分别进行均匀采样和倒置采样,将均匀采样后的数据使用随机图像增强生成两个视图;把视图样本和倒置采样样本分别送入卷积神经网络进行特征学习,进一步利用对比学习策略得到高质量视图样本特征;将提取到的两种特征通过累加学习融合训练分类器,实现长尾数据分类。在两个不平衡数据集上进行实验对比,结果表明,该模型能在不损害学习深度特征能力的情况下有效处理数据不平衡问题,且分类准确率相对传统分类方法提升6%。 展开更多
关键词 长尾数据 数据采样 特征学习 对比学习
在线阅读 下载PDF
结合长尾数据解决方法的野生动物目标检测 被引量:5
17
作者 蔡前舟 郑伯川 +1 位作者 曾祥银 侯金 《计算机应用》 CSCD 北大核心 2022年第4期1284-1291,共8页
基于红外相机图像的野生动物目标检测有利于研究和保护野生动物。由于不同种类的野生动物数量差别大,红外相机采集到的野生动物数据集存在种类数量分布不均的长尾数据问题,进而影响目标检测神经网络模型的整体性能提升。针对野生动物的... 基于红外相机图像的野生动物目标检测有利于研究和保护野生动物。由于不同种类的野生动物数量差别大,红外相机采集到的野生动物数据集存在种类数量分布不均的长尾数据问题,进而影响目标检测神经网络模型的整体性能提升。针对野生动物的长尾数据导致的目标检测精度低的问题,提出了一种基于两阶段学习和重加权相结合的长尾数据解决方法,并将该方法用于基于YOLOv4-Tiny的野生动物目标检测。首先,采集、标注并构建了一个新的野生动物数据集,该数据集具有明显的长尾数据特征;其次,采用基于迁移学习的两阶段方法训练神经网络,第一阶段在分类损失函数中采用无加权方式进行训练,而在第二阶段提出了两种改进的重加权方法,并以第一阶段所得权重作为预训练权重进行重加权训练;最后,对野生动物测试集进行测试。实验结果表明,在分类损失采用交叉熵损失函数和焦点损失函数下,所提出的长尾数据解决方法达到了60.47%和61.18%的平均精确率均值(mAP),相较于无加权方法在两种损失函数下分别提高了3.30个百分点和5.16个百分点,相较于所提改进的有效样本加权方法在焦点损失函数下提高了2.14个百分点,说明该方法能提升YOLOv4-Tiny网络对具有长尾数据特征的野生动物数据集的目标检测性能。 展开更多
关键词 长尾数据 目标检测 两阶段学习 重加权 YOLOv4-Tiny
在线阅读 下载PDF
大数据科研环境驱动的长尾数据策管机制研究 被引量:3
18
作者 朱维乔 《图书馆工作与研究》 CSSCI 北大核心 2018年第5期53-58,共6页
本文论述了大数据环境下长尾数据在推动科学研究与发展中的重要作用,在此基础上分析了大数据科研环境下长尾数据策管机制构建的必要性和可行性,阐述了长尾数据策管机制构建的具体内容,探讨了大数据环境下科研长尾数据策管机制的实现壁... 本文论述了大数据环境下长尾数据在推动科学研究与发展中的重要作用,在此基础上分析了大数据科研环境下长尾数据策管机制构建的必要性和可行性,阐述了长尾数据策管机制构建的具体内容,探讨了大数据环境下科研长尾数据策管机制的实现壁垒与相应对策,以促进科学创新的实现。 展开更多
关键词 大数据 长尾数据 数据策管
原文传递
德国通用科研数据基础设施项目GeRDI的建设与启示 被引量:4
19
作者 王敬 王彦兵 《农业图书情报学报》 2022年第3期28-36,共9页
[目的/意义]对德国通用科研数据基础设施项目GeRDI进行研究,总结成功建设经验,为中国科研数据基础设施的建设提供参考。[方法/过程]使用文献调研和网络调研方法,详细介绍GeRDI组织模式、设计原则、元数据模式以及架构设计。[结果/结论]... [目的/意义]对德国通用科研数据基础设施项目GeRDI进行研究,总结成功建设经验,为中国科研数据基础设施的建设提供参考。[方法/过程]使用文献调研和网络调研方法,详细介绍GeRDI组织模式、设计原则、元数据模式以及架构设计。[结果/结论]认为中国应在国家层面制定科研数据基础设施建设的战略规划;采用基于科研社区需求驱动的建设模式;同时兼容现有的协议、标准,并能适应未来的不断变化。 展开更多
关键词 科研数据基础设施 GeRDI 长尾数据 FAIR原则
在线阅读 下载PDF
基于类别不平衡数据集的图像实例分割方法 被引量:10
20
作者 范馨月 鲍泓 潘卫国 《计算机工程》 CAS CSCD 北大核心 2022年第12期224-231,共8页
随着深度学习在计算机视觉领域取得重大进展,包含多种类别的数据集不断被提出,但由于自然采集的数据集往往存在类别不平衡并呈现长尾分布的情况,导致稀有类的数据特征被频繁类的数据特征所抑制,从而严重影响模型的检测性能。为解决上述... 随着深度学习在计算机视觉领域取得重大进展,包含多种类别的数据集不断被提出,但由于自然采集的数据集往往存在类别不平衡并呈现长尾分布的情况,导致稀有类的数据特征被频繁类的数据特征所抑制,从而严重影响模型的检测性能。为解决上述问题,提出一种新的图像实例分割方法。采用长尾实例分割数据集进行研究实验,使用基于目标尺度的数据增广方法对数据集进行处理,以达到扩充训练样本的目的,增加稀有类的目标数量,同时对稀有类数据进行重采样,解决稀有类的类别数据量过小的问题,提升模型在长尾数据集的鲁棒性。在此基础上,将均等化损失函数融入Mask R-CNN实例分割网络,以降低频繁类的数据特征对稀有类数据特征的抑制性。实验结果表明,该方法在LVIS实例分割数据集上的检测精度提升了4.9%,达到了25.7%,同时AP_(r)、AP_(c)、AP_(f)分别达到了16.2%、26.1%、30.4%,相比Baseline方法均有明显提升,在消融实验上的结果也表明该方法能有效解决长尾类问题。 展开更多
关键词 长尾分布 实例分割 数据增强 损失函数 深度学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部