期刊文献+
共找到1,007篇文章
< 1 2 51 >
每页显示 20 50 100
基于数据增强和动态阈值的文档级关系抽取方法研究
1
作者 刘军平 黄宇威 +5 位作者 胡新荣 彭涛 姚迅 王帮超 杨华利 朱强 《计算机工程》 北大核心 2026年第4期131-139,共9页
生物医学领域关系抽取(RE)任务通常存在数据稀缺、类别不平衡、多标签等问题。为了解决以上问题,提出一种结合数据增强和动态阈值策略的方法。首先,通过自定义损失函数对GPT模型进行微调,并基于Word2Vec模型得到特征模板以生成新数据;其... 生物医学领域关系抽取(RE)任务通常存在数据稀缺、类别不平衡、多标签等问题。为了解决以上问题,提出一种结合数据增强和动态阈值策略的方法。首先,通过自定义损失函数对GPT模型进行微调,并基于Word2Vec模型得到特征模板以生成新数据;其次,利用BERT分类器对生成数据进行筛选,将高质量样本与原始数据集相结合,形成更丰富的训练集;最后,提出一种可学习动态阈值策略,根据文档长度及模型输出与真实标签的差异性,动态调整分类阈值,使模型能够灵活处理文档多标签问题。在2个公开医学数据集上的实验结果显示,该方法分别取得了84.1%和69.3%的F1值,相较ATLOP方法分别提升1.6和1.1百分点,验证了该方法的有效性。 展开更多
关键词 文档级关系抽取 数据增强 动态阈值 类别不平衡 GPT模型
在线阅读 下载PDF
融合数据治理的高校智能班级管理体系构建
2
作者 白荣娟 王晓虹 《榆林学院学报》 2026年第2期93-99,共7页
随着高校数字化治理的不断推进,班级管理过程中数据规模快速增长、数据类型日趋复杂,数据已成为支撑班级管理精细化与科学化的重要基础资源。然而,当前高校班级管理在数据整合机制不完善、数据标准与规范缺失、数据质量难以保障以及数... 随着高校数字化治理的不断推进,班级管理过程中数据规模快速增长、数据类型日趋复杂,数据已成为支撑班级管理精细化与科学化的重要基础资源。然而,当前高校班级管理在数据整合机制不完善、数据标准与规范缺失、数据质量难以保障以及数据应用深度不足等方面仍存在明显不足,制约了数据价值的有效发挥。针对上述问题,本文引入数据治理理念,从数据全生命周期视角系统分析高校班级管理数据的结构特征与治理痛点,梳理数据治理与班级管理业务之间的耦合关系,构建融合数据治理的高校智能班级管理体系框架。在此基础上,围绕数据标准、数据质量、数据共享与数据应用等关键环节,对高校班级管理系统的总体架构与运行机制进行设计。研究为推动高校班级管理由经验驱动向数据驱动转型提供了理论支撑与实践参考。 展开更多
关键词 数据治理 高校班级管理 数据整合 数据规范
在线阅读 下载PDF
台站级地面气象观测数据分析系统设计
3
作者 李晓兰 石京川 +3 位作者 杨雅婷 任兴国 刘俊 文刚 《气象水文海洋仪器》 2026年第1期128-132,共5页
开展台站级地面气象观测数据分析系统设计,嵌入关联规则挖掘算法实现地面气象观测要素数据相关性分析,统计相关地面气象观测要素阈值变化情况,通过数据可视化的方式提供交互式界面,展示相关地面气象观测要素数据查询和数据处理结果。利... 开展台站级地面气象观测数据分析系统设计,嵌入关联规则挖掘算法实现地面气象观测要素数据相关性分析,统计相关地面气象观测要素阈值变化情况,通过数据可视化的方式提供交互式界面,展示相关地面气象观测要素数据查询和数据处理结果。利用C#编程技术,通过定义类的方法,实现地面气象观测数据读取、解析以及Apriori算法等功能。根据台站级地面气象观测数据分析需求,开展数据处理与统计,使用.NET Framework提供的控件编写Windows应用程序,实现数据查询和阈值统计。台站级地面气象观测数据分析系统能够使气象业务人员快速掌握地面气象观测要素的变化趋势和观测要素之间的相关性,提高了台站级气象观测业务人员地面气象观测数据资料应用能力,为提升地面气象观测数据质量提供了参考依据。 展开更多
关键词 地面气象观测数据 定义类 关联规则挖掘 可视化 阈值统计
在线阅读 下载PDF
智慧医院信息化集成平台的构建与应用
4
作者 徐良儒 《信息与电脑》 2026年第3期174-176,共3页
某市级三甲医院为满足日益增长的业务需求,以信息集成平台建设为切入点,引入健康信息交换第七层标准、医疗信息集成规范等国际通行标准与规范。该平台以医院大数据中心为基础,以企业服务总线为核心枢纽,搭建起高效、稳定的信息集成架构... 某市级三甲医院为满足日益增长的业务需求,以信息集成平台建设为切入点,引入健康信息交换第七层标准、医疗信息集成规范等国际通行标准与规范。该平台以医院大数据中心为基础,以企业服务总线为核心枢纽,搭建起高效、稳定的信息集成架构。在此架构之上,进一步拓展应用领域,成功开发运营决策支持、临床应用赋能、专病科研支撑等模块,为新形势下医院业务拓展与长远发展提供了坚实的信息化支撑。 展开更多
关键词 大数据 信息集成 三甲医院
暂未订购
基于改进焦点损失与图像特征融合的CT图像分类方法
5
作者 辛家隆 张雪松 +3 位作者 强彦 赵涓涓 冯对平 高龙 《太原理工大学学报》 北大核心 2026年第2期378-386,共9页
【目的】针对医学图像临床应用场景下样本类别失衡问题,提出一种以混合交叉注意力为核心的双分支特征融合网络。【方法】在网络输入端对输入图像进行特征融合与重要性评分,促使模型聚焦提取感兴趣区域,缓解图像前景与背景的失衡,并且提... 【目的】针对医学图像临床应用场景下样本类别失衡问题,提出一种以混合交叉注意力为核心的双分支特征融合网络。【方法】在网络输入端对输入图像进行特征融合与重要性评分,促使模型聚焦提取感兴趣区域,缓解图像前景与背景的失衡,并且提出一种用于二分类任务的改进焦点损失函数,该损失函数利用三次幂函数的中心对称特性,通过改进焦点损失加权因子,优化错误分类惩罚项的同时减少超参数的引入;其次,针对样本数量不足问题,采用针对CT图像的数据增强方法与样本替换策略,有效提升可用样本数。【结果】在公开数据集与真实医学临床数据集上的实验结果表明,改进的焦点损失提高了分类模型稳定性,所提方法能够在门静脉高压患者术前筛选任务中取得超过82%的正确率,在多个公共数据集中也可稳定提升任务表现。 展开更多
关键词 类不平衡 特征融合 改进焦点损失 医学图像 数据增强
在线阅读 下载PDF
基于数据驱动的中职班级管理模型构建研究
6
作者 刘瑶 《科教导刊》 2026年第2期91-93,共3页
本研究以2023级会计事务班为对象,采用行动研究法追踪其班级建设全过程。文章通过系统分析新生入学数据,诊断出班级凝聚力不足、学习目标模糊及心理适应性弱等核心问题,并据此构建并实施了“数据赋能·情感浸润·目标引领”三... 本研究以2023级会计事务班为对象,采用行动研究法追踪其班级建设全过程。文章通过系统分析新生入学数据,诊断出班级凝聚力不足、学习目标模糊及心理适应性弱等核心问题,并据此构建并实施了“数据赋能·情感浸润·目标引领”三维管理模型:依托数据精准研判与干预,通过情感浸润营造信任氛围,借助阶梯目标促进共同成长。实践证明,该模型有效推动了班级向团结稳定、积极向上的优良状态转变,为同类班级管理提供了可迁移的实践范式。 展开更多
关键词 中职教育 班级管理 数据驱动 心理适应性 家校共育
在线阅读 下载PDF
二氧化碳灭火器扑救数据中心Ea类火灾有效性研究
7
作者 倪震楚 丛北华 丁亮 《给水排水》 北大核心 2026年第2期92-98,共7页
现有A类火灾试验模型采用木垛火形式,不适用于数据中心主机房的带电A类物质表面火灾。通过建立适用于数据中心主机房的Ea类火灾模型,进行灭火试验研究,验证二氧化碳灭火器扑灭该类火灾的有效性。试验表明手提式二氧化碳灭火器能有效扑... 现有A类火灾试验模型采用木垛火形式,不适用于数据中心主机房的带电A类物质表面火灾。通过建立适用于数据中心主机房的Ea类火灾模型,进行灭火试验研究,验证二氧化碳灭火器扑灭该类火灾的有效性。试验表明手提式二氧化碳灭火器能有效扑灭该类火灾,这是国内率先对二氧化碳灭火器进行非A类木垛火的固体物质火灾试验研究。该火灾模型和试验研究结果已经用于《数据中心二氧化碳灭火器应用技术规程》(T/CECS 808-2021)相关章节。 展开更多
关键词 数据中心主机房 二氧化碳灭火器 Ea类火灾 Ea类灭火级别
在线阅读 下载PDF
基于类不平衡学习的离心泵故障诊断研究 被引量:1
8
作者 陈志辉 曹思民 +3 位作者 李耀武 赵雪岑 马剑 黄俊杰 《测控技术》 2025年第7期26-34,共9页
旋转机械在运行过程中所采集的故障数据与正常数据存在着“类不平衡”问题,导致以数据为驱动的故障诊断模型准确度下降。针对该问题,以离心泵为对象,通过“两步走”的方式实现离心泵的精准故障诊断。首先,基于带有惩罚梯度的Wasserstei... 旋转机械在运行过程中所采集的故障数据与正常数据存在着“类不平衡”问题,导致以数据为驱动的故障诊断模型准确度下降。针对该问题,以离心泵为对象,通过“两步走”的方式实现离心泵的精准故障诊断。首先,基于带有惩罚梯度的Wasserstein距离生成对抗网络(Wasserstein Generative Adversarial Network with Gradient Penalty,WGAN-GP)模型,实现离心泵故障样本的高质量扩充。其次,利用深度学习卷积神经网络(Convolutional Neural Network,CNN)方法,设计了离心泵的故障诊断模型,并构造了3组不同平衡比例离心泵样本集和平衡样本集,完成了对离心泵的精准故障诊断。实验结果表明,经WGAN-GP模型扩充的样本集对于离心泵故障诊断具有正效益,能够有效提高离心泵的故障诊断准确度。 展开更多
关键词 离心泵 类不平衡数据 故障诊断 生成对抗网络
在线阅读 下载PDF
基于三维框架的我国“双一流”高校数据治理政策典型特征分析 被引量:1
9
作者 李春林 李莉 《华北理工大学学报(社会科学版)》 2025年第6期83-90,共8页
数据已经成为高校发展的关键战略资源,数据治理成为推动高等教育高质量发展的重要工具。以我国“双一流”高校数据治理政策为研究对象,构建“数据治理战略—数据治理任务—数据治理保障”三维分析框架,应用文本分析方法,深入探究我国一... 数据已经成为高校发展的关键战略资源,数据治理成为推动高等教育高质量发展的重要工具。以我国“双一流”高校数据治理政策为研究对象,构建“数据治理战略—数据治理任务—数据治理保障”三维分析框架,应用文本分析方法,深入探究我国一流高校数据治理政策特征。研究表明:数据治理战略维度,目标导向明确、数据定义系统化、治理原则明晰;数据治理任务维度,以数据维护与数据安全为核心、全流程治理覆盖,但质量管理和平台建设薄弱、数据标准有待统一;数据治理保障维度,制度设计与执行机制相对完善,但技术支撑与经费保障不足。最后提出优化对策。 展开更多
关键词 “双一流”高校 数据治理 政策文本 典型特征
在线阅读 下载PDF
基于加权与动态选择的不平衡数据流分类算法
10
作者 韩萌 李春鹏 +3 位作者 李昂 孟凡兴 何菲菲 张瑞华 《计算机工程与应用》 北大核心 2025年第10期79-95,共17页
在数据挖掘领域中,数据流挖掘是一项关键任务,旨在处理不断产生和演化的数据流。与传统的批处理数据挖掘不同,数据流挖掘强调对实时数据的处理和分析,具有更高的时效性和实用性。然而,现实世界的数据流中存在多类别不平衡、变化的类别... 在数据挖掘领域中,数据流挖掘是一项关键任务,旨在处理不断产生和演化的数据流。与传统的批处理数据挖掘不同,数据流挖掘强调对实时数据的处理和分析,具有更高的时效性和实用性。然而,现实世界的数据流中存在多类别不平衡、变化的类别不平衡比和概念漂移等实际挑战,会极大地降低分类器的性能。针对这些问题,提出了一种基于加权与动态选择的不平衡数据流分类算法(sample difficulty weighting and dynamic ensemble selection,SDW-DES),通过综合考虑样本难度和数据动态性,为实时应用提供可靠解决方案。引入一种基于样本分类难度的加权策略,结合样本的边际值和Focal Loss,以更有效地关注易分类错误的样本和少数类样本,从而提高分类器的准确性。提出一种灵活的动态集成选择方法,通过设计样本滑动窗口和困难样本滑动窗口,来综合分析分类器在不同窗口上的表现并加权,选出集成中最好的分类器进行预测,以适应数据分布的动态变化。在多种数据流环境和评估指标上与9种先进的算法进行了全面的实验评估,实验结果表明SDW-DES在4个评估指标中平均排名第一,并且更能够适应数据流中的不平衡和概念漂移问题。 展开更多
关键词 数据流分类 多类不平衡 概念漂移 样本加权 动态集成选择
在线阅读 下载PDF
有限标签下的非平衡数据流分类方法
11
作者 李艳红 李志华 +2 位作者 郑建兴 白鹤翔 郭鑫 《大数据》 2025年第2期107-126,共20页
数据流分类是数据流挖掘的重要研究内容,其核心任务是从实时到达的数据流中快速捕获概念漂移,并及时调整分类模型。极限学习机具有训练速度快和泛化性能好的优点,然而目前基于极限学习机的数据流分类方法很少可以同时处理数据流中常见... 数据流分类是数据流挖掘的重要研究内容,其核心任务是从实时到达的数据流中快速捕获概念漂移,并及时调整分类模型。极限学习机具有训练速度快和泛化性能好的优点,然而目前基于极限学习机的数据流分类方法很少可以同时处理数据流中常见的多类非平衡、概念漂移、标签成本昂贵的问题。为此,提出了一种有限标签下的非平衡数据流分类方法。该方法定义了预测概率差值与信息熵相结合的样本预测确定性度量,提出了不确定性标签请求策略;定义了基于类不平衡比率和样本预测误差的样本重要性度量;提出了基于概念漂移指数的分类器的更新与重构机制。在6个人工数据流和3个真实数据流上的对比实验表明,本文提出方法的分类性能优于已有的6种数据流分类方法的分类性能。 展开更多
关键词 数据流分类 多类非平衡 极限学习机 概念漂移 标签成本昂贵
在线阅读 下载PDF
基于大数据的职业教育评价助力纺织材料识别与应用课程建设研究
12
作者 吴佳林 秦春英 +2 位作者 刘梦林 陶培培 杨璧玲 《山东纺织经济》 2025年第9期46-49,共4页
本文以纺织材料识别与应用课程为例,探讨基于大数据的职业教育评价如何助力课程优化与人才培养。通过整合多源数据,构建动态评价模型,实现对学生知识掌握、技能应用及创新能力的精准评估。基于大数据的评价方法,有效推动课程设计优化。... 本文以纺织材料识别与应用课程为例,探讨基于大数据的职业教育评价如何助力课程优化与人才培养。通过整合多源数据,构建动态评价模型,实现对学生知识掌握、技能应用及创新能力的精准评估。基于大数据的评价方法,有效推动课程设计优化。通过构建纺织材料识别与应用课程的教学评价指标体系,提升教学质量,实现学习路径的可视化与个性化,从而为纺织行业培养具备数字化素养的高技能人才提供科学依据。 展开更多
关键词 新质生产力 大数据技术 评价体系 智慧课堂
在线阅读 下载PDF
基于类注意力的原型网络改进方法 被引量:3
13
作者 曹增辉 陈浩 曹雅慧 《自动化与信息工程》 2025年第1期59-65,共7页
小样本学习是图像分类任务中的一个重要挑战,能够有效解决因数据量较少而产生的模型准确率降低的问题。针对小样本学习难以准确获取类内共有特征的问题,提出一种基于类注意力的原型网络改进方法。利用掩膜图像进行数据预处理和图像增强... 小样本学习是图像分类任务中的一个重要挑战,能够有效解决因数据量较少而产生的模型准确率降低的问题。针对小样本学习难以准确获取类内共有特征的问题,提出一种基于类注意力的原型网络改进方法。利用掩膜图像进行数据预处理和图像增强,以提高原始数据质量;引入注意力机制,选择性地关注特征图中的重要信息,以增强特征提取能力;设计类注意力模块,提取具有注意力信息的类别原型。实验结果表明,在miniImageNet数据集上,该方法的分类准确率在基线基础上提高了2%,验证了其有效性。 展开更多
关键词 原型网络 小样本学习 数据增强 类注意力 图像分类
在线阅读 下载PDF
概念演化数据流主动学习方法
14
作者 李艳红 杜江涛 +2 位作者 王素格 白鹤翔 李德玉 《计算机技术与发展》 2025年第8期36-44,共9页
数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。... 数据流分类方法研究在开放环境下的模型动态更新,以期从实时到达且不断变化的数据流中检测并适应概念演化,目前多数数据流分类方法通常假设数据流中样本的类别数是固定的,并且样本的标签可以不受限制地获取,这在真实场景下是不现实的。为此,该文提出了一种概念演化数据流主动学习方法(Active Learning Method for Concept Evolution Data Stream,ALM-CEDS)。定义基于样本标准差的基分类器重要性度量,提出基于加权预测概率的样本预测方法,提升分类器的分类性能;提出基于混合标签查询策略的分类器更新方法,使用难区分和代表当前数据分布的样本更新分类器;提出基于微簇q-近邻轮廓系数的新类检测方法,在数据流中快速识别新类。在4个真实数据流与5个合成数据流上的对比实验表明,该概念演化数据流主动学习方法在分类性能上优于已有的6种数据流学习方法。 展开更多
关键词 数据流分类 概念演化 主动学习 新类检测 聚类
在线阅读 下载PDF
基于迁移类内变化增强数据的小样本学习方法 被引量:2
15
作者 李小雨 罗娜 《计算机工程》 北大核心 2025年第9期242-251,共10页
小样本学习致力于通过极少数量的训练样本,甚至一个样本来实现对新类数据的分类。面对这种挑战,数据增强成为小样本学习中一种直接而有效的解决方法,但是确保增强数据的多样性和可辨别性是数据增强的关键。为此,提出一种基于迁移基类类... 小样本学习致力于通过极少数量的训练样本,甚至一个样本来实现对新类数据的分类。面对这种挑战,数据增强成为小样本学习中一种直接而有效的解决方法,但是确保增强数据的多样性和可辨别性是数据增强的关键。为此,提出一种基于迁移基类类内变化的两阶段数据增强方法,分为特征学习和小样本学习阶段。在特征学习阶段,模型通过自监督任务学习基类数据的个体特征表达,有监督任务则学习类辨别特征,模型通过这两种特征获得基类数据的类内变化并建模基类的类内变化分布。在小样本学习阶段,模型从基类的类内变化分布中采样与任务相关的类内变化信息并添加到小样本特征中,以实现增强小样本数据的目的。实验结果表明,在5-way 1-shot情况下,所提方法在miniImageNet、tieredImageNet和CUB数据集上的分类性能相较于基线模型提升了4~7百分点,在5-way 5-shot情况下提升了3~7百分点,相较于其他数据增强方法,也展现了具有竞争力的性能,这表明生成的增强数据在保持可辨别性的同时增强小样本数据的多样性,并验证了该方法的可行性和有效性。 展开更多
关键词 小样本学习 数据增强 类内变化 类辨别特征 个体特征
在线阅读 下载PDF
中美英大学出版社数据运营:进展、影响因素及路径建议
16
作者 凌青 杨丹丹 《出版科学》 北大核心 2025年第6期51-62,共12页
首先,梳理了中美英大学出版社主要发展特色,中国大学出版社在改革开放以后异军突起,通过转企改制获得了市场竞争主体地位,数字时代经过探索和优化,进入了层次丰富的数据运营阶段,出现了数据运营头部现象;美国大学出版社秉持突破与创新... 首先,梳理了中美英大学出版社主要发展特色,中国大学出版社在改革开放以后异军突起,通过转企改制获得了市场竞争主体地位,数字时代经过探索和优化,进入了层次丰富的数据运营阶段,出现了数据运营头部现象;美国大学出版社秉持突破与创新的精神,较好地解决了传统馆配市场快速萎缩、大学补贴减少以及数字技术主导下学术出版模式不断被重塑的挑战;英国在数字革命和开放获取出版模式下出现了一批新大学出版社,为英国大学出版社的失衡格局带来了新的生机。其次,剖析了中美英大学出版社数据运营不同进展阶段及其特征表现,进取型大学出版社乘势抓住数字技术和开放科学带来的数据运营新机遇;一流大学出版社完成优质内容、品牌积累后,进入数据运营富有竞争力的阶段;头部大学出版社已迈入从产品开发到生态构建的成熟数据运营阶段。再次,探析了推动大学出版社数据运营的三种影响因素,即有利于促进和推动数据运营的政策环境,包括税收补贴和各类资金资助以及大学出版社协会的专业支持,这些宏观管理举措和外部专业支持力量能有效缓解大学出版社人手不足与成本压力之困;内容和品牌积累,帮助大学出版社形成竞争壁垒;卓越的管理能力与进取、创新的出版精神,为数据运营生态建设提供有力的机制保障。最后,提出进一步推动中国大学出版社数据运营三个主体层面的路径建议,即在政策层面扩大资助资金来源、加强资助项目管理和有针对性的税收优惠;大学出版社层面从找准自身定位和探索跨界合作两个维度寻求突破;寻求大学出版社协会专业层面的支持。 展开更多
关键词 头部大学出版社 一流大学出版社 进取型大学出版社 数据运营 推动因素
在线阅读 下载PDF
类级代码异味的半监督学习检测方法
17
作者 瞿志豪 陈军华 高建华 《计算机工程与设计》 北大核心 2025年第10期2741-2747,共7页
基于机器学习的代码异味检测面临数据集较小、缺乏系统性以及手动注释耗时等挑战,限制了模型性能的提升。为此分析了一种代码异味的半监督学习检测方法,旨在通过结合未标注数据和有限标注数据来提高监督学习分类器的性能。实验结果表明... 基于机器学习的代码异味检测面临数据集较小、缺乏系统性以及手动注释耗时等挑战,限制了模型性能的提升。为此分析了一种代码异味的半监督学习检测方法,旨在通过结合未标注数据和有限标注数据来提高监督学习分类器的性能。实验结果表明,半监督学习分类器(semi supervised learning classifier)的性能明显优于监督学习分类器,在Data Class和Feature Envy两种代码异味检测中,F-measure分别提高了3%的和10%。 展开更多
关键词 代码异味 机器学习 监督学习 半监督学习 半监督学习分类器 Feature Envy Data Class
在线阅读 下载PDF
对话状态追踪模型的数据增强方法研究 被引量:1
18
作者 刘舒曼 冯洋 《中文信息学报》 北大核心 2025年第4期96-104,共9页
对话状态追踪模型能够支持任务型对话系统识别任务相关的槽位值。然而,由于标注难度大、领域多样化,对话状态追踪模型常面临训练语料稀少和类别难度不均衡等问题。为了解决这些问题,该文提出了使用数据增强的方法。针对类别难度不均衡问... 对话状态追踪模型能够支持任务型对话系统识别任务相关的槽位值。然而,由于标注难度大、领域多样化,对话状态追踪模型常面临训练语料稀少和类别难度不均衡等问题。为了解决这些问题,该文提出了使用数据增强的方法。针对类别难度不均衡问题,该文使用局部噪声强化槽位值的多样性,加强模型学习槽位无关对话结构的能力;针对训练语料稀少问题,该文根据语料中由槽位结构构成的任务逻辑序列,通过采样生成逻辑合法的槽位值序列,增强语料逻辑多样性,增加语料数量。该文方法在数据集上经对比和分析实验,能显著缓解对话状态追踪模型中存在的类别难度不均衡和语料稀少问题。 展开更多
关键词 对话状态追踪 数据增强 类别难度不均衡
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
19
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-SMOTE 局部合力
在线阅读 下载PDF
基于凝聚式层次聚类的微调筛选过采样方法 被引量:1
20
作者 谷铮 陈学斌 +1 位作者 张宏扬 李雨欣 《计算机应用》 北大核心 2025年第7期2138-2144,共7页
针对不平衡数据集分类效果差的问题,提出一种基于凝聚式层次聚类(AHC)的微调筛选过采样方法,该方法可适用于不平衡数据的多分类情况。首先,在不平衡数据集的聚类过程中应用AHC算法,分别聚类多数类与少数类,从而在考虑类别间关系的同时... 针对不平衡数据集分类效果差的问题,提出一种基于凝聚式层次聚类(AHC)的微调筛选过采样方法,该方法可适用于不平衡数据的多分类情况。首先,在不平衡数据集的聚类过程中应用AHC算法,分别聚类多数类与少数类,从而在考虑类别间关系的同时有效避免类重叠问题;其次,为了平衡数据集并保留原始数据的特征,设计一种微调过采样算法;再次,为了提升生成样本的分类准确率,提出一种基于倾向评分匹配的标签倾向评估与筛选方法;最后,通过实验对所提出的方法进行验证,并将该方法与MDO(Mahalanobis Distance-based Over-sampling technique)、AND-SMOTE(Automatic Neighborhood size Determination method for Synthetic Minority Over-sampling TEchnique)和K-means SMOTE这3种方法进行比较。实验结果表明,在Abalone、Contraceptive和Yeast等6个不同的数据集上,所提方法展现出了良好的性能,验证了它的有效性。 展开更多
关键词 不平衡数据 多分类 过采样 凝聚式层次聚类 标签倾向评估
在线阅读 下载PDF
上一页 1 2 51 下一页 到第
使用帮助 返回顶部