期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
Development and validation of AI delineation of the thoracic RTOG organs at risk with deep learning on multi-institutional datasets
1
作者 Xianghua Ye Dazhou Guo +32 位作者 Lujun Zhao Congying Xie Dandan Zheng Haihua Yang Xiangzhi Zhu Xin Sun Pingping Dong Huanhuan Li Weiwei Kong Jianzhong Cao Honglei Chen Juntao Ran Kai Ren Hongxin Su Hao Hu Cuimeng Tian Tianlu Wang Qiang Zeng Xiao Hu Ping Peng Junhua Zhang Li Zhang Tingting Zhang Lue Zhou Wenchao Guo Zhanghexuan Ji Puyang Wang Hua Zhang Jiali Liu Le Lu Senxiang Yan Dakai Jin Feng-Ming(Spring)Kong 《Intelligent Oncology》 2025年第1期61-71,共11页
Introduction:Accurate contouring of thoracic organs at risk(OARs)is essential for minimizing complications in radiation treatment.Manual contouring of thoracic OARs is not only time-consuming but also prone to substan... Introduction:Accurate contouring of thoracic organs at risk(OARs)is essential for minimizing complications in radiation treatment.Manual contouring of thoracic OARs is not only time-consuming but also prone to substantial user variation.To enhance the efficiency and consistency,we developed a unified deep learning(DL)OAR contouring model,DeepOAR,that was trained using multiple partially labeled datasets for segmenting a comprehensive set of thoracic OARs following the Radiation Therapy Oncology Group(RTOG)-guided OAR atlas.This DL model supports the segmentation of six required and eight optional OARs guided by the NRG-RTOG 1106 trial,providing precise and reproducible OARs contouring that are ready to be used in radiotherapy practice.Materials and methods:Following the OAR contouring recommendation of the NRG-RTOG 1106 trial,we collected and curated three private datasets and two public datasets,comprising a total of 531 patients with partially annotated thoracic OARs.These partially annotated datasets were utilized to develop DeepOAR,which consisted of a shared encoder and 14 separate decoders,with each decoder dedicated to one specific OAR.For model training,we utilized all patients from the two public datasets and 75%of the patients from the private datasets.We reserved the remaining 25%of the private datasets for independent testing.A multi-user study involving 21 radiation oncologists was conducted on 40 randomly selected patients from the independent testing dataset to evaluate the clinical applicability of DeepOAR.The Dice coefficient score(DSC)and average surface distance(ASD)were computed to evaluate the quantitative delineation performance of the model.Results:DeepOAR outperformed nnUNet(the benchmark medical segmentation model)across all 14 OARs,achieving mean DSC and ASD values of 88.4%and 1.0 mm,respectively,in the independent testing set.Multi-user validation demonstrated that 89.7%of DeepOAR-generated OARs were clinically acceptable or required only minor revisions.A comparison using two randomly selected patients showed that the delineation variability of DeepOAR was significantly smaller than the inter-user variation among radiation oncologists.Human editing of DeepOAR’s predictions could further improve OAR delineation accuracy by an average of 3%increase in DSC and 40%reduction in ASD while significantly reducing the workload of radiation oncologists for contouring 14 thoracic OARs by an average of 77.0%.Conclusion:We developed DeepOAR,a DL-based unified contouring model trained using multiple partially labeled datasets,to delineate a comprehensive set of 14 thoracic OARs following the RTOG-guided OAR atlas.Both qualitative and quantitative results demonstrated the strong clinical applicability of DeepOAR for the OAR delineation process in thoracic cancer radiotherapy workflows,along with improved efficiency,comprehensiveness,and quality. 展开更多
关键词 NRG-RTOG 1106 OAR segmentation Deep learning Partially labeled datasets
暂未订购
An Analysis of OpenSeeD for Video Semantic Labeling
2
作者 Jenny Zhu 《Journal of Computer and Communications》 2025年第1期59-71,共13页
Semantic segmentation is a core task in computer vision that allows AI models to interact and understand their surrounding environment. Similarly to how humans subconsciously segment scenes, this ability is crucial fo... Semantic segmentation is a core task in computer vision that allows AI models to interact and understand their surrounding environment. Similarly to how humans subconsciously segment scenes, this ability is crucial for scene understanding. However, a challenge many semantic learning models face is the lack of data. Existing video datasets are limited to short, low-resolution videos that are not representative of real-world examples. Thus, one of our key contributions is a customized semantic segmentation version of the Walking Tours Dataset that features hour-long, high-resolution, real-world data from tours of different cities. Additionally, we evaluate the performance of open-vocabulary, semantic model OpenSeeD on our own custom dataset and discuss future implications. 展开更多
关键词 Semantic Segmentation Detection labelING OpenSeeD Open-Vocabulary Walking Tours dataset VIDEOS
在线阅读 下载PDF
融合数据增强和多通道解码的中文多标签文本分类方法
3
作者 黄荣达 彭若馨 杨英勃 《网络新媒体技术》 2026年第1期57-65,共9页
中文多标签文本分类是自然语言处理领域的重要任务之一,广泛应用于情感分析、舆情监测、文本标注等多个领域。然而,中文文本的复杂性以及多标签数据集的特殊性(如数据量少、标签不平衡、复合标签等)给分类任务带来诸多挑战。本文提出一... 中文多标签文本分类是自然语言处理领域的重要任务之一,广泛应用于情感分析、舆情监测、文本标注等多个领域。然而,中文文本的复杂性以及多标签数据集的特殊性(如数据量少、标签不平衡、复合标签等)给分类任务带来诸多挑战。本文提出一种基于数据增强和多通道解码的中文多标签文本分类模型,通过大模型增强平衡不同类型的标签数据,同时利用多通道解码改善单通道解码不能充分区分不同维度语义差别的问题。实验结果表明,所提出的方法在多个数据集上平均F1值从69提升至79,为中文多标签文本分类任务提供新的解决方案。 展开更多
关键词 中文数据集 多标签文本分类 数据增强 多通道解码
在线阅读 下载PDF
基于三重生成对抗的多维时间序列异常检测 被引量:1
4
作者 霍纬纲 吴艺凝 《计算机工程与设计》 北大核心 2025年第5期1304-1310,共7页
为有效解决多维时间序列(multivariate time series, MTS)无监督异常检测模型中自编码器模块容易拟合异常样本、正常MTS样本对应的隐空间特征可能被重构为异常MTS的问题,设计一种具有三重生成对抗的MTS异常检测模型。以LSTM自编码器为... 为有效解决多维时间序列(multivariate time series, MTS)无监督异常检测模型中自编码器模块容易拟合异常样本、正常MTS样本对应的隐空间特征可能被重构为异常MTS的问题,设计一种具有三重生成对抗的MTS异常检测模型。以LSTM自编码器为生成器,基于重构误差生成伪标签,由判别器区分经伪标签过滤后的重构MTS和原始MTS;采用两次对抗训练将LSTM自编码器的隐空间约束为均匀分布,减少LSTM自编码器隐空间特征重构出异常MTS的可能性。多个公开MTS数据集上的实验结果表明,T-GAN能在带有污染数据的训练集上更好学习正常MTS分布,取得较高的异常检测效果。 展开更多
关键词 异常检测 生成对抗 多维时间序列 自编码器 长短期记忆网络 伪标签 污染数据
在线阅读 下载PDF
数据集质量对典型图像分类模型性能影响研究 被引量:1
5
作者 杨椀迪 吕岩 +2 位作者 蒲晓晨 孟祥来 李春晖 《软件》 2025年第8期16-20,共5页
本文研究了数据集质量对四种典型图像分类深度学习模型(LeNet、VGG、DenseNet和ResNet)性能的影响。通过在ImageNet 2012标准数据集中人为引入不同比例的标注错误(0%~50%),模拟不同质量的数据集,评估其对模型识别能力的影响。结果表明,... 本文研究了数据集质量对四种典型图像分类深度学习模型(LeNet、VGG、DenseNet和ResNet)性能的影响。通过在ImageNet 2012标准数据集中人为引入不同比例的标注错误(0%~50%),模拟不同质量的数据集,评估其对模型识别能力的影响。结果表明,数据集质量显著影响所有测试模型的性能,尤其是当数据集中存在较高比例的错误标签时,模型的分类精度明显下降。此外,不同模型对标注错误的敏感性存在差异,某些模型能更好地抵御低质量标注的负面影响。具体而言,ResNet对于标注错误的鲁棒性最强,而DenseNet在不同质量数据集下表现最优。本研究为理解数据集质量在机器学习中的作用提供了实证支持,并为未来智能标注系统的设计提供了参考依据。 展开更多
关键词 深度学习 图像分类 数据集质量 手动标记 模型的准确性
在线阅读 下载PDF
F3l:an automated and secure function-level low-overhead labeled encrypted traffic dataset construction method for IM in Android
6
作者 Keya Xu Guang Cheng 《Cybersecurity》 2025年第1期45-60,共16页
Fine-grained function-level encrypted traffic classification is an essential approach to maintaining network security.Machine learning and deep learning have become mainstream methods to analyze traffic,and labeled da... Fine-grained function-level encrypted traffic classification is an essential approach to maintaining network security.Machine learning and deep learning have become mainstream methods to analyze traffic,and labeled dataset construction is the basis.Android occupies a huge share of the mobile operating system market.Instant Messaging(IM)applications are important tools for people communication.But such applications have complex functions which frequently switched,so it is difficult to obtain function-level labels.The existing function-level public datasets in Android are rare and noisy,leading to research stagnation.Most labeled samples are collected with WLAN devices,which cannot exclude the operating system background traffic.At the same time,other datasets need to obtain root permission or use scripts to simulate user behavior.These collecting methods either destroy the security of the mobile device or ignore the real operation features of users with coarse-grained.Previous work(Chen et al.in Appl Sci 12(22):11731,2022)proposed a one-stop automated encrypted traffic labeled sample collection,construction,and correlation system,A3C,running at the application-level in Android.This paper analyzes the display characteristics of IM and proposes a function-level low-overhead labeled encrypted traffic datasets construction method for Android,F3L.The supplementary method to A3C monitors UI controls and layouts of the Android system in the foreground.It selects the feature fields of attributes of them for different in-app functions to build an in-app function label matching library for target applications and in-app functions.The deviation of timestamp between function invocation and label identification completion is calibrated to cut traffic samples and map them to corresponding labels.Experiments show that the method can match the correct label within 3 s after the user operation. 展开更多
关键词 Encrypted traffic Deep learning ANDROID labeled dataset
原文传递
一种面向中文胸片报告生成的疾病标注器
7
作者 王梦伟 颜瑞馨 +2 位作者 侯泽毅 郎宁 周修庄 《小型微型计算机系统》 北大核心 2025年第6期1365-1372,共8页
在医学图像分析领域,中文胸片报告数据集的缺乏限制了中文胸片报告生成技术的发展.一方面,构建中文胸片报告数据集时,专家准确地标注疾病耗时长成本高.另一方面,单一的自然语言生成指标通常用于评价生成报告与真实报告之间的相似性,而... 在医学图像分析领域,中文胸片报告数据集的缺乏限制了中文胸片报告生成技术的发展.一方面,构建中文胸片报告数据集时,专家准确地标注疾病耗时长成本高.另一方面,单一的自然语言生成指标通常用于评价生成报告与真实报告之间的相似性,而评价生成报告的临床正确性和有效性依赖于一个准确的疾病标注器(分类器).针对专家标注疾病耗时长成本高及疾病标注器缺乏的问题,研究提出了一种面向中文胸片报告生成的疾病标注器.该标注器利用双BERT结构分别处理诊断报告和临床信息,并通过疾病与身体部位的隶属关系构建层级标签学习算法,以提升文本分类性能.利用该疾病标注器,构建了一个包含51262例胸片报告样本的中文胸片报告数据集.最后,在专家标注的中文胸片报告子集上进行了实验和分析,验证了该疾病标注器的有效性. 展开更多
关键词 多标签分类 层级标签 BERT 中文胸片报告数据集 胸片报告生成
在线阅读 下载PDF
深度学习药品数据集构建及标签技术
8
作者 王敏 朱永楠 +2 位作者 曹冉 吴佳 王康 《信息技术》 2025年第8期1-7,13,共8页
药片作为一种常见的药品,需要在研发、生产、包装以及药房的配药核对等环节中进行监督和检查,其中药片的品质识别和药片的处方核对尤为重要。针对药片识别检测的两种不同需求,分别构建药片缺陷识别与多目标检测数据集。首先,进行数据采... 药片作为一种常见的药品,需要在研发、生产、包装以及药房的配药核对等环节中进行监督和检查,其中药片的品质识别和药片的处方核对尤为重要。针对药片识别检测的两种不同需求,分别构建药片缺陷识别与多目标检测数据集。首先,进行数据采集设备的选型,并完成药片图像数据的初步采集;其次,进行数据清洗,筛选出可用图像数据;最后,对缺陷药片图像进行数据增强,并对多目标药片检测图像进行数据标注。经数据集构建及增强操作后,样本数量分布均衡,能够在训练过程中充分提取不同类别缺陷药片的特征,从而避免过拟合或欠拟合问题的出现。 展开更多
关键词 深度学习 机器视觉 数据集 标签 数据清洗
在线阅读 下载PDF
基于BIM与计算机视觉的施工现场构件识别
9
作者 邹敏 戴成元 +1 位作者 刘其舟 冯家齐 《湖北理工学院学报》 2025年第4期41-46,共6页
针对建筑领域开源数据少、数据标注成本高、目标检测模型训练困难等问题,提出一种基于BIM与计算机视觉的施工现场构件识别方法。首先,利用BIM三维模型模拟施工现场并进行渲染,批量生成包含目标构件的二维虚拟图像;随后,利用阈值分割、... 针对建筑领域开源数据少、数据标注成本高、目标检测模型训练困难等问题,提出一种基于BIM与计算机视觉的施工现场构件识别方法。首先,利用BIM三维模型模拟施工现场并进行渲染,批量生成包含目标构件的二维虚拟图像;随后,利用阈值分割、形态学腐蚀等图像处理手段突出构件主体,实现虚拟图像的自动标注;最后,利用带标注的虚拟图像训练目标检测模型,并迁移应用于真实施工现场,实现施工现场构件的快速检测和识别。结果表明,高质量渲染的虚拟图像可以支撑目标检测模型的训练,检测结果能够满足建筑施工现场环境下构件识别的基本需求。 展开更多
关键词 构件识别 进度监测 BIM 虚拟数据集 自动标注
在线阅读 下载PDF
基于Python的YOLO数据集管理软件设计与实证研究
10
作者 林静敏 魏松林 《乐山师范学院学报》 2025年第4期23-32,共10页
随着YOLO目标检测技术的广泛应用,多源数据集的标签定制与高效融合成为提升模型训练效率的关键挑战。现有工具存在标注分散、格式转换繁琐、缺乏统一管理平台等问题,导致数据准备效率低且易出错。为此,文章通过集成多源数据集格式转换... 随着YOLO目标检测技术的广泛应用,多源数据集的标签定制与高效融合成为提升模型训练效率的关键挑战。现有工具存在标注分散、格式转换繁琐、缺乏统一管理平台等问题,导致数据准备效率低且易出错。为此,文章通过集成多源数据集格式转换、标签动态映射、子集划分及合并等核心功能,支持用户通过配置文件灵活定制标签,拟设计一款基于Python的YOLO数据集管理软件,以解决标签命名冲突与类别冗余等问题。实证结果表明,该软件在融合4个异构数据集(15.8万张图像)时,内存占用仅99.8 MB,平均每生成一个标注文件约耗时12.74 ms,验证了其在复杂场景与大规模数据下的高效性;该软件支持跨平台运行,为YOLO算法开发者提供了一套轻量化、可扩展的工具,成功实现了多源数据集标签定制与融合,对推动目标检测技术的工程化应用具有实践价值。 展开更多
关键词 目标检测 YOLO数据集管理 数据集融合 标签定制
在线阅读 下载PDF
智能物探技术的过去、现在与未来 被引量:12
11
作者 杨午阳 魏新建 李海山 《岩性油气藏》 CAS CSCD 北大核心 2024年第2期170-188,共19页
通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,... 通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,得益于物探领域数据量的指数级增长、硬件算力的高速发展以及不断出现的新深度学习框架,智能物探技术从早期的机器学习发展为目前的深度学习,在地震资料处理、解释等方面的应用中取得了大量研究成果。(2)目前智能物探技术被广泛应用于标签集的构建、去噪、断裂检测、层位与层序解释、地震相分类和异常体检测、岩性识别与油气藏开发、地震反演成像等方面,大幅提高了工作效率,降低了工作成本,克服了人工交互操作和人工经验的主观性和不可靠性,助力打破传统物探技术瓶颈。(3)智能物探技术的发展面临着缺少公开的标签数据集、缺少解决地球物理领域问题的智能化框架及尚未形成适用于地球物理领域共享的智能化开发平台等难题,可以从解决数据基础、构建智能平台、开展网络架构基础性研究及与应用场景结合等方面着手解决;此外,智能物探技术的发展方向还包含智能地震成像方法研究,储层成像方法研究,油气大数据挖掘、智能风险评估与智能决策以及超算软件装备研发等方面。 展开更多
关键词 智能物探 大数据 人工智能 机器学习 深度学习 标签数据集 深度学习框架 智能处理与解释 地震资料
在线阅读 下载PDF
一种适合弱标签数据集的图像语义标注方法 被引量:3
12
作者 田枫 沈旭昆 《软件学报》 EI CSCD 北大核心 2013年第10期2405-2418,共14页
真实环境下数据集中广泛存在着标签噪声问题,数据集的弱标签性已严重阻碍了图像语义标注的实用化进程.针对弱标签数据集中的标签不准确、不完整和语义分布失衡现象,提出了一种适用于弱标签数据集的图像语义标注方法.首先,在视觉内容与... 真实环境下数据集中广泛存在着标签噪声问题,数据集的弱标签性已严重阻碍了图像语义标注的实用化进程.针对弱标签数据集中的标签不准确、不完整和语义分布失衡现象,提出了一种适用于弱标签数据集的图像语义标注方法.首先,在视觉内容与标签语义的一致性约束、标签相关性约束和语义稀疏性约束下,通过直推式学习填充样本标签,构建样本的近似语义平衡邻域.鉴于邻域中存在噪声干扰,通过多标签语义嵌入的邻域最大边际学习获得距离测度和图像语义的一致性,使得近邻处于同一语义子空间.然后,以近邻为局部坐标基,通过邻域非负稀疏编码获得目标图像和近邻的部分相关性,并构建局部语义一致邻域.以邻域内的语义近邻为指导并结合语境相关信息,进行迭代式降噪与标签预测.实验结果表明了方法的有效性. 展开更多
关键词 图像语义标注 弱标签数据集 测度学习 非负稀疏编码 语义近邻
在线阅读 下载PDF
一种新的快速挖掘频繁子树算法 被引量:2
13
作者 唐德权 刘绪崇 《湘潭大学学报(自然科学版)》 CAS 2022年第2期96-106,共11页
挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用... 挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用扩展操作生成候选子树集,进一步提出有根有序标签树的挖掘算法.通过确定自由树中心,将自由树转换成有根有序标签树.该方法不仅解决了一般自由树规范化问题,而且能直接应用到半结构化数据集中.实验结果表明,该方法能够快速有效地从大型标签数据集中挖掘所有频繁子树. 展开更多
关键词 数据挖掘 标签数据集 频繁子树 有根有序树 自由树
在线阅读 下载PDF
基于双标签集的标签匹配集成学习算法
14
作者 张丹普 王莉莉 +1 位作者 付忠良 李昕 《计算机应用》 CSCD 北大核心 2014年第9期2577-2580,共4页
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。通过对标签... 当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。 展开更多
关键词 连续ADABOOST 多标签学习 多标签集 标签匹配 集成学习
在线阅读 下载PDF
一种采用LLE降维和贝叶斯分类的多类标学习算法 被引量:4
15
作者 李宏 谢政 +1 位作者 向遥 吴敏 《系统工程与电子技术》 EI CSCD 北大核心 2009年第6期1467-1472,共6页
多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低... 多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低维特征属性集;然后将多类标样本集按所属的类标进行划分,并采用贝叶斯分类模型来学习各组样本集的分类特性;根据各个分类模型的判定类标,综合得到多类标样本的最终类标集。将该算法分别应用到自然场景图像和基因数据的多类标分类学习中,实验结果表明,该算法针对不同的多类标数据集均能取得很好的分类效果,且相比于其他多类标算法有更高的性能。 展开更多
关键词 多类标学习 朴素贝叶斯分类 自然场景图像分类 基因数据集分类
在线阅读 下载PDF
融合数据分布特征的保序学习机
16
作者 刘忠宝 张志剑 党建飞 《数据采集与处理》 CSCD 北大核心 2020年第3期431-440,共10页
支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。... 支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。鉴于此,提出融合数据分布特征的保序学习机(Rank preservation learning machine based on data distribution fusion,RPLM-DDF)。该方法通过引入类内离散度表征数据的分布特征;通过各类样本数据中心位置相对不变保证全局样本顺序不变;通过建立所提方法和核心向量机对偶形式的等价性解决了大规模分类问题。在人工数据集、中小规模数据集和大规模数据集上的比较实验验证所提方法的有效性。 展开更多
关键词 类内离散度 支持向量机 大规模数据集 全局保序 核心向量机
在线阅读 下载PDF
中国农村地区建筑物样本及标注无人机影像数据集 被引量:2
17
作者 刘耀辉 杨新月 +14 位作者 李嘉禾 程昊 周洁 范熙伟 张昊宇 李晓丽 齐文华 李志强 聂高众 徐南 付博 姚国标 于明洋 孟飞 靳奉祥 《中国科学数据(中英文网络版)》 CSCD 2022年第2期179-191,共13页
农村建筑物是观察农村土地变化和经济发展的基础资料。中国作为农业大国,从高空间分辨率遥感影像上及时、准确提取农村建筑物,对于农村发展至关重要。近年来,随着计算机视觉和运算能力的迅速发展,深度学习以其自动学习特征、适用性强等... 农村建筑物是观察农村土地变化和经济发展的基础资料。中国作为农业大国,从高空间分辨率遥感影像上及时、准确提取农村建筑物,对于农村发展至关重要。近年来,随着计算机视觉和运算能力的迅速发展,深度学习以其自动学习特征、适用性强等优点,已在建筑物自动提取等领域取得较好效果。深度学习通常需要大量的训练数据。目前,深度学习提取建筑物常用的数据集以国际上开源建筑物数据集为主,包括Massachusetts、INRIA、WHU等。这些数据集大多基于国外建筑物,缺乏开源、高精度、覆盖范围广、贴切我国农村地区建筑主体结构的建筑物样本数据。为此,本研究基于2017-2020年在陕西渭南、江苏淮安、四川康定、广东汕尾、广东惠州、新疆阿图什、吉林松原等多个中国农村地区采集的无人机航拍图像,制作并开放共享本数据集。本数据集空间分辨率高,基本涵盖我国农村地区房屋建筑的主体结构类型,可应用深度学习方法进行建筑物提取,并可进一步结合具体研究目标进行空间分析和研究,对于国土部门统筹城乡发展和美丽乡村建设具有重要意义和应用价值。 展开更多
关键词 遥感 无人机 中国农村 建筑物 样本及标注 数据集 深度学习
在线阅读 下载PDF
基于机器学习的PVDF基复合介质储能特性数据分析与预测 被引量:3
18
作者 冯宇 唐文昕 +2 位作者 张天栋 迟庆国 陈庆国 《高电压技术》 EI CAS CSCD 北大核心 2022年第5期1997-2004,共8页
近年来,机器学习作为一种新型数据分析方式,在电气、材料、化学等领域都取得了优异的成果。对储能介质材料而言,以聚偏氟乙烯(polyvinylidenefluoride,PVDF)材料作为基体,向其中加入纳米填料能够极大地增加复合介质最大储能密度。该研... 近年来,机器学习作为一种新型数据分析方式,在电气、材料、化学等领域都取得了优异的成果。对储能介质材料而言,以聚偏氟乙烯(polyvinylidenefluoride,PVDF)材料作为基体,向其中加入纳米填料能够极大地增加复合介质最大储能密度。该研究利用机器学习探索并建立复合介质所含填料(微观信息)-复合介质储能性能(宏观性能)的对应关系。首先,收集165组复合介质储能特性参数建立数据库,以填充相材料的特征作为输入描述符(包括固有描述符和选择描述符);其次,对原始数据进行处理,根据复合介质的最大储能密度提升倍数划分数据集标签。为达到兼顾预测精度和准确率的目的,分别设置二分类、三分类和四分类数据集,使用3种机器学习算法对数据集进行训练;最后,将11组全新的数据输入训练模型进行验证,其中7组数据可以正确预测分类,证明机器学习方法应用在高储能密度复合介质研究中的可靠性。该研究将交叉学科的前沿成果运用在复合介质的研究领域,所建数据库与训练模型将加速高性能复合介质的发现。 展开更多
关键词 复合介质 最大储能密度 纳米填料 机器学习 数据集标签
原文传递
高校学业文本命名实体识别及数据集构建研究 被引量:5
19
作者 何晨 苑迎春 +1 位作者 王克俭 陶佳 《计算机工程与应用》 CSCD 北大核心 2023年第22期322-328,共7页
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开... 近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力。利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题。实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切。依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作。将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性。 展开更多
关键词 高校学业 命名实体识别 数据集构建 实体标注 BiLSTM-CRF
在线阅读 下载PDF
基于服装结构特征识别的相似样板匹配技术 被引量:7
20
作者 刘蓉 谢红 《纺织学报》 EI CAS CSCD 北大核心 2023年第10期134-142,共9页
为提高服装制版效率,实现从服装款式图到样板的智能检索,提出一种基于服装结构特征识别的相似样板匹配技术。该技术将服装结构制版知识与深度学习算法结合,基于对女裤中的廓形、褶裥、腰头类型等18个细粒度特征的识别来匹配样板。其中,... 为提高服装制版效率,实现从服装款式图到样板的智能检索,提出一种基于服装结构特征识别的相似样板匹配技术。该技术将服装结构制版知识与深度学习算法结合,基于对女裤中的廓形、褶裥、腰头类型等18个细粒度特征的识别来匹配样板。其中,技术的实现主要包括分类标签设计和模型验证实验。对于分类标签设计:先根据女裤结构制图知识,对平面款式图中可作为样板相似性评价指标的服装结构特征进行定义,并根据定义设置多标签类别;然后将多标签分类转化为单标签多分类,建立平面款式图、结构特征和样板三者之间的联系;最后通过数据可视化等方法对标签之间的相关性进行研究,并设计了最终的18个分类标签。对于模型验证实验:首先建立以女裤平面款式图为样本的服装数据集,基于数据集的特点对经典AlexNet网络进行改进,其中包括简化网络结构、减少模型参数、防止过拟合,在每层卷积层后增加批归一化操作,以加快模型的收敛速度,提高模型的泛化能力。模型测试结果表明:改进后的模型在验证集上的准确率为83.4%,相比改进前的AlexNet模型其准确率提高了6.7%;与其它结构更复杂的网络模型相比,该模型的准确率更高,综合性能更好,可用于款式图的结构特征识别及相似样板匹配。 展开更多
关键词 服装结构特征 样板匹配 多标签分类 服装数据集 AlexNet网络 服装制版
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部