针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似...针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。展开更多
[目的/意义]将科学数据分类到特定的学科领域,可以增强信息检索效果以及提高资源的可发现性,不过以人为主体对科学数据进行分类已难以应对海量数据处理的需求,因此有必要探索科学数据自动分类的有效方法。[方法/过程]提出大语言模型驱...[目的/意义]将科学数据分类到特定的学科领域,可以增强信息检索效果以及提高资源的可发现性,不过以人为主体对科学数据进行分类已难以应对海量数据处理的需求,因此有必要探索科学数据自动分类的有效方法。[方法/过程]提出大语言模型驱动的科学数据自动分类的研究思路。首先,利用数据期刊“Data in Brief”构建高质量标注数据集;然后,设计提示模板和遴选少样本数据,使开源模型Qwen2.5-7B快速适配分类任务,并利用标注数据进一步对大语言模型进行监督式微调;最后,进行少样本学习实验以及利用微调后的大语言模型分别针对元数据和全文进行分类实验。[结果/结论]将提示模板、少样本学习以及监督式微调相互结合,可以有效提高大语言模型的自动分类性能。同时,用于模型微调的标注数据的数量和学科分布,决定了大语言模型在不同学科分类的效果。展开更多
文摘针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。
文摘[目的/意义]将科学数据分类到特定的学科领域,可以增强信息检索效果以及提高资源的可发现性,不过以人为主体对科学数据进行分类已难以应对海量数据处理的需求,因此有必要探索科学数据自动分类的有效方法。[方法/过程]提出大语言模型驱动的科学数据自动分类的研究思路。首先,利用数据期刊“Data in Brief”构建高质量标注数据集;然后,设计提示模板和遴选少样本数据,使开源模型Qwen2.5-7B快速适配分类任务,并利用标注数据进一步对大语言模型进行监督式微调;最后,进行少样本学习实验以及利用微调后的大语言模型分别针对元数据和全文进行分类实验。[结果/结论]将提示模板、少样本学习以及监督式微调相互结合,可以有效提高大语言模型的自动分类性能。同时,用于模型微调的标注数据的数量和学科分布,决定了大语言模型在不同学科分类的效果。