聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领...聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,提出一种GPU加速的高维向量聚类算法,通过引入K近邻(K-nearest neighbor,KNN)图索引加速DBSCAN的计算.首先,设计了GPU加速的并行K近邻图构建算法,显著降低了K近邻图索引的构建开销.其次,提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7–2822.5倍.展开更多
航空标准数据具有结构复杂、语义严谨和跨文档引用频繁等特点,为实现高效、精准的知识获取与问答应用带来挑战,本文提出一种面向航空标准的大语言模型(Large language models,LLMs)迭代检索增强生成(Retrieval-augmented generation,RAG...航空标准数据具有结构复杂、语义严谨和跨文档引用频繁等特点,为实现高效、精准的知识获取与问答应用带来挑战,本文提出一种面向航空标准的大语言模型(Large language models,LLMs)迭代检索增强生成(Retrieval-augmented generation,RAG)方法,设计了基于结构路径感知的标准向量知识库构建与检索机制,结合标准文档的章节结构与标题链条构建支持语境追溯的知识库,并提出基于关键词与语义融合的知识检索机制。在此基础上,设计LLM驱动的自动迭代检索与生成机制,使模型能够自主判断是否需要发起子问题拆解与深层意图识别,并结合多轮检索与动态调度策略,实现问题拆解、信息获取、自主判断与生成控制的一体化闭环,提升对多知识点聚合型、语义递进型等复杂标准问答任务的生成质量与覆盖深度。实验基于7459份航空标准文档构建知识库,针对500条专家标注问答对,在4类涵盖不同参数规模、模型类型及中英文语言能力的主流开源大语言模型上开展对比实验。结果表明,对于中大型参数规模的大模型,此方法在回答准确性、覆盖度和表达质量等指标上均显著优于传统方法。在大模型DeepSeek-R1-70B上,双语评估替补(Bilingual evaluation understudy,BLEU)指标平均提升27.97%,模拟主观评分提升7.99%;在大模型Qwen-2.5-32B上,BLEU指标平均提升54.67%,模拟主观评分提升8.58%。本文所提方法不仅适用于航空标准场景,也可推广至适航规章、维修手册等其他航空结构化文档场景,以及法律、医疗等对回答效果、可信度与可溯源性要求极高的领域,为相关问答系统的构建提供通用的技术框架与实现路径。展开更多
文摘聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,提出一种GPU加速的高维向量聚类算法,通过引入K近邻(K-nearest neighbor,KNN)图索引加速DBSCAN的计算.首先,设计了GPU加速的并行K近邻图构建算法,显著降低了K近邻图索引的构建开销.其次,提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7–2822.5倍.