针对目前基于检索增强生成技术的领域问答任务中由于用户查询和知识库中相关知识的语义差距导致回答效果差的问题,本文提出一种基于关键词抽取和混合检索的对齐优化方法。首先,利用大语言模型抽取用户查询中的关键词;其次,将用户查询拼...针对目前基于检索增强生成技术的领域问答任务中由于用户查询和知识库中相关知识的语义差距导致回答效果差的问题,本文提出一种基于关键词抽取和混合检索的对齐优化方法。首先,利用大语言模型抽取用户查询中的关键词;其次,将用户查询拼接抽取后的关键词组成组合查询,将组合查询与用户查询分别输入稀疏检索模型和稠密检索模型召回相关文档;然后,将检索模型召回的文档做并集处理并重排;最后,将重排后的相关知识输入文本过滤器提取出关键信息文本,并与用户查询合并输入大语言模型生成答案返回给用户。实验结果表明,所提方法在公开的中医药问答数据集和通用领域问答数据集CMRC2018上相较于基于查询改写的对齐优化方法,Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence(ROUGE-L)指标分别提高了9.9个百分点和2.3个百分点,F1指标分别提高了4.1个百分点和1.7个百分点。本文的实验结果验证了所提方法在提升领域问答准确度的有效性。展开更多
文摘现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。
文摘针对目前基于检索增强生成技术的领域问答任务中由于用户查询和知识库中相关知识的语义差距导致回答效果差的问题,本文提出一种基于关键词抽取和混合检索的对齐优化方法。首先,利用大语言模型抽取用户查询中的关键词;其次,将用户查询拼接抽取后的关键词组成组合查询,将组合查询与用户查询分别输入稀疏检索模型和稠密检索模型召回相关文档;然后,将检索模型召回的文档做并集处理并重排;最后,将重排后的相关知识输入文本过滤器提取出关键信息文本,并与用户查询合并输入大语言模型生成答案返回给用户。实验结果表明,所提方法在公开的中医药问答数据集和通用领域问答数据集CMRC2018上相较于基于查询改写的对齐优化方法,Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence(ROUGE-L)指标分别提高了9.9个百分点和2.3个百分点,F1指标分别提高了4.1个百分点和1.7个百分点。本文的实验结果验证了所提方法在提升领域问答准确度的有效性。