Since the launch of a digitization project for the protection and utilization of ancient texts in the Sakya Monastery of the Xizang Autonomous Region in 2012,significant efforts and achievements have been made in anci...Since the launch of a digitization project for the protection and utilization of ancient texts in the Sakya Monastery of the Xizang Autonomous Region in 2012,significant efforts and achievements have been made in ancient text preservation.展开更多
In Egyptology dealing with both historical and literary texts often raises thequestion of their political intention.The almost fixed plot of the "Knigsnovelle”and the“annals,"typical forms of recording Egy...In Egyptology dealing with both historical and literary texts often raises thequestion of their political intention.The almost fixed plot of the "Knigsnovelle”and the“annals,"typical forms of recording Egyptian history,seems to reflect therigid Egyptian view of history anchored in ideology.The historical course ofevents,what we may call“reality,”is less significant than the course展开更多
通用大语言模型(large language model,LLM)在数学古籍领域常因专业术语识别不准确、上下文关系理解偏差、知识推理不全和计算过程错误而产生严重的幻觉(hallucination)问题,包括事实性幻觉、忠实性幻觉和逻辑性幻觉。检索增强生成(retr...通用大语言模型(large language model,LLM)在数学古籍领域常因专业术语识别不准确、上下文关系理解偏差、知识推理不全和计算过程错误而产生严重的幻觉(hallucination)问题,包括事实性幻觉、忠实性幻觉和逻辑性幻觉。检索增强生成(retrieval-augmented generation,RAG)技术引入外部领域文本,目前是缓解大语言模型领域事实性幻觉的一种有效方法。然而RAG的检索内容存在噪声,且知识片段之间缺乏深层关联,使得RAG在缓解忠实性幻觉和逻辑性幻觉方面的能力较为有限。领域知识图谱(domain knowledge graph,DKG)具有将领域知识关联起来的能力,为此提出了DKG和RAG协同知识增强框架(collaborative knowledge augmentation between domain knowledge graph and retrieval-augmented generation,CogKAG),并构建数学古籍《九章算术》领域智能体。CogKAG框架智能体旨在通过检索DKG的结构化领域关联知识和利用RAG检索非结构化领域文本构建动态结构化综合上下文提示,增强LLM的上下文关系及逻辑推理计算能力,从而有效缓解其在数学古籍领域中的忠实性、逻辑性幻觉问题。实验结果证明,CogKAG框架智能体可以显著减轻LLM在数学古籍领域上的幻觉,从而提升在问答(question and answer,QA)任务上的性能。展开更多
传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需...传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT(bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN(DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准主题推荐,对中华文化深层次、细粒度的语义挖掘具有一定的指导意义。展开更多
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人...以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。展开更多
文摘Since the launch of a digitization project for the protection and utilization of ancient texts in the Sakya Monastery of the Xizang Autonomous Region in 2012,significant efforts and achievements have been made in ancient text preservation.
文摘In Egyptology dealing with both historical and literary texts often raises thequestion of their political intention.The almost fixed plot of the "Knigsnovelle”and the“annals,"typical forms of recording Egyptian history,seems to reflect therigid Egyptian view of history anchored in ideology.The historical course ofevents,what we may call“reality,”is less significant than the course
文摘通用大语言模型(large language model,LLM)在数学古籍领域常因专业术语识别不准确、上下文关系理解偏差、知识推理不全和计算过程错误而产生严重的幻觉(hallucination)问题,包括事实性幻觉、忠实性幻觉和逻辑性幻觉。检索增强生成(retrieval-augmented generation,RAG)技术引入外部领域文本,目前是缓解大语言模型领域事实性幻觉的一种有效方法。然而RAG的检索内容存在噪声,且知识片段之间缺乏深层关联,使得RAG在缓解忠实性幻觉和逻辑性幻觉方面的能力较为有限。领域知识图谱(domain knowledge graph,DKG)具有将领域知识关联起来的能力,为此提出了DKG和RAG协同知识增强框架(collaborative knowledge augmentation between domain knowledge graph and retrieval-augmented generation,CogKAG),并构建数学古籍《九章算术》领域智能体。CogKAG框架智能体旨在通过检索DKG的结构化领域关联知识和利用RAG检索非结构化领域文本构建动态结构化综合上下文提示,增强LLM的上下文关系及逻辑推理计算能力,从而有效缓解其在数学古籍领域中的忠实性、逻辑性幻觉问题。实验结果证明,CogKAG框架智能体可以显著减轻LLM在数学古籍领域上的幻觉,从而提升在问答(question and answer,QA)任务上的性能。
文摘传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT(bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN(DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准主题推荐,对中华文化深层次、细粒度的语义挖掘具有一定的指导意义。
文摘以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。