期刊文献+
共找到858篇文章
< 1 2 43 >
每页显示 20 50 100
A Stable and Consistent Document Model Suitable for Asynchronous Cooperative Edition
1
作者 Maurice Tchoupé Tchendji Rodrigue D. Djeumen Marcellin T. Atemkeng 《Journal of Computer and Communications》 2017年第8期69-82,共14页
Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely struct... Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely structural aspects which interest us here), in the context of a cooperative edition, legal structures are characterized by a document model (an abstract grammar) and each intentional representation can be manipulated independently and eventually asynchronously by several co-authors through various editing tools that operate on its “partial replicas”. For unsynchronized edition of a partial replica, considered co-author must have a syntactic document local model that constraints him to ensure minimum consistency of local representation that handles with respect to the global model. This consistency is synonymous with the existence of one or more (global) intentional representations towards the global model, assuming the current local representation as her/their partial replica. The purpose of this paper is to present the grammatical structures which are grammars that permit not only to specify a (global) model for documents published in a cooperative manner, but also to derive automatically via a so call projection operation, consistent (local) models for each co-authors involved in the cooperative edition. We also show some properties that meet these grammatical structures. 展开更多
关键词 STRUCTURED documentS documentS models GRAMMARS Cooperative EDITION STRUCTURED EDITION Projections VIEWS Partial Replicas
在线阅读 下载PDF
Storyline Extraction of Document-Level Events Using Large Language Models
2
作者 Ziyang Hu Yaxiong Li 《Journal of Computer and Communications》 2024年第11期162-172,共11页
This article proposes a document-level prompt learning approach using LLMs to extract the timeline-based storyline. Through verification tests on datasets such as ESCv1.2 and Timeline17, the results show that the prom... This article proposes a document-level prompt learning approach using LLMs to extract the timeline-based storyline. Through verification tests on datasets such as ESCv1.2 and Timeline17, the results show that the prompt + one-shot learning proposed in this article works well. Meanwhile, our research findings indicate that although timeline-based storyline extraction has shown promising prospects in the practical applications of LLMs, it is still a complex natural language processing task that requires further research. 展开更多
关键词 document-Level Storyline Extraction TIMELINE Large Language models Topological Structure of Storyline Prompt Learning
在线阅读 下载PDF
基于大语言模型的本体提示指导的司法命名实体识别 被引量:1
3
作者 田萍芳 刘恒永 +2 位作者 高峰 顾进广 祝歆 《武汉大学学报(理学版)》 北大核心 2025年第2期219-231,共13页
为改善在低资源和少样本条件下对复杂司法命名实体识别的效果,提出了一种基于本体提示指导的司法命名实体识别方法,将大语言模型应用于司法命名实体识别。首先,以涉假司法文书为例,结合文书内容和现有司法文书领域本体采用“自顶向下”... 为改善在低资源和少样本条件下对复杂司法命名实体识别的效果,提出了一种基于本体提示指导的司法命名实体识别方法,将大语言模型应用于司法命名实体识别。首先,以涉假司法文书为例,结合文书内容和现有司法文书领域本体采用“自顶向下”的方式构建涉假司法文书知识图谱本体模型。然后,基于本体模型构建指令,指令包括任务描述、本体描述、任务示例和司法文本四部分,对大语言模型进行指令微调以完成司法命名实体识别任务,其中本体描述部分用于在微调过程中加入实体的定义与关系信息。最后,选择本文构建的本体模型包含的12类细粒度实体,自行采集数据集用于实验,并将其与几种典型的传统实体识别方法进行比较,结果显示,在少样本微调的条件下,本文提出的方法表现效果更好。 展开更多
关键词 司法文书 命名实体识别 大语言模型 提示工程 本体
原文传递
Stochastic Model for Multiple Classes and Subclasses Simple Documents Processing 被引量:1
4
作者 Pierre Moukeli Mbindzoukou Arsène Roland Moukoukou Marius Massala 《Intelligent Information Management》 2021年第2期124-140,共17页
The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same ... The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same period, workflow management has experienced significant development, but has become more focused on the industry. However, it seems to us that document workflows have not had the same interest for the scientific community. But nowadays, the emergence and supremacy of the Internet in electronic exchanges are leading to a massive dematerialization of documents;which requires a conceptual reconsideration of the organizational framework for the processing of said documents in both public and private administrations. This problem seems open to us and deserves the interest of the scientific community. Indeed, EDM has mainly focused on the storage (referencing) and circulation of documents (traceability). It paid little attention to the overall behavior of the system in processing documents. The purpose of our researches is to model document processing systems. In the previous works, we proposed a general model and its specialization in the case of small documents (any document processed by a single person at a time during its processing life cycle), which represent 70% of documents processed by administrations, according to our study. In this contribution, we extend the model for processing small documents to the case where they are managed in a system comprising document classes organized in subclasses;which is the case for most administrations. We have thus observed that this model is a Markovian <i>M<sup>L×K</sup>/M<sup>L×K</sup>/</i>1 queues network. We have analyzed the constraints of this model and deduced certain characteristics and metrics. <span style="white-space:normal;"><i></i></span><i>In fine<span style="white-space:normal;"></span></i>, the ultimate objective of our work is to design a document workflow management system, integrating a component of global behavior prediction. 展开更多
关键词 document Processing WORKFLOW Hierarchic Chart Counting Processes Stochastic models Waiting Lines Markov Processes Priority Queues Multiple Class and Subclass Queues
在线阅读 下载PDF
我国文献修复职业稳定性因素分析及发展策略研究
5
作者 张美芳 臧丹阳 +1 位作者 李萌 宋欣 《北京档案》 北大核心 2025年第5期22-28,共7页
文献修复职业的职能及职责有别于其他行业或档案馆与图书馆其他岗位,对专业及技术要求高。论文利用31个省(区、市)的调查数据,分析了当前我国文献修复人员从业现状,并基于Logit模型对影响修复职业稳定性的主要因素进行了分析,同时运用SP... 文献修复职业的职能及职责有别于其他行业或档案馆与图书馆其他岗位,对专业及技术要求高。论文利用31个省(区、市)的调查数据,分析了当前我国文献修复人员从业现状,并基于Logit模型对影响修复职业稳定性的主要因素进行了分析,同时运用SPSS 26.0对调研结果进行回归分析,结果得出,修复人员学历、职业兴趣、成就感、社会评价、升迁机会等与选择并坚守修复职业直接相关。论文揭示了在社会及大众对文献修复职业认可度不断提高的背景下自身职业发展变化的根源,以便调整修复人才培养方式,促进文献保护与修复队伍不断壮大。 展开更多
关键词 文献修复 人才结构 LOGIT模型 人才培养
在线阅读 下载PDF
基于双向文本扩展的信息检索重排方法
6
作者 涂新辉 郭聪 宗宇航 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期59-67,共9页
随着大语言模型(LLM)的快速发展,信息检索中的文本匹配和文本扩展技术均取得了显著进展。查询扩展和文档扩展作为增强文本表征的2种重要方法,已广泛应用于现代信息检索系统中。目前,主流的文本扩展方法主要依赖大语言模型实现,然而这些... 随着大语言模型(LLM)的快速发展,信息检索中的文本匹配和文本扩展技术均取得了显著进展。查询扩展和文档扩展作为增强文本表征的2种重要方法,已广泛应用于现代信息检索系统中。目前,主流的文本扩展方法主要依赖大语言模型实现,然而这些模型生成的文本与人工创作的文本在语言多样性和风格上存在明显差异。这种差异可能会影响查询-文档相关性的计算准确度,最终导致整个信息检索系统的性能下降。为此,该文提出了一种基于双向文本扩展的信息检索重排方法(BTE-IRRM)。首先,采用零样本提示使大语言模型生成文档的伪查询和查询的伪文档;然后,计算伪查询和伪文档之间的语义相似度;最后,把原始查询-文档的相似度得分和伪查询-伪文档的语义相似度得分进行加权融合,得到最终的文档排序结果。为验证所提方法的有效性,该文在2个公开数据集(DL19和DL20)上进行了实验。结果表明,相比于现有基线方法,BTEIRRM方法的多项评价指标均取得了显著提升。因此,该文提出的双向文本扩展方法能够进一步增强查询与文档之间的相关性匹配,从而提升整个信息检索系统的性能。 展开更多
关键词 信息检索 大语言模型 查询扩展 文档扩展
在线阅读 下载PDF
基于大模型的PDF文档转换实践
7
作者 李兴福 《科学与信息化》 2025年第15期35-38,共4页
PDF(便携式文档格式)是由Adobe公司在1993年推出的文件格式,其可以在任意设备或操作系统上都能保持一致的排版和格式,是在诸多领域广泛使用的标准化文档格式。然而,在众多特定应用场景下,用户对PDF文件的处理往往需要进行格式转换。随... PDF(便携式文档格式)是由Adobe公司在1993年推出的文件格式,其可以在任意设备或操作系统上都能保持一致的排版和格式,是在诸多领域广泛使用的标准化文档格式。然而,在众多特定应用场景下,用户对PDF文件的处理往往需要进行格式转换。随着人工智能技术的发展,利用大模型技术提供的先进文本处理能力,能够探求全新的PDF文档转换解决方案,推动相关技术与工具的发展变革,进而提升PDF转换的准确性与效率。 展开更多
关键词 大模型 PDF文档转换 OCR MinerU
在线阅读 下载PDF
INFORMATION RETRIEVAL FOR SHORT DOCUMENTS 被引量:2
8
作者 Qi Haoliang Li Mu +1 位作者 Gao Jianfeng Li Sheng 《Journal of Electronics(China)》 2006年第6期933-936,共4页
The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is av... The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is available, the word-use variability problem will have substantial impact on the Information Retrieval (IR) performance. To solve the problem, a new technology to short document retrieval named Reference Document Model (RDM) is put forward in this letter. RDM gets the statistical semantic of the query/document by pseudo feedback both for the query and document from reference documents. The contributions of this model are three-fold: (1) Pseudo feedback both for the query and the document; (2) Building the query model and the document model from reference documents; (3) Flexible indexing units, which can be ally linguistic elements such as documents, paragraphs, sentences, n-grams, term or character. For short document retrieval, RDM achieves significant improvements over the classical probabilistic models on the task of ad hoc retrieval on Text REtrieval Conference (TREC) test sets. Results also show that the shorter the document, the better the RDM performance. 展开更多
关键词 Information retrieval Short documents Reference document model (RDM)
在线阅读 下载PDF
基于滑动窗口策略的大语言模型检索增强生成系统 被引量:1
9
作者 毕枫林 张豈明 +5 位作者 张嘉睿 王衍童 陈阳 张琰彬 王伟 周烜 《计算机研究与发展》 北大核心 2025年第7期1597-1610,共14页
提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出... 提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出3种具体的滑动窗口策略以有效处理和分割文本,包括:固定窗口大小和固定步长分割(fixed window size and fixed step length split,FFS)、动态窗口大小和固定步长分割(dynamic window size and fixed step length split,DFS)以及动态窗口大小和动态步长分割(dynamic window size and dynamic step length split,DDS).此外,研究还探讨了使用多查询技术进一步提高检索的准确性和相关性.实验评估使用LLaMA-3模型在多个数据集上进行,结果表明系统在窗口大小为1024和步长为3的配置下达到最佳性能,该配置显著提高了F1得分,体现了在文档段长度和滑动窗口步长之间保持平衡的重要性.滑动窗口策略有效保留了上下文信息,减少了信息丢失,并展示了在不同数据集和查询类型中的适应性. 展开更多
关键词 检索增强生成 滑动窗口机制 大语言模型 信息检索 文档问答
在线阅读 下载PDF
基于大模型指令微调的公文生成方法
10
作者 梁瑞威 蔡子杰 +3 位作者 方荟 龙云飞 孔祥增 徐戈 《中文信息学报》 北大核心 2025年第5期164-176,共13页
公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。... 公文在政府和企业机构中扮演着重要角色,其撰写严格遵循特定的格式和规范,且内容必须准确、清晰、逻辑严谨。然而,传统的公文撰写过程耗时烦琐,需要经验丰富的写作人员才能胜任。目前,公文写作数据集稀缺,且尚无大模型公文生成的研究。因此,该文介绍了一种基于大模型的指令微调方法,旨在提高公文写作质量和效率。具体来说,我们基于少量真实公文样本,结合公文专家的指导,设计了提示模板,引导ChatGPT生成了625对样本实例,并将这些实例构建成面向公文写作任务的指令数据集,解决了当前公文领域缺乏写作任务指令数据集的问题。随后,我们使用这一指令数据集对大模型进行了参数高效微调,并为公文写作评测设计了评估标准。实验结果表明,对四个基座模型进行微调,性能得到显著提升,在百分制人工评估标准下,基座模型Qwen-1.8B-Chat经LoRA微调后平均得分从74.32分提升到84.64分,证明了大模型经过领域数据集指令微调后能有效提高公文写作质量。 展开更多
关键词 公文写作 大模型 指令微调 写作评测
在线阅读 下载PDF
视觉富文档理解预训练综述 被引量:2
11
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 预训练模型 自然语言处理 计算机视觉 深度学习
在线阅读 下载PDF
基于审判逻辑的裁判文书生成方法
12
作者 廖进超 杨卫哲 +3 位作者 秦永彬 黄瑞章 陈艳平 周裕林 《计算机科学》 北大核心 2025年第11期223-229,共7页
裁判文书自动生成是智慧法院建设中的关键任务之一,旨在提高司法效率与文书质量。由于大模型在司法审判认知上存在盲区,难以理解审理机制和文书规范,导致生成文书在逻辑一致性和结构合理性上存在不足。针对以上问题,提出了一种基于审判... 裁判文书自动生成是智慧法院建设中的关键任务之一,旨在提高司法效率与文书质量。由于大模型在司法审判认知上存在盲区,难以理解审理机制和文书规范,导致生成文书在逻辑一致性和结构合理性上存在不足。针对以上问题,提出了一种基于审判逻辑的裁判文书生成方法,利用大语言模型模拟审判推理过程,分阶段生成裁判文书。首先,使用法律要素填充预设模板以描述“基本案情”;其次,对事实与证据进行分析对齐得到“审理事实”;最后,结合知识库检索相关法条生成“法院判决”,并进行拼接生成完整的文书。实验结果表明,相较于基线模型,所提方法在真实案件卷宗数据上的F1值,在ROUGE-1,ROUGE-2和ROUGE-L方面分别提升了6.03,6.56和7.98个百分点,验证了所提方法的有效性。 展开更多
关键词 大语言模型 裁判文书生成 知识库 审判逻辑 智慧法院
在线阅读 下载PDF
融合大语言模型与向量知识库的应用文生成框架
13
作者 秦斌 陆平 +5 位作者 徐琰 邓芳伟 王旖洋 曾渭钰 李欣莹 李灿亮 《深圳大学学报(理工版)》 北大核心 2025年第5期597-605,I0005,共10页
为提高应用文编写效率,提出一种融合大语言模型(large language model,LLM)与向量知识库(vector knowledge base)的应用文自动生成框架.根据目标应用场景,以人工编写的标准应用文为范本,构建结构化辅助生成文件,并建立相应类型应用文的... 为提高应用文编写效率,提出一种融合大语言模型(large language model,LLM)与向量知识库(vector knowledge base)的应用文自动生成框架.根据目标应用场景,以人工编写的标准应用文为范本,构建结构化辅助生成文件,并建立相应类型应用文的向量知识库.利用目标类型应用文的章节标题和用户输入的关键信息在知识库中进行检索,匹配相关文段;设置提示词引导LLM,以召回的参考文段及用户输入的提示信息为参考,使用末级标题作为分割标志,分章节生成应用文文本;最终按规定格式整合全文并输出完整的目标应用文.以应急预案为例,在同一评价标准下使用ChatGPT-4Turbo进行评测,自动生成的应急预案高度趋近于人工编写的质量,二者的文档质量相似度达95.87%.所提方法能够在算力资源有限的情况下突破字数限制,生成符合基本标准的长篇幅应用文,可供人工参考或直接使用,极大提高了编写人员的工作效率. 展开更多
关键词 人工智能 应用文生成 大语言模型 向量知识库 提示词工程 模型评测 ChatGPT-4Turbo DeepSeek-R1
在线阅读 下载PDF
大语言模型文档图像智能问答指令设计与微调方法实证研究 被引量:2
14
作者 王文瑾 李昀昊 张寅 《数字图书馆论坛》 2025年第1期11-21,32,共12页
文档图像智能问答是实现数字图书馆智能化的关键技术之一。基于多模态预训练模型的文档图像智能问答技术能有效实现文本、视觉和布局信息的融合,但通常需要进行针对性的微调训练,成本高且无法应用于一些数据资源稀缺的场景。以ChatGPT... 文档图像智能问答是实现数字图书馆智能化的关键技术之一。基于多模态预训练模型的文档图像智能问答技术能有效实现文本、视觉和布局信息的融合,但通常需要进行针对性的微调训练,成本高且无法应用于一些数据资源稀缺的场景。以ChatGPT为代表的大语言模型具有良好的零样本学习能力,无需针对性微调即可在各个下游任务上取得良好表现,但大语言模型只能处理纯文本指令,无法直接处理文档图像。因此,提出利用空格符和换行符来模拟表示文档图像中文本间的相对位置关系,生成布局感知文本,并针对不同任务构造不同的指令模板,以文本指令形式指导大语言模型生成符合任务要求的答案。实验证明这种布局与任务感知的指令设计与微调方法显著提升了多种大语言模型的零样本文档图像智能问答表现,其最佳组合在DocVQA、InfographicVQA和MP-DocVQA 3个文档图像问答评测集上的零样本平均规范化莱文斯坦相似度分别为0.8651、0.5451和0.6129,达到甚至超过布局感知预训练模型的全量微调表现水平。所提方法还应用在大学数字图书馆国际合作计划(CADAL)民国报刊扫描文档智能问答场景中,提高读者在扫描文档中定位所需答案的效率。 展开更多
关键词 文档图像 智能问答 大语言模型 提示学习 指令微调
在线阅读 下载PDF
数据增强与规则引导的大语言模型电网法律答辩文书生成
15
作者 黄成燕 查小云 +1 位作者 丁群晏 胡伟 《国防科技大学学报》 北大核心 2025年第4期180-188,共9页
为提升大语言模型在少样本环境下生成电网法律文书的能力,结合数据增强与规则引导技术,提出一种基于大语言模型的少样本法律文书生成方法,解决了电网企业法律文书生成中样本稀缺、专业性强、实践经验复杂等问题。实验结果表明,该方法在... 为提升大语言模型在少样本环境下生成电网法律文书的能力,结合数据增强与规则引导技术,提出一种基于大语言模型的少样本法律文书生成方法,解决了电网企业法律文书生成中样本稀缺、专业性强、实践经验复杂等问题。实验结果表明,该方法在电网法律答辩文书生成任务中取得了优异效果,有效提升了模型生成文本的质量与专业性。 展开更多
关键词 法律答辩文书生成 少样本 大语言模型 规则引导 数据增强
在线阅读 下载PDF
结合大语言模型与动态提示的裁判文书摘要方法
16
作者 张滨滨 秦永彬 +1 位作者 黄瑞章 陈艳平 《计算机应用》 北大核心 2025年第9期2783-2789,共7页
针对裁判文书案件结构复杂、涉案事实冗余且案情分布广泛的问题,现有的大语言模型(LLM)难以有效关注结构信息并可能会产生事实错误关联,从而导致结构信息缺失和事实不一致。因此,提出一种结合LLM与动态提示的裁判文书摘要方法DPCM(Dynam... 针对裁判文书案件结构复杂、涉案事实冗余且案情分布广泛的问题,现有的大语言模型(LLM)难以有效关注结构信息并可能会产生事实错误关联,从而导致结构信息缺失和事实不一致。因此,提出一种结合LLM与动态提示的裁判文书摘要方法DPCM(Dynamic Prompt Correction Method)。首先,利用LLM进行单样本学习,以生成裁判文书摘要。其次,计算原文与摘要之间的高维相似性,以检测摘要中可能存在的结构缺失或事实不一致的问题:如果发现问题,将错误摘要与原文拼接,并加入提示词,随后再次进行单样本学习,以修正并生成新的摘要,且再次进行相似性检测,如果问题仍然存在,则重复此生成与检测过程。最后,通过这种反复迭代的方式动态调整提示词,以逐步优化生成的摘要。在CAIL2020公共司法摘要数据集上的实验结果表明,相较于Least-To-Most-Prompting、Zero-Shot-Reasoners和Self_Consistency_Cot等方法,所提方法在Rouge-1、Rouge-2、Rouge-L、BERTscore、FactCC(Factual Consistency)指标上均有所提高。 展开更多
关键词 大语言模型 动态提示 裁判文书摘要 结构缺失 事实不一致
在线阅读 下载PDF
基于版权认证的文本匹配模型研究
17
作者 刘晓飞 莫秀良 《天津理工大学学报》 2025年第1期90-96,共7页
面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发... 面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发展,解决文本匹配任务的方法也得到了很好的发展。在已有的基于核的文档排序神经模型(a kernel based neural model for document ranking, KNRM)上进一步地研究和创新,提出融合KNRM和轻量级梯度提升机(light gradient boosting machine, LightGBM)算法的文本匹配模型,在交互矩阵转化的直方图上采用kernel-pooling的方式来提取相关局部特征信息,引入K个不同大小的核函数,来捕捉不同细粒度的相关匹配信号,获取高斯核特征,将LightGBM算法作为分类器,进行分类处理工作,预测最后的匹配结果。通过多个数据集验证模型效果,实验表明,融合模型KNRM-LightGBM在准确率方面优于原模型KNRM,能够达到更好的文本匹配效果。 展开更多
关键词 文本匹配 基于核的文档排序神经模型 轻量级梯度提升机 数字版权
在线阅读 下载PDF
大模型赋能的文档知识抽取与信息系统架构设计
18
作者 陈思 姜励锋 刘潇 《软件》 2025年第8期71-73,共3页
随着大数据时代的到来,大模型在文档知识抽取领域的应用越来越广泛,本文对此进行了深入研究。首先概述了大模型技术在处理大规模文本数据方面的优势,探讨了利用该技术实现文档知识抽取的具体方法,分析了其在理解和处理文档内容方面的效... 随着大数据时代的到来,大模型在文档知识抽取领域的应用越来越广泛,本文对此进行了深入研究。首先概述了大模型技术在处理大规模文本数据方面的优势,探讨了利用该技术实现文档知识抽取的具体方法,分析了其在理解和处理文档内容方面的效率与准确性。其次,提出了一套信息系统架构设计方案,旨在整合文档知识抽取结果,优化数据流和信息管理。通过实证分析,该架构在提高信息系统运行效率和支持决策过程中展现出显著成效。最后,总结了研究成果,指出了大模型赋能的文档知识抽取和信息系统优化的前后焦点。 展开更多
关键词 大模型技术 文档知识抽取 信息系统架构 数据处理 系统设计 效率优化
在线阅读 下载PDF
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
19
作者 马永强 刘家伟 高影繁 《情报学报》 北大核心 2025年第7期830-845,共16页
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证... 在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证性不足。当前,借助领域数据集来优化大模型是主流的研究思路。然而,在优化模型可溯源性方面,基于人类撰写的学术文本所构建的训练集存在内在一致性不足、引文标注行为差异性大等问题,基于大模型的数据合成方法在数据多样性方面也存在局限性。为此,本文提出了一种面向可溯源学术文本的引文标识符体系与评测方法,用于分析大模型所生成学术文本的可溯源性。然后,从训练数据的角度,针对可溯源的学术文本生成,本文提出了一种两阶段伪反馈训练数据合成方法,兼顾大模型标注文本和人类标注文本的特性,构建高质量、多样化的训练数据。研究结果表明,采用本文构建的合成数据训练的小模型,能够生成更具可溯源性的学术文本;通过第二阶段的伪反馈进一步优化数据分布和任务多样性,有助于增强模型的泛化能力。 展开更多
关键词 大语言模型 数据合成 学术多文档摘要 文本可溯源性
在线阅读 下载PDF
基于大模型的外文文献智能检索 被引量:2
20
作者 张保军 《软件》 2025年第2期171-177,共7页
传统科技文献检索通常要求用户输入带有逻辑运算符的复杂检索条件,系统转换成ElasticsearchDSL检索式,根据检索式检索并展示结果。外文科技文献的检索情况更为复杂,现代专业领域的外文词汇不断涌现,这些专业词汇往往拼写复杂,且缺乏成... 传统科技文献检索通常要求用户输入带有逻辑运算符的复杂检索条件,系统转换成ElasticsearchDSL检索式,根据检索式检索并展示结果。外文科技文献的检索情况更为复杂,现代专业领域的外文词汇不断涌现,这些专业词汇往往拼写复杂,且缺乏成熟的中文翻译。尤其是小语种文献,阅读理解和检索难度更高。为此,本文运用人工智能大模型技术,实现智能化、多语种的文献检索,旨在帮助专业人员快速、有效地检索外文文献,省去输入复杂检索式的步骤。研究数据源自国外出版商的开放获取(OA)文献,并可扩展到专利、非OA文献及中文文献领域。整个系统基于大规模微服务的容器化云原生架构和分布式云数据库集群,最终以SaaS形式部署在私有云平台上,为用户提供便捷的访问体验。 展开更多
关键词 科技文献检索 大模型 人工智能 智能文献检索 云原生 云计算
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部