期刊文献+
共找到878篇文章
< 1 2 44 >
每页显示 20 50 100
A Stable and Consistent Document Model Suitable for Asynchronous Cooperative Edition
1
作者 Maurice Tchoupé Tchendji Rodrigue D. Djeumen Marcellin T. Atemkeng 《Journal of Computer and Communications》 2017年第8期69-82,共14页
Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely struct... Complex structured documents can be intentionally represented as a tree structure decorated with attributes. Ignoring attributes (these are related to semantic aspects that can be treated separately from purely structural aspects which interest us here), in the context of a cooperative edition, legal structures are characterized by a document model (an abstract grammar) and each intentional representation can be manipulated independently and eventually asynchronously by several co-authors through various editing tools that operate on its “partial replicas”. For unsynchronized edition of a partial replica, considered co-author must have a syntactic document local model that constraints him to ensure minimum consistency of local representation that handles with respect to the global model. This consistency is synonymous with the existence of one or more (global) intentional representations towards the global model, assuming the current local representation as her/their partial replica. The purpose of this paper is to present the grammatical structures which are grammars that permit not only to specify a (global) model for documents published in a cooperative manner, but also to derive automatically via a so call projection operation, consistent (local) models for each co-authors involved in the cooperative edition. We also show some properties that meet these grammatical structures. 展开更多
关键词 STRUCTURED documentS documentS models GRAMMARS Cooperative EDITION STRUCTURED EDITION Projections VIEWS Partial Replicas
在线阅读 下载PDF
Stochastic Model for Multiple Classes and Subclasses Simple Documents Processing 被引量:1
2
作者 Pierre Moukeli Mbindzoukou Arsène Roland Moukoukou Marius Massala 《Intelligent Information Management》 2021年第2期124-140,共17页
The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same ... The issue of document management has been raised for a long time, especially with the appearance of office automation in the 1980s, which led to dematerialization and Electronic Document Management (EDM). In the same period, workflow management has experienced significant development, but has become more focused on the industry. However, it seems to us that document workflows have not had the same interest for the scientific community. But nowadays, the emergence and supremacy of the Internet in electronic exchanges are leading to a massive dematerialization of documents;which requires a conceptual reconsideration of the organizational framework for the processing of said documents in both public and private administrations. This problem seems open to us and deserves the interest of the scientific community. Indeed, EDM has mainly focused on the storage (referencing) and circulation of documents (traceability). It paid little attention to the overall behavior of the system in processing documents. The purpose of our researches is to model document processing systems. In the previous works, we proposed a general model and its specialization in the case of small documents (any document processed by a single person at a time during its processing life cycle), which represent 70% of documents processed by administrations, according to our study. In this contribution, we extend the model for processing small documents to the case where they are managed in a system comprising document classes organized in subclasses;which is the case for most administrations. We have thus observed that this model is a Markovian <i>M<sup>L×K</sup>/M<sup>L×K</sup>/</i>1 queues network. We have analyzed the constraints of this model and deduced certain characteristics and metrics. <span style="white-space:normal;"><i></i></span><i>In fine<span style="white-space:normal;"></span></i>, the ultimate objective of our work is to design a document workflow management system, integrating a component of global behavior prediction. 展开更多
关键词 document Processing WORKFLOW Hierarchic Chart Counting Processes Stochastic models Waiting Lines Markov Processes Priority Queues Multiple Class and Subclass Queues
在线阅读 下载PDF
Storyline Extraction of Document-Level Events Using Large Language Models
3
作者 Ziyang Hu Yaxiong Li 《Journal of Computer and Communications》 2024年第11期162-172,共11页
This article proposes a document-level prompt learning approach using LLMs to extract the timeline-based storyline. Through verification tests on datasets such as ESCv1.2 and Timeline17, the results show that the prom... This article proposes a document-level prompt learning approach using LLMs to extract the timeline-based storyline. Through verification tests on datasets such as ESCv1.2 and Timeline17, the results show that the prompt + one-shot learning proposed in this article works well. Meanwhile, our research findings indicate that although timeline-based storyline extraction has shown promising prospects in the practical applications of LLMs, it is still a complex natural language processing task that requires further research. 展开更多
关键词 document-Level Storyline Extraction TIMELINE Large Language models Topological Structure of Storyline Prompt Learning
在线阅读 下载PDF
大语言模型的长文档处理能力实证研究
4
作者 王树义 刘峻臣 +2 位作者 李俊洁 肖骁 翟羽佳 《图书馆论坛》 北大核心 2026年第3期112-123,共12页
大语言模型(LLMs)的长文档处理能力是其在知识密集型领域应用的关键,然而对其性能与核心瓶颈的系统性实证评估尚显不足。为此,文章构建一个多层次、跨类型的评测框架,对五款主流模型在通俗读物与学术文献两类语料上的表现进行评估;通过... 大语言模型(LLMs)的长文档处理能力是其在知识密集型领域应用的关键,然而对其性能与核心瓶颈的系统性实证评估尚显不足。为此,文章构建一个多层次、跨类型的评测框架,对五款主流模型在通俗读物与学术文献两类语料上的表现进行评估;通过段落级、章节级和全文级三个递进式难度任务,从内容提取精确性、信息覆盖完整性、引用来源存在性、引用来源正确性及引文定位精度五个维度进行测试。研究发现,当前LLMs在长文档处理中存在显著的能力不对称性:多数模型虽能精准提取局部信息,但在须整合全文信息的任务中综合性能急剧下降,其中Gemini2.5 Pro与Claude 3.7 Sonnet表现出更优的综合性能与鲁棒性;文本的规范化结构有助于提升模型局部信息处理的稳定性,但会显著影响模型引文溯源能力,且对改善其全局整合能力的作用有限。 展开更多
关键词 大语言模型 长文档处理 信息提取 实证研究
在线阅读 下载PDF
基于大语言模型的北洋政府文书资源命名实体识别研究
5
作者 邓君 张子姝 +2 位作者 潘禹兵 叶东宇 常严予 《现代情报》 北大核心 2026年第3期44-55,共12页
[目的/意义]针对北洋政府文书资源因语言复杂性、多样性及标注数据缺乏导致的命名实体识别难题,本文提出一种适应低资源场景基于大语言模型的命名实体识别框架,为近代历史文献的结构化挖掘与知识重组提供方法支撑。[方法/过程]该框架融... [目的/意义]针对北洋政府文书资源因语言复杂性、多样性及标注数据缺乏导致的命名实体识别难题,本文提出一种适应低资源场景基于大语言模型的命名实体识别框架,为近代历史文献的结构化挖掘与知识重组提供方法支撑。[方法/过程]该框架融合检索增强生成与高效参数微调,利用Faiss向量检索构建上下文样例动态选取机制,通过LoRA策略对大语言模型进行领域知识注入。最后,在自建语料库上,系统评估深度学习基准模型与不同采样策略下的大语言模型性能。[结果/结论]结果表明,结合相似度样例选择与LoRA微调的Qwen3-4B模型效果最优,总体F1值达0.857,实现对北洋政府文书的精准实体识别,验证了大模型在低资源历史文书处理中的实用性与可扩展性。 展开更多
关键词 北洋政府文书资源 大语言模型 命名实体识别 低资源场景 检索增强生成 LoRA微调
在线阅读 下载PDF
INFORMATION RETRIEVAL FOR SHORT DOCUMENTS 被引量:2
6
作者 Qi Haoliang Li Mu +1 位作者 Gao Jianfeng Li Sheng 《Journal of Electronics(China)》 2006年第6期933-936,共4页
The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is av... The major problem of the most current approaches of information models lies in that individual words provide unreliable evidence about the content of the texts. When the document is short, e.g. only the abstract is available, the word-use variability problem will have substantial impact on the Information Retrieval (IR) performance. To solve the problem, a new technology to short document retrieval named Reference Document Model (RDM) is put forward in this letter. RDM gets the statistical semantic of the query/document by pseudo feedback both for the query and document from reference documents. The contributions of this model are three-fold: (1) Pseudo feedback both for the query and the document; (2) Building the query model and the document model from reference documents; (3) Flexible indexing units, which can be ally linguistic elements such as documents, paragraphs, sentences, n-grams, term or character. For short document retrieval, RDM achieves significant improvements over the classical probabilistic models on the task of ad hoc retrieval on Text REtrieval Conference (TREC) test sets. Results also show that the shorter the document, the better the RDM performance. 展开更多
关键词 Information retrieval Short documents Reference document model (RDM)
在线阅读 下载PDF
高校科研型实验室实验记录管理系统的设计、实现与应用
7
作者 范安然 艾立丽 +2 位作者 刘红梅 周艳华 张鹏 《贵州医科大学学报》 2026年第2期305-312,共8页
目的研究生作为高等院校科研的中坚力量,其科研数据管理规范性与科学性直接关系到科研成果的质量和学术诚信。为应对传统纸质记录存在易丢失、追溯难、共享不便等痛点,本研究立足研究生培养的科研数据管理环节,深入探讨电子实验记录系统... 目的研究生作为高等院校科研的中坚力量,其科研数据管理规范性与科学性直接关系到科研成果的质量和学术诚信。为应对传统纸质记录存在易丢失、追溯难、共享不便等痛点,本研究立足研究生培养的科研数据管理环节,深入探讨电子实验记录系统(e-LDMS)的理论优势,并结合实际需求,基于计算机局域网(LAN)的浏览器/服务器模式(B/S)搭建一套e-LDMS,进一步探究其对研究生科研过程的意义和实践价值。e-LDMS不仅通过LAN物理隔离和B/S模式保障了数据安全和便捷操作,而且能实现从科研数据产生到成果输出全过程的数字化管理模式,e-LDMS还能为研究生学术诚信提升和科研管理数字化改革提供一定的实践参考。 展开更多
关键词 电子实验记录管理系统 研究生 科研诚信 数字化管理模式
在线阅读 下载PDF
面向文档的检索增强生成技术综述
8
作者 黄天金 朱兴动 +2 位作者 刘凯 汪时交 赵鹏 《小型微型计算机系统》 北大核心 2026年第2期282-297,共16页
大语言模型(LLMs)的迅速发展正在全球范围内引发深刻的技术变革.检索增强生成(RAG)作为一种通过融合外部知识以提升模型输出准确性、时效性与可靠性的技术范式,已成为增强LLM应用效能的关键手段.从“文档”的视角,提出“文档全谱系”概... 大语言模型(LLMs)的迅速发展正在全球范围内引发深刻的技术变革.检索增强生成(RAG)作为一种通过融合外部知识以提升模型输出准确性、时效性与可靠性的技术范式,已成为增强LLM应用效能的关键手段.从“文档”的视角,提出“文档全谱系”概念,构建一个包含文档处理、嵌入与索引、检索、生成四大组件的RAG基础框架,并进行形式化描述.围绕“文档特性-优化策略”映射关系,系统梳理各项技术的最新进展,涵盖复杂文档处理、领域适应性嵌入、高级检索策略、可信生成等关键环节.最后,分析当前挑战,并展望未来发展方向.为相关领域的研究者和实践者提供一个以解决真实世界文档问题为导向的系统性参考. 展开更多
关键词 检索增强生成 大语言模型 文档理解 知识检索 模型上下文协议(MCP)
在线阅读 下载PDF
基于大模型文档知识抽取的领域知识图谱增量构建
9
作者 陈俊臻 王淑营 罗浩然 《计算机工程与应用》 北大核心 2026年第5期191-203,共13页
针对工业领域知识图谱构建中面临的标注样本稀缺、文档多源异构、语义结构复杂等挑战,提出一种基于大型预训练语言模型的领域知识图谱增量构建方法LLM-KG。该方法利用GPT-4模型自动生成高质量的标注样本,降低人工标注成本的同时提升训... 针对工业领域知识图谱构建中面临的标注样本稀缺、文档多源异构、语义结构复杂等挑战,提出一种基于大型预训练语言模型的领域知识图谱增量构建方法LLM-KG。该方法利用GPT-4模型自动生成高质量的标注样本,降低人工标注成本的同时提升训练数据的覆盖性与准确性;借助LoRA(low-rank adaptation)技术对轻量级语言模型进行领域微调,实现对领域文档中实体与关系的高精度抽取。为提升新增实体和关系的对齐质量,LLM-KG引入语义块划分机制,并结合向量数据库进行Top-k实体召回,最终由大语言模型对召回结果进行语义一致性判断与筛选,从而实现更加准确的实体融合与关系补全。在公开数据集DDI及风电装备数据集上进行了实验验证,结果表明,LLM-KG在准确率、召回率和F1值上均优于对比方法,展现出良好的领域适应性与增量构建能力。 展开更多
关键词 知识图谱(KG) 大模型微调 文档信息抽取 增量构建
在线阅读 下载PDF
结合关键字提取和图对比学习的文档版面分析
10
作者 马晓松 刘杰 +1 位作者 李晓辉 郭颖 《小型微型计算机系统》 北大核心 2026年第1期150-156,共7页
文档版面分析是信息检索和文档理解领域的重要任务和必要前提.传统的文档版面分析方法往往忽略了文本内容与结构之间的深度关联.本文提出了基于图神经网络结合大语言模型和图对比学习的方法,以提高文档版面分析的精确度.首先,通过大语... 文档版面分析是信息检索和文档理解领域的重要任务和必要前提.传统的文档版面分析方法往往忽略了文本内容与结构之间的深度关联.本文提出了基于图神经网络结合大语言模型和图对比学习的方法,以提高文档版面分析的精确度.首先,通过大语言模型自动提取关键字并融合到图节点中,增强了图神经网络对文档内容与结构的理解.其次,采用图对比学习,通过视图间对比损失优化节点表示,使模型更有效地区分文档布局模式.实验结果表明,在DocLayNet数据集上的测试中,该方法显著提升了文档版面分析的准确率,优于现有的基准方法.本文的方法为文档理解与信息提取领域提供了一种新的技术路径,有望在更多实际应用中得到广泛应用. 展开更多
关键词 图神经网络 大模型 多模态 图对比学习 文档版面分析
在线阅读 下载PDF
融合大语言模型和提示工程的医用电气设备标准文件抽取方法研究
11
作者 朱婉婷 张培茗 +2 位作者 夏文科 李天纯 王丽 《中国食品药品监管》 2026年第2期34-43,共10页
目的:传统的实体关系抽取技术在没有数据集的情况下依赖大量的人工标注,费时费力且难以满足高效处理数据的要求。针对该情况,本文提出运用大语言模型(LLMs)和提示工程技术对医用电气(ME)设备标准文件进行实体和关系的抽取。方法:设计流... 目的:传统的实体关系抽取技术在没有数据集的情况下依赖大量的人工标注,费时费力且难以满足高效处理数据的要求。针对该情况,本文提出运用大语言模型(LLMs)和提示工程技术对医用电气(ME)设备标准文件进行实体和关系的抽取。方法:设计流水线式和端到端式2种提示词模板,同时从修改示例数量的角度测试提示词模板对大模型的抽取效果。结果:端到端式提示词模板的F1分数比流水线式更高,且合适数量的示例可以提高LLMs的抽取准确率。结论:本文提出的ME设备标准文件提示词模板有一定的有效性,可用于完成ME设备标准文件抽取三元组的构建。 展开更多
关键词 大语言模型 标准文件监管 提示工程 知识抽取 医用电气设备
在线阅读 下载PDF
Meta-RAG:基于元数据驱动的电力领域检索增强生成框架
12
作者 王合庆 魏杰 +2 位作者 景红雨 宋晖 徐波 《计算机工程》 北大核心 2026年第2期383-392,共10页
大语言模型(LLM)在对话、推理和知识保留能力方面展现了显著优势,但在处理电力领域知识密集型任务时仍面临事实准确性不足、知识更新难以及高质量领域数据集匮乏的问题。针对这些挑战,引入一种改进的检索增强生成(RAG)策略,该策略融合... 大语言模型(LLM)在对话、推理和知识保留能力方面展现了显著优势,但在处理电力领域知识密集型任务时仍面临事实准确性不足、知识更新难以及高质量领域数据集匮乏的问题。针对这些挑战,引入一种改进的检索增强生成(RAG)策略,该策略融合了混合检索策略和经过微调的生成模型,提供了更高效的知识捕获和更新能力。基于对现有方法的深入分析,针对电力领域的知识问答(QA)任务,提出了元数据驱动的RAG框架Meta-RAG,该框架包含数据准备、模型微调和检索推理3个阶段。数据准备阶段包括文档转换、元信息抽取与增强及文档解析模块,在此阶段,借助元信息的提取与增强确保了电力规范文档的高效索引和结构化处理,并且构建了电力领域的EleQA(Electricity Question Answering)数据集,这是一个包含19 560个问答对的电力规范问答数据集。在模型微调阶段,通过多问题生成、思维链提示生成和监督指令微调数据集构建模块,优化了模型在特定电力问答任务上的推理能力。在检索推理阶段则采用混合编码和重排序策略,结合检索和生成模块,进一步提高了答案的准确性和合理性。通过一系列实验,Meta-RAG的有效性得到验证。与Self-RAG、Corrective-RAG、Adaptive-RAG、RA-ISF等基线模型相比,Meta-RAG具有更高的回答准确率和检索命中率,其中,基于Qwen1.5-14B-Chat模型的Meta-RAG达到了整体准确率0.804 3,高于其他方法。消融实验和文档召回实验结果表明文档检索对框架性能影响最大,失去检索能力整体准确率下降了0.292 8。 展开更多
关键词 EleQA数据集 元信息抽取 知识问答 电力领域 检索增强生成 模型微调 文档转换
在线阅读 下载PDF
基于大语言模型的电力文档智能问答系统构建与应用
13
作者 李润东 《水电与新能源》 2026年第1期62-66,74,共6页
通过融合语义向量检索、多路层次化搜索与检索增强生成技术,构建基于大语言模型的电力文档智能问答系统。系统采用“预处理-向量化-检索-生成”四阶段架构,结合查询改写、二阶段重排及自我反省机制,显著提升问答准确性与专业性。应用表... 通过融合语义向量检索、多路层次化搜索与检索增强生成技术,构建基于大语言模型的电力文档智能问答系统。系统采用“预处理-向量化-检索-生成”四阶段架构,结合查询改写、二阶段重排及自我反省机制,显著提升问答准确性与专业性。应用表明,该系统对电力设备手册、操作规程等文档的检索效率较传统关键词搜索提升82%,回答准确率达92%,为电力企业知识管理智能化提供了可供推广的技术方案。 展开更多
关键词 电力文档 大语言模型 智能问答 检索增强生成
在线阅读 下载PDF
面向工艺规范的文档树结构检索增强生成方法
14
作者 姜禹辰 王裴岩 +1 位作者 余卓 李中武 《计算机集成制造系统》 北大核心 2026年第1期131-144,共14页
现有基于大语言模型的检索增强生成忽视了工艺规范这类技术文档所呈现的复杂段落结构与隐含知识关联,致使效果不佳难以满足应用需求。针对该问题设计了面向工艺规范的文档树结构检索方法(DTSR),利用段落间章节关系将工艺规范文档转化为... 现有基于大语言模型的检索增强生成忽视了工艺规范这类技术文档所呈现的复杂段落结构与隐含知识关联,致使效果不佳难以满足应用需求。针对该问题设计了面向工艺规范的文档树结构检索方法(DTSR),利用段落间章节关系将工艺规范文档转化为树形结构对象,设计了树形结构对象遍历算法在检索增强过程中动态获取相关段落,使得大语言模型获得更多对于问题回答有益的相关知识。在3345条工艺规范问答数据集上进行实验,结果表明,与朴素检索增强生成相比,DTSR在概念准确性上平均提升13.01%,在ROUGE-L和BLEU-4指标上分别提升4.78%和2.91%。为提高大语言模型在工艺规范等工程技术性文档中的应用效果提供了新的思路。 展开更多
关键词 检索增强生成 大语言模型 工艺规范 文档树结构
在线阅读 下载PDF
基于多线程UI-Model的远程实时交互教学系统 被引量:2
15
作者 冯柏力 霍剑青 +1 位作者 杨旭 王晓蒲 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第3期254-258,共5页
针对远程实时交互系统中亟待解决的交互功能扩充与复用及通用文档共享的问题,提出了多线程UI-Model体系结构,利用用户界面委托层,对传统的UI-Model体系结构进行了改进,实现了远程实时交互教学系统中交互功能的扩充与交互模块的复用;应... 针对远程实时交互系统中亟待解决的交互功能扩充与复用及通用文档共享的问题,提出了多线程UI-Model体系结构,利用用户界面委托层,对传统的UI-Model体系结构进行了改进,实现了远程实时交互教学系统中交互功能的扩充与交互模块的复用;应用基于WebBrowser控件实现了通用文档共享模块,并结合GDI+的应用实现了在文档共享中同步绘图交互的功能.利用多线程UI-Model体系结构设计和实现了一种易扩展、可复用的具有文字、视频、电子白板、文档共享等多种实时交互功能的远程实时交互教学系统. 展开更多
关键词 多线程UI-model 文档共享 实时交互
在线阅读 下载PDF
面向长文档检索增强生成的基准数据集
16
作者 刘宜欣 刘祥根 +3 位作者 刘文 邓洪波 张子野 穆骅 《计算机应用》 北大核心 2026年第2期386-394,共9页
随着预训练语言模型(PLM)的发展,检索增强生成(RAG)作为一个新兴任务受到广泛关注。全面客观地评价RAG可以揭示现有方法的局限并指明研究方向,然而,现有的研究针对RAG的系统性评估基准不足,尤其是在长文档场景中。针对这一问题,提出一... 随着预训练语言模型(PLM)的发展,检索增强生成(RAG)作为一个新兴任务受到广泛关注。全面客观地评价RAG可以揭示现有方法的局限并指明研究方向,然而,现有的研究针对RAG的系统性评估基准不足,尤其是在长文档场景中。针对这一问题,提出一种基于焦点片段的自动问答构建策略,旨在高效而准确地构建大规模问答数据集。基于该策略,构建首个专门针对长文档的双语RAG评估基准数据集LoRAG,涵盖法律、金融和文学等多领域的英汉双语文档,英文文档平均长度达5.7万词元,中文文档平均长度为7.6万词元。通过LoRAG数据集,对RAG的检索与生成这两个关键阶段进行系统性实验。在检索阶段,评估text-embedding-ada-002、bge-large系列、bge-m3和Multilingual-E5-large-instruct等多种主流嵌入模型,并引入bge-reranker-v2-m3重排序模型进行性能优化与对比;在生成阶段,全面测试Vicuna-13B、ChatGLM2-6B、Llama2-7B和Claude2等代表性大语言模型(LLM)。实验结果表明,所构建数据集LoRAG有效揭示了当前嵌入方法在长文档检索中的定位难题,以及LLM在生成过程中权衡相关性与精炼性之间的局限性,这些为后续方法的改进提供了清晰的研究方向。 展开更多
关键词 检索增强生成 大型语言模型 长文档处理 基准数据集 自动问答构建
在线阅读 下载PDF
基于多智能体的企业文档智能审查系统的研究
17
作者 吴斌 《现代信息科技》 2026年第3期88-94,101,共8页
在企业运营管理各环节,核心文档审查是重要且频繁的基础任务,但面临效率与质量双重挑战。传统人工审查耗时耗力,还存在漏检率风险高、审查结果一致性难保证等问题。为解决上述问题,该研究构建一套智能审查系统,实现多类型企业文档精准... 在企业运营管理各环节,核心文档审查是重要且频繁的基础任务,但面临效率与质量双重挑战。传统人工审查耗时耗力,还存在漏检率风险高、审查结果一致性难保证等问题。为解决上述问题,该研究构建一套智能审查系统,实现多类型企业文档精准、高效、可靠审查。该系统采用基于多智能体协同的混合架构,集成大语言模型、检索增强生成和规则引擎技术,通过动态任务调度对合同、制度及投标文件进行并行审查,并引入敏感信息脱敏机制确保安全合规。实证显示,系统能高效识别条款冲突、计算错误和实质性偏离等多项风险,提升审查效率、降低漏检率。研究表明,该系统为企业风控管理提供可靠高效的智能化方案,有较强实践价值和广阔推广前景。 展开更多
关键词 人工智能 多智能体 大语言模型 检索增强生成 文档智能审查
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
18
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
基于自然语言处理的职务犯罪法律文书处理与分析研究
19
作者 姜志超 杨炳文 +1 位作者 高谷刚 李林怡 《通信与信息技术》 2026年第1期7-12,30,共7页
近年来,职务犯罪案件频发,现有研究多局限于法律文本和犯罪构成分析,缺乏跨学科视角,难以揭示其特征和发展趋势。目前,专门针对职务犯罪文书处理与分析的类似系统较少,法律领域通用的数据分析系统难以处理此类文书的专业性和特殊性。因... 近年来,职务犯罪案件频发,现有研究多局限于法律文本和犯罪构成分析,缺乏跨学科视角,难以揭示其特征和发展趋势。目前,专门针对职务犯罪文书处理与分析的类似系统较少,法律领域通用的数据分析系统难以处理此类文书的专业性和特殊性。因此,借助大数据、人工智能和自然语言处理技术,分析职务犯罪案例文本,揭示犯罪规律并实现高效预防具有重要意义。本研究提出基于智能数据处理与分析的职务犯罪研究模型与算法,并构建了系统原型。通过定制化爬虫技术高效采集多平台职务犯罪文书数据。在数据预处理阶段,采用jieba分词结合深度学习序列标注技术进行清洗、分词及关键信息提取。基于Word2Vec模型将文本信息转化为数字化表达,并结合K-Means聚类算法与Llama3大语言模型挖掘关键特征,显著提升类案检索精准性。最终通过箱线图、散点图等可视化手段展示犯罪规律。实验结果表明,相较于传统方法,该模型在精确度和召回率方面分别提升了21%和9%,充分验证了Llama3在语义理解和特征提取方面的强大能力。 展开更多
关键词 职务犯罪 法律文书 大数据 自然语言处理 词向量模型 聚类算法
在线阅读 下载PDF
基于预训练语言模型的软件开发文档知识图谱构建方法研究
20
作者 谢运权 朱卫星 李晋 《科技创新与应用》 2026年第5期1-5,共5页
软件开发文档贯穿软件生命周期,其多源异构性、语义断层及跨阶段关联复杂性制约了开发知识的自动化管理。知识图谱通过结构化语义表示(实体-关系-属性三元组),为需求追踪、冲突检测及智能分析提供了可计算框架。近年来,预训练语言模型(P... 软件开发文档贯穿软件生命周期,其多源异构性、语义断层及跨阶段关联复杂性制约了开发知识的自动化管理。知识图谱通过结构化语义表示(实体-关系-属性三元组),为需求追踪、冲突检测及智能分析提供了可计算框架。近年来,预训练语言模型(PLMs)凭借深度上下文语义理解能力,显著提升了从多类型开发文档到知识图谱的自动化构建效能。该文提出一种基于PLMs的全周期开发知识图谱构建方法:首先解析开发文档的语义特性与图谱表示范式;继而设计PLMs在跨文档知识抽取(实体识别、关系抽取、属性抽取)与多源知识融合的技术框架;评估公开数据集、指标体系及典型应用场景(如需求-设计追溯、架构影响分析);最后指出领域适应性、多模态融合、动态演化等核心挑战,并探讨大语言模型(LLMs)与图神经网络(GNNs)协同优化的研究方向。 展开更多
关键词 预训练语言模型 知识图谱 软件开发文档 自然语言处理 信息抽取
在线阅读 下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部