期刊文献+
共找到83篇文章
< 1 2 5 >
每页显示 20 50 100
Extracting Variable-Depth Logical Document Hierarchy from Long Documents:Method,Evaluation,and Application 被引量:1
1
作者 Rong-Yu Cao Yi-Xuan Cao +1 位作者 Gan-Bin Zhou Ping Luo 《Journal of Computer Science & Technology》 SCIE EI CSCD 2022年第3期699-718,共20页
In this paper,we study the problem of extracting variable-depth"logical document hierarchy"from long documents,namely organizing the recognized"physical document objects"into hierarchical structure... In this paper,we study the problem of extracting variable-depth"logical document hierarchy"from long documents,namely organizing the recognized"physical document objects"into hierarchical structures.The discovery of logical document hierarchy is the vital step to support many downstream applications(e.g.,passage-based retrieval and high-quality information extraction).However,long documents,containing hundreds or even thousands of pages and a variable-depth hierarchy,challenge the existing methods.To address these challenges,we develop a framework,namely Hierarchy Extraction from Long Document(HELD),where we"sequentially"insert each physical object at the proper position on the current tree.Determining whether each possible position is proper or not can be formulated as a binary classification problem.To further improve its effectiveness and efficiency,we study the design variants in HELD,including traversal orders of the insertion positions,heading extraction explicitly or implicitly,tolerance to insertion errors in predecessor steps,and so on.As for evaluations,we find that previous studies ignore the error that the depth of a node is correct while its path to the root is wrong.Since such mistakes may worsen the downstream applications seriously,a new measure is developed for a more careful evaluation.The empirical experiments based on thousands of long documents from Chinese financial market,English financial market and English scientific publication show that the HELD model with the"root-to-leaf"traversal order and explicit heading extraction is the best choice to achieve the tradeoff between effectiveness and efficiency with the accuracy of 0.972,6,0.729,1 and 0.957,8 in the Chinese financial,English financial and arXiv datasets,respectively.Finally,we show that the logical document hierarchy can be employed to significantly improve the performance of the downstream passage retrieval task.In summary,we conduct a systematic study on this task in terms of methods,evaluations,and applications. 展开更多
关键词 logical document hierarchy long documents passage retrieval
原文传递
大语言模型的长文档处理能力实证研究
2
作者 王树义 刘峻臣 +2 位作者 李俊洁 肖骁 翟羽佳 《图书馆论坛》 北大核心 2026年第3期112-123,共12页
大语言模型(LLMs)的长文档处理能力是其在知识密集型领域应用的关键,然而对其性能与核心瓶颈的系统性实证评估尚显不足。为此,文章构建一个多层次、跨类型的评测框架,对五款主流模型在通俗读物与学术文献两类语料上的表现进行评估;通过... 大语言模型(LLMs)的长文档处理能力是其在知识密集型领域应用的关键,然而对其性能与核心瓶颈的系统性实证评估尚显不足。为此,文章构建一个多层次、跨类型的评测框架,对五款主流模型在通俗读物与学术文献两类语料上的表现进行评估;通过段落级、章节级和全文级三个递进式难度任务,从内容提取精确性、信息覆盖完整性、引用来源存在性、引用来源正确性及引文定位精度五个维度进行测试。研究发现,当前LLMs在长文档处理中存在显著的能力不对称性:多数模型虽能精准提取局部信息,但在须整合全文信息的任务中综合性能急剧下降,其中Gemini2.5 Pro与Claude 3.7 Sonnet表现出更优的综合性能与鲁棒性;文本的规范化结构有助于提升模型局部信息处理的稳定性,但会显著影响模型引文溯源能力,且对改善其全局整合能力的作用有限。 展开更多
关键词 大语言模型 长文档处理 信息提取 实证研究
在线阅读 下载PDF
基于路径推理图的文档级关系抽取模型研究
3
作者 刘军平 何玉茹 +2 位作者 彭涛 胡新荣 朱强 《软件导刊》 2026年第1期26-31,共6页
关系抽取(RE)最近已经从句子级转移到文档级,这需要聚合文档信息,并使用实体和提及加以推理。现有研究忽略了围绕目标实体对的局部上下文信息,且只关注实体级的推理路径,没有考虑文档中跨多个句子的长距离实体之间的复杂交互。为此,提... 关系抽取(RE)最近已经从句子级转移到文档级,这需要聚合文档信息,并使用实体和提及加以推理。现有研究忽略了围绕目标实体对的局部上下文信息,且只关注实体级的推理路径,没有考虑文档中跨多个句子的长距离实体之间的复杂交互。为此,提出了一种新的具有信息聚合和长距离跨句推理的文档级关系抽取模型。首先,构造了一个文档图,对文档中的全局信息进行建模;其次,加入了一个新的节点,以聚合目标实体对的局部上下文信息;再次,将目标实体对之间的各种路径集成到一个更简单的推理图结构中以推理长距离跨句实体对的关系,并进行关系推理。在DocRED、CDR和GDA 3个公共数据集上的实验结果表明,路径推理模型在F1上均优于对比模型,验证了该模型的有效性。 展开更多
关键词 文档级关系抽取 路径推理 长距离依赖 文档图 路径推理图
在线阅读 下载PDF
面向长文档检索增强生成的基准数据集
4
作者 刘宜欣 刘祥根 +3 位作者 刘文 邓洪波 张子野 穆骅 《计算机应用》 北大核心 2026年第2期386-394,共9页
随着预训练语言模型(PLM)的发展,检索增强生成(RAG)作为一个新兴任务受到广泛关注。全面客观地评价RAG可以揭示现有方法的局限并指明研究方向,然而,现有的研究针对RAG的系统性评估基准不足,尤其是在长文档场景中。针对这一问题,提出一... 随着预训练语言模型(PLM)的发展,检索增强生成(RAG)作为一个新兴任务受到广泛关注。全面客观地评价RAG可以揭示现有方法的局限并指明研究方向,然而,现有的研究针对RAG的系统性评估基准不足,尤其是在长文档场景中。针对这一问题,提出一种基于焦点片段的自动问答构建策略,旨在高效而准确地构建大规模问答数据集。基于该策略,构建首个专门针对长文档的双语RAG评估基准数据集LoRAG,涵盖法律、金融和文学等多领域的英汉双语文档,英文文档平均长度达5.7万词元,中文文档平均长度为7.6万词元。通过LoRAG数据集,对RAG的检索与生成这两个关键阶段进行系统性实验。在检索阶段,评估text-embedding-ada-002、bge-large系列、bge-m3和Multilingual-E5-large-instruct等多种主流嵌入模型,并引入bge-reranker-v2-m3重排序模型进行性能优化与对比;在生成阶段,全面测试Vicuna-13B、ChatGLM2-6B、Llama2-7B和Claude2等代表性大语言模型(LLM)。实验结果表明,所构建数据集LoRAG有效揭示了当前嵌入方法在长文档检索中的定位难题,以及LLM在生成过程中权衡相关性与精炼性之间的局限性,这些为后续方法的改进提供了清晰的研究方向。 展开更多
关键词 检索增强生成 大型语言模型 长文档处理 基准数据集 自动问答构建
在线阅读 下载PDF
一份凝心聚力影响深远的长征文献——《告全体红色指战员书》研究
5
作者 杨亚光 柯晓兰 代月 《长征学刊》 2025年第4期28-39,106,共13页
《告全体红色指战员书》在四渡赤水期间因势因时因地发布,讲清楚了红军指战员关心的热点、焦点问题,为中央红军夺取四渡赤水战役乃至取得长征的伟大胜利提供了有力的思想武器。《告全体红色指战员书》内容丰富、通俗易懂,既鲜明体现了... 《告全体红色指战员书》在四渡赤水期间因势因时因地发布,讲清楚了红军指战员关心的热点、焦点问题,为中央红军夺取四渡赤水战役乃至取得长征的伟大胜利提供了有力的思想武器。《告全体红色指战员书》内容丰富、通俗易懂,既鲜明体现了人民战争性质和运动战思想,也为促进党的团结打下了坚实的思想基础,是一份凝心聚力、影响深远的重要文献。 展开更多
关键词 红军长征 长征文献 四渡赤水战役
在线阅读 下载PDF
基于多视角注意力的篇章神经机器翻译
6
作者 贾爱鑫 李军辉 《中文信息学报》 北大核心 2025年第9期43-52,共10页
序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果。但直接将Transformer应用于长文本(如篇章)的翻译,却很难达到较好的效果。该文首先分析了Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后合理... 序列到序列模型Transformer在句子级神经机器翻译任务上已取得了瞩目的效果。但直接将Transformer应用于长文本(如篇章)的翻译,却很难达到较好的效果。该文首先分析了Transformer模型在长文本(篇章)上翻译性能欠佳的主要原因,然后合理地提出了多视角注意力机制。具体地,该文改进传统的多头注意力机制,使得多头注意力机制可以主动地关注序列内的不同内容,让一部分注意力头关注当前句,另一部分注意力头关注上下文等。在中英和英德篇章数据集上的实验结果表明,该文方法简单有效,在不增加任何参数的情况下,能够有效提升篇章神经机器翻译性能。 展开更多
关键词 神经机器翻译 篇章神经机器翻译 长序列翻译 多视角注意力机制
在线阅读 下载PDF
长输管道竣工资料电子化组卷与环保效益分析
7
作者 张神良 《石化技术》 2025年第7期66-68,共3页
在 “双碳” 目标与数字化转型双重驱动下,长输管道竣工资料电子化组卷作为绿色基建的重要环节,其环保价值与管理效益日益凸显。本文基于长输管道工程特性,构建 “分类标准化—流程数字化—应用智能化” 的电子化组卷体系,通过生命周期... 在 “双碳” 目标与数字化转型双重驱动下,长输管道竣工资料电子化组卷作为绿色基建的重要环节,其环保价值与管理效益日益凸显。本文基于长输管道工程特性,构建 “分类标准化—流程数字化—应用智能化” 的电子化组卷体系,通过生命周期评估(LCA)方法量化分析其环保效益。研究表明,电子化组卷可使纸质资料消耗量减少 92%,碳排放降低 88%,同时提升资料管理效率 75% 以上。通过典型项目案例验证,该体系为长输管道工程的绿色化、数字化管理提供了可复制的实施路径。 展开更多
关键词 长输管道 竣工资料 电子化组卷 环保效益
在线阅读 下载PDF
长输管道施工全周期竣工资料质量控制与组卷规范化研究
8
作者 陈璋 《石化技术》 2025年第7期96-98,共3页
长输管道作为国家能源输送的生命线工程,其竣工资料质量直接影响管道全生命周期安全运维。本文基于长输管道施工特性,构建 "全周期—多维度—智能化" 的竣工资料质量控制体系,提出专业化组卷规范。通过对 18 个长输管道项目... 长输管道作为国家能源输送的生命线工程,其竣工资料质量直接影响管道全生命周期安全运维。本文基于长输管道施工特性,构建 "全周期—多维度—智能化" 的竣工资料质量控制体系,提出专业化组卷规范。通过对 18 个长输管道项目的实证研究,开发了包含 28 项质量控制点的管理流程与智能组卷系统,使资料合格率从 68% 提升至 97%,组卷效率提高 82%。研究成果为长输管道竣工资料的标准化、智能化管理提供了理论与实践支撑。 展开更多
关键词 长输管道 竣工资料 质量控制 组卷规范
在线阅读 下载PDF
基于BERT与主题模型联合增强的长文档检索模型 被引量:6
9
作者 覃俊 刘璐 +2 位作者 刘晶 叶正 张泽谨 《中南民族大学学报(自然科学版)》 CAS 北大核心 2023年第4期469-476,共8页
尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这... 尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%. 展开更多
关键词 文档检索 预训练模型 长文档 主题模型 信息检索
在线阅读 下载PDF
电子文件长期保存的问题及解决方案 被引量:4
10
作者 吴建西 张绍武 《现代情报》 2003年第6期71-72,74,共3页
本文针对电子文件长期保存面临的问题 ,提出了电子文件长期保存的解决方案。
关键词 电子文件 长期保存 载体 可读性 文件格式 真实性 技术方案 管理方案
在线阅读 下载PDF
针对评论文本的情感分析方法 被引量:11
11
作者 杨玉娟 袁欢欢 王永利 《南京理工大学学报》 EI CAS CSCD 北大核心 2019年第3期280-285,291,共7页
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TF... 为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F1指标等实验衡量指标均优于传统机器学习方法。 展开更多
关键词 评论文本 情感分析 术语频率-逆文档频率 长期短期记忆 注意力
在线阅读 下载PDF
论责任保险中“长尾巴”风险的影响与防范——兼议新《保险法》第八十七条之立法缺陷 被引量:3
12
作者 罗向明 《经济与管理研究》 CSSCI 北大核心 2010年第12期94-99,共6页
"长尾巴"风险普遍存在于责任保险中,对保险公司的偿付能力、承保风险、定价机制、法律责任等多方面产生不利影响。建议修改《保险法》中有关责任保险和保险凭证保管等方面的相关条款,明确"长尾巴"责任问题的处理原... "长尾巴"风险普遍存在于责任保险中,对保险公司的偿付能力、承保风险、定价机制、法律责任等多方面产生不利影响。建议修改《保险法》中有关责任保险和保险凭证保管等方面的相关条款,明确"长尾巴"责任问题的处理原则,以利于保险公司的风险管控和保障被保险人的合法权益。 展开更多
关键词 责任保险 “长尾巴”风险 凭证保管 风险管控
在线阅读 下载PDF
现代远程教育文献信息需求保障探讨 被引量:1
13
作者 田立忠 张爱臣 《图书馆工作与研究》 CSSCI 北大核心 2010年第6期62-63,共2页
在现代远程教育发展过程中,图书馆如何为现代远程教育提供文献信息保障,发挥图书馆在现代远程教育中的作用是当下业界所面临的一个实际问题,本文就此作一探讨。
关键词 现代远程教育 文献信息 需求保障
原文传递
OAIS参考模型在NEDLIB项目中的应用及对我们的启示 被引量:3
14
作者 吴月新 《图书馆学研究》 2007年第1期92-94,91,共4页
本文在简要介绍OAIS参考模型体系框架的基础上,分析了OAIS结构在NEDLIB项目中应用的优缺点,及对我国电子出版物长期保存工作的启示。
关键词 OAIS 电子出版物 长期保存 元数据 NEDLIB
在线阅读 下载PDF
用影像触摸历史本真——文献纪录片《长征纪事》学院派纪录片创作模式探索 被引量:1
15
作者 史哲宇 王廷轩 《河南教育学院学报(哲学社会科学版)》 2017年第1期100-103,共4页
历史文献纪录片《长征纪事》在探求历史真实的实现路径、国际化叙事和客观化视角的影像表述、历史文献资料的深度挖掘以及多种视听符号和视觉系统的设计等方面,为学院派纪录片的创作模式提供了具有可操作性的实践策略。
关键词 纪录片 历史 文献 长征
在线阅读 下载PDF
远程教育课件中“影音同步”的制作方法 被引量:1
16
作者 汤茂斌 刘兆风 张为 《航空计算技术》 2005年第2期80-82,共3页
制作的网络课件为了能达到课堂的教学效果,最基本的一条就是"影音同步"。课件的音视频是"音",知识文稿是"影"。要实现音视频与文稿内容的同步演示,就是课件制作的核心技术。本文主要介绍这种课件的制作... 制作的网络课件为了能达到课堂的教学效果,最基本的一条就是"影音同步"。课件的音视频是"音",知识文稿是"影"。要实现音视频与文稿内容的同步演示,就是课件制作的核心技术。本文主要介绍这种课件的制作方式。 展开更多
关键词 远程教育 课件 影音同步
在线阅读 下载PDF
“长律”、“排律”名称之文献缉考——以唐宋元明时期作为考察范围 被引量:1
17
作者 沈文凡 周非非 《东北师大学报(哲学社会科学版)》 CSSCI 北大核心 2009年第6期169-173,共5页
"长律"的概念内涵不是单一的指称"排律","排律"的概念使用较晚,这是诗体发展的特殊现象。实际上,如果考察从唐至明的文献,就会发现"律诗"的定义唐宋诗话中也很少见。在这种情况下,应该转换视角... "长律"的概念内涵不是单一的指称"排律","排律"的概念使用较晚,这是诗体发展的特殊现象。实际上,如果考察从唐至明的文献,就会发现"律诗"的定义唐宋诗话中也很少见。在这种情况下,应该转换视角,比如注意诗人的分体意识及创作实践,因为诗人在诗歌创作上理解与运用的概念,虽然从例证来看构不成完整的系统轨迹,但把所有诗人使用的相关概念综合链接起来,就可以判断其所指,看出它的内涵及其演变轨迹。"排律"诗体产生于唐代,但"排律"名称却形成于元代,元代杨士弘提出"排律"概念,明代诗人迅速接受,随后排律创作在明代繁盛起来。 展开更多
关键词 唐宋元明 长律 排律 诗题 文献 缉考
在线阅读 下载PDF
基于基序及其时序关系的耦合流数据分类算法 被引量:2
18
作者 张杰 赵峰 《情报学报》 CSSCI 北大核心 2013年第2期190-197,共8页
耦合流数据分类问题是当前数据挖掘与信息领域的热点和难点,引起国内外越来越多学者的关注,但现有研究成果大多依赖于从单个流数据中提取特征并进行分类,没有考虑到流数据内以及流数据间特征的相互依赖关系。基于此,借鉴生物信息学... 耦合流数据分类问题是当前数据挖掘与信息领域的热点和难点,引起国内外越来越多学者的关注,但现有研究成果大多依赖于从单个流数据中提取特征并进行分类,没有考虑到流数据内以及流数据间特征的相互依赖关系。基于此,借鉴生物信息学中基序查找的方法,本文提出了长期频率和逆文档频率的分类方法,该方法主要是将耦合流数据中每个输入流都转化为信号变化特征,以便有效地提取基序,通过计算基序的频率、长期频率与逆文档频率的权重,用以衡量不同输入耦合流数据的基序之间的时序关系,并利用基序与时序的关系实现对耦合流数据的分类,仿真实验的结果也证明了该方法的有效性。 展开更多
关键词 基序 时序 耦合流数据 长期频率和逆文档频率
在线阅读 下载PDF
阴平古道和河南道及其陇地一段的文献文学考察 被引量:2
19
作者 蒲向明 《广西师范学院学报(哲学社会科学版)》 2014年第5期153-156,共4页
阴平古道本自西汉地名,至迟在宋代作为道路名,所涉时限却远及秦代。《三国志》邓艾破蜀的记载使阴平偏道名扬天下,但历史上作为连接南北丝路之一要道者为阴平正道。阴平正道虽路线有异,但走向大体一致,即沿白水江一线自陇达蜀,显示了一... 阴平古道本自西汉地名,至迟在宋代作为道路名,所涉时限却远及秦代。《三国志》邓艾破蜀的记载使阴平偏道名扬天下,但历史上作为连接南北丝路之一要道者为阴平正道。阴平正道虽路线有异,但走向大体一致,即沿白水江一线自陇达蜀,显示了一定的历史复杂性,因而相对应的文学文献遗存呈多样性特点。从文献文学角度考察河南道,它是连通南北丝路的另一要径,虽在唐以后至明清呈渐衰之势,但仍然发挥了重要的历史作用。 展开更多
关键词 阴平古道 河南道 陇蜀 文献和文学
在线阅读 下载PDF
全球视野的终身教育理念——联合国教科文组织教育文献研究之一 被引量:13
20
作者 何齐宗 《江西师范大学学报(哲学社会科学版)》 2008年第1期124-131,共8页
联合国教科文组织自成立以来,出版了大量教育文献,其中,许多文献阐述了终身教育问题,并形成了较为系统的终身教育理念,其内容涉及终身教育的内涵、终身教育的意义、终身教育的目的等。教科文组织教育文献的终身教育理念,对当代世界的教... 联合国教科文组织自成立以来,出版了大量教育文献,其中,许多文献阐述了终身教育问题,并形成了较为系统的终身教育理念,其内容涉及终身教育的内涵、终身教育的意义、终身教育的目的等。教科文组织教育文献的终身教育理念,对当代世界的教育理论和教育实践都产生了重要的影响,对它进行系统的研究,有助于进一步认识终身教育并推动我国终身教育的发展。 展开更多
关键词 联合国教科文组织 教育文献 终身教育理念
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部