基于大语言模型的法律文本的自动摘要方法被引量：5

Automatic Summarization of Legal Texts Based on Large Language Models

导出

摘要【目的】基于大语言模型技术进行法律文本的自动摘要,解决传统方法长文本处理能力弱、摘要逻辑性不强等问题。【方法】提出一种基于大语言模型微调的法律文本自动摘要方法。首先,构建一套法律文本摘要指令数据集。其次,探索指令增强和结果增强两种数据增强方式。最后,对预训练模型进行领域化微调,并对结果进行多维度评价。【结果】在CAIL2020司法摘要数据集上,本文方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别比最好的基准结果增长13.8、21.3和7.4个百分点。在人工评估和智能评估方面的结果也进一步证明了本文方法在各个维度的有效性。【局限】在处理专业术语密集和逻辑结构复杂的法律文本时,生成的摘要在细节和法律条款的准确性上仍存在不足。【结论】基于大语言模型微调可有效提升法律文本的摘要水平。 [Objective]This study uses large language model technology to automatically summarise legal texts.This addresses issues associated with traditional methods,such as the inadequate handling of lengthy texts and weak logical coherence in summaries.[Methods]This study proposes a method of automatically summarising legal texts based on the fine-tuning of large language models for specific domains.Firstly,a legal text summarisation instruction dataset is constructed.Secondly,two data augmentation strategies are explored:instruction augmentation and result augmentation.Finally,the study will perform domain-specific fine-tuning on a pre-trained model and conduct a multi-dimensional evaluation of the results.[Results]On the CAIL2020 Judicial Summary Dataset,our method achieves improvements of 13.8,21.3,and 7.4 percentage points in the ROUGE-1,ROUGE-2,and ROUGE-L F1 scores,respectively,compared to the best baseline methods.Both human and automated evaluations further validate the effectiveness of our approach across multiple dimensions.[Limitations]When processing legal texts that are dense with technical terms and complex logical structures,the generated summaries still lack detail accuracy and precision with regard to legal provisions.[Conclusions]Fine-tuning large language models for specific domains can effectively improve the quality of legal text summarisation.

作者朱丹浩黄肖宇李堯霖王东波 Zhu Danhao;Huang Xiaoyu;Li Yaolin;Wang Dongbo(Department of Criminal Science and Technology,Jiangsu Police Institute,Nanjing 210031,China;Department of Computer Information and Network Security,Jiangsu Police Institute,Nanjing 210031,China;Department of Information Management and Information Systems,Nanjing University of Science and Technology,Nanjing 210094,China;School of Information Management,Nanjing Agricultural University,Nanjing 210095,China)

机构地区江苏警官学院刑事科学技术系江苏警官学院计算机信息与网络安全系南京理工大学信息管理与信息系统系南京农业大学信息管理学院

出处《数据分析与知识发现》北大核心 2025年第6期35-46,共12页 Data Analysis and Knowledge Discovery

基金国家社会科学基金项目(项目编号:21&ZD331) 江苏高校“青蓝工程”的研究成果之一

关键词法律文本自动摘要技术大语言模型指令数据集领域化微调 Legal Texts Automatic Summarization Techniques Large Language Models Instruction Dataset Domain-Specific Fine-Tuning

分类号 TP391 [自动化与计算机技术—计算机应用技术] G35 [文化科学—情报学]

引文网络
相关文献

参考文献8

1安震威,来雨轩,冯岩松.面向法律文书的自然语言理解[J].中文信息学报,2022,36(8):1-11. 被引量：11
2余帅,宋玉梅,秦永彬,黄瑞章,陈艳平.基于审判逻辑步骤的裁判文书摘要生成方法[J].计算机工程与应用,2024,60(4):113-121. 被引量：5
3张金营,王天堃,么长英,谢华,柴林政,刘书恺,李彤亮,李舟军.基于大语言模型的电力知识库智能问答系统构建与评价[J].计算机科学,2024,51(12):286-292. 被引量：25
4王祥,谭国真.基于知识与大语言模型的高速环境自动驾驶决策研究[J].系统仿真学报,2025,37(5):1246-1255. 被引量：1
5王华树,谢斐.大语言模型技术驱动下翻译教育实践模式创新研究[J].中国翻译,2024,45(2):70-78. 被引量：41
6夏吾吉,黄鹤鸣,更藏措毛,范玉涛.基于无监督学习和监督学习的抽取式文本摘要综述[J].计算机应用,2024,44(4):1035-1048. 被引量：7
7赵嘉昕,崔喆.面向法律判决文书的长文档抽取式文摘方法——BIGDCNN[J].计算机应用,2023,43(S01):67-74. 被引量：2
8魏鑫炀,秦永彬,唐向红,黄瑞章,陈艳平.融合法条的司法裁判文书摘要生成方法[J].计算机工程与设计,2023,44(9):2844-2850. 被引量：4

二级参考文献42

1侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(5):1-16. 被引量：23
2张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报,2019,33(8):67-76. 被引量：15
3李维,闫晓东,解晓庆.基于改进TextRank的藏文抽取式摘要生成[J].中文信息学报,2020,34(9):36-43. 被引量：14
4张全龙,王怀彬.基于膨胀卷积和门控循环单元组合的入侵检测模型[J].计算机应用,2021,41(5):1372-1377. 被引量：12
5王华树.人工智能时代翻译教育技术研究:问题与对策[J].中国翻译,2021,42(3):84-88. 被引量：29
6王义真,欧石燕,陈金菊.民事裁判文书两阶段式自动摘要研究[J].数据分析与知识发现,2021,5(5):104-114. 被引量：6
7周蔚,王兆毓,魏斌.面向法律裁判文书的生成式自动摘要模型[J].计算机科学,2021,48(12):331-336. 被引量：11
8王华树,刘世界.大数据时代翻译数据伦理研究:概念、问题与建议[J].上海翻译,2022(2):12-17. 被引量：45
9王刚,孙媛媛,陈彦光,林鸿飞.面向法律文书的分段式摘要模型[J].计算机工程,2022,48(6):288-294. 被引量：6
10闫晓东,王羿钦,黄硕,杨金朋,赵小兵.藏文文本摘要数据集[J].中国科学数据（中英文网络版）,2022,7(2):39-45. 被引量：7

共引文献85

1王好天,李鑫,关毅,杨洋,李雪,姜京池.基于知识增强的多视野表征学习辅助诊断方法[J].中文信息学报,2023,37(12):167-176.
2申强.基于Prompt和文本嵌入的刑事卷宗特征提取与信访风险评估模型的构建[J].电脑知识与技术,2024,20(13):34-36. 被引量：1
3赵婧文,李秀霞.乡村振兴背景下乡村文化建设主题识别及演化分析[J].村委主任,2024(9):194-196.
4邓矜婷,劳瀚慧.论全案由类案自动识别方法的意义及实现[J].数字法治,2024(2):147-164.
5王世轩.“数助办案”的法理基础:实体法、证据法与信息法的三维透视[J].数字法治,2024(3):54-67.
6席铁钧,段宗涛,曹建荣,杨博,卜娜娜,刘悦霞,肖媛媛.面向长文本涉法舆情信息的混合式摘要方法[J].中文信息学报,2024,38(7):63-72. 被引量：4
7贾星星,陆玉,杨龙飞,多拉,王道顺.T-Transformer-XL和T-XLNet:两个藏语预训练模型[J].西安邮电大学学报,2024,29(4):93-99. 被引量：2
8赵衍,张慧,杨祎辰.大语言模型在文本翻译中的质量比较研究——以《繁花》翻译为例[J].外语电化教学,2024(4):60-66. 被引量：20
9王华树,李丹,梁鑫茹.文化陷阱与突围之路:大语言模型时代翻译教学中的文化霸权抵抗策略研究[J].外语教育研究,2024,12(4):2-10. 被引量：3
10裴炳森,李欣,蒋章涛,刘明帅.基于大语言模型的司法文本摘要生成与评价技术研究[J].数据与计算发展前沿(中英文),2024,6(6):62-73. 被引量：6

同被引文献54

1尤霞光,盛小平.8个国际组织科学数据开放共享政策的比较与特征分析[J].情报理论与实践,2017,40(12):40-45. 被引量：36
2谭必勇,刘芮.我国地方政府开放数据政策研究——以15个副省级城市为例[J].情报理论与实践,2018,41(11):51-56. 被引量：37
3明拓思宇,陈鸿昶.文本摘要研究进展与趋势[J].网络与信息安全学报,2018,4(6):1-10. 被引量：11
4黄先蓉,程梦瑶.我国网络内容政策法规的文本分析[J].图书情报工作,2019,63(21):5-15. 被引量：11
5黄新平,黄萃,苏竣.基于政策工具的我国科技金融发展政策文本量化研究[J].情报杂志,2020,39(1):130-137. 被引量：134
6毛子骏,梅宏.政策工具视角下的国内外人工智能政策比较分析[J].情报杂志,2020,39(4):74-81. 被引量：91
7张涛,马海群,易扬.文本相似度视角下我国大数据政策比较研究[J].图书情报工作,2020,64(12):26-37. 被引量：48
8王刚,孙媛媛,陈彦光,林鸿飞.面向法律文书的分段式摘要模型[J].计算机工程,2022,48(6):288-294. 被引量：6
9任超,杨孟辉,杨冠灿,霍朝光,卢小宾.基于知识图谱的循证政策中科学证据推荐研究——以新冠肺炎疫情防控政策为例[J].图书情报工作,2023,67(2):108-118. 被引量：7
10Liqiang Jing,Yiren Li,Junhao Xu,Yongcan Yu,Pei Shen,Xuemeng Song.Vision Enhanced Generative Pre-trained Language Model for Multimodal Sentence Summarization[J].Machine Intelligence Research,2023,20(2):289-298. 被引量：2

引证文献5

1向博文,柴梦丹,向卓元.嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成研究[J].数据分析与知识发现,2025,9(8):73-85. 被引量：1
2张乐,许央科,陈岩松,张雷瀚.大模型主旨增强的图文多模态句子摘要生成方法[J].数据分析与知识发现,2025,9(9):60-73.
3段永康,赵广宇,耿骞,曹涵维,靳健.基于大语言模型的政策知识库构建与政策比较研究——以惠企政策为例[J].数据分析与知识发现,2025,9(10):68-84.
4王伟正,陈晗睿,丁晓燕,乔鸿.大语言模型生成摘要可靠性评测研究[J].情报杂志,2026,45(1):153-160.
5余航,蒙佳健,余绍德,孙秋瑞.一种基于多样性对比搜索解码的影像报告生成方法[J].现代电子技术,2026,49(3):145-150.

二级引证文献1

1卢小宾,张周文韬,霍朝光.基于大模型的智能信息分析工作模式研究[J].情报学报,2026,45(1):1-18.

1覃娴萍,丁昭旭,仲国强,王栋.基于深度学习的海洋热点新闻挖掘方法[J].计算机科学,2024,51(S02):98-107. 被引量：3
2王强,卢玲,王爱娟.LtoG:局部到全局映射的长文本自动摘要[J].重庆理工大学学报(自然科学),2025,39(7):94-101.
3无.做民营经济高质量发展的助推器——行业协会商会等社会组织热议《中华人民共和国民营经济促进法》施行[J].大社会,2025(5):23-24.
4李虹含,李玄靖.人工智能赋能商业银行公司治理[J].现代商业银行,2025(7):70-73.
5盖泽超,池越,周亚同.基于BERT的语义增强中文文本自动摘要研究[J].中文信息学报,2025,39(5):110-119.
6代萌钰.预防性刑法观视角下低龄未成年人犯罪的刑法规制分析[J].法制博览,2025(20):42-44.
7宋梦鹏,白海燕.基于大语言模型的文献综述智能生成与循证研究[J].数据分析与知识发现,2025,9(6):21-34. 被引量：2
8孙那,周小龙.商业数据的反不正当竞争法保护问题研究[J].西北工业大学学报(社会科学版),2025(3):137-143. 被引量：1
9陈婷,张立昆.我国高校专利申请前评估纵深发展的制约因素及对策研究[J].图书馆学刊,2025,47(6):91-96.
10白楚玄.完善法治保障体系助力大学生实习实践回归能力培养本质[J].中国高等教育,2025(13):79-80.

数据分析与知识发现

2025年第6期

浏览历史

内容加载中请稍等...

基于大语言模型的法律文本的自动摘要方法被引量：5

参考文献8

二级参考文献42

共引文献85

同被引文献54

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型的法律文本的自动摘要方法 被引量：5

参考文献8

二级参考文献42

共引文献85

同被引文献54

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型的法律文本的自动摘要方法被引量：5