期刊文献+
共找到378篇文章
< 1 2 19 >
每页显示 20 50 100
大模型在NLP基准测试中的方法与挑战
1
作者 吴迪 《黎明职业大学学报》 2025年第2期85-92,共8页
为有效评估大规模预训练模型(如GPT,BERT,T5等)的性能,基准测试作为一种标准化的评估方法,变得愈发重要。首先,文中论述当前大模型(LLMs)在NLP(自然语言处理)基准测试的主要方法和数据集,分析诸如在知识类问答、代码生成、数学和中文能... 为有效评估大规模预训练模型(如GPT,BERT,T5等)的性能,基准测试作为一种标准化的评估方法,变得愈发重要。首先,文中论述当前大模型(LLMs)在NLP(自然语言处理)基准测试的主要方法和数据集,分析诸如在知识类问答、代码生成、数学和中文能力等不同任务中使用的基准测试框架。然后,探讨现有基准测试的优缺点,阐述其在模型比较、性能评估和研究在推动方面的作用及不足;同时,还讨论中文基准测试面临的挑战(如中文语言特性、中文数据集、传统评估指标和可解释性不足等)。最后,提出基准测试未来的发展方向,包括引入更具挑战性的任务、增强定性评估方法及促进多模态跨领域的基准测试(如ARC-AGI任务),以期推动NLP大模型的持续进步和更具智能化。 展开更多
关键词 自然语言处理(nlp) 大模型(LLMs) 基准测试 大规模预训练模型
在线阅读 下载PDF
基于自然语言处理(NLP)的生态环境准入清单政策内容分析 被引量:3
2
作者 魏泽洋 汪自书 +3 位作者 宫曼莉 谢丹 杨洋 刘毅 《环境工程技术学报》 北大核心 2025年第1期1-10,共10页
生态环境准入清单是生态环境分区管控制度的核心抓手,通过空间布局约束、污染排放管控、环境风险防控和资源能源利用效率控制等维度实现生态环境源头预防。生态环境准入清单存在政策文本庞大、管控措施多样、表达构成复杂特点,识别准入... 生态环境准入清单是生态环境分区管控制度的核心抓手,通过空间布局约束、污染排放管控、环境风险防控和资源能源利用效率控制等维度实现生态环境源头预防。生态环境准入清单存在政策文本庞大、管控措施多样、表达构成复杂特点,识别准入清单管控的对象、方式与力度是支撑生态环境分区管控政策实施的重要基础。本研究基于自然语言机器无监督学习技术对生态环境准入清单进行政策词汇模式挖掘并对政策文本设定多维定量化标签,应用自然语言深度学习模型对生态环境准入清单管控措施进行文本分类评估。河北省是我国产业门类最齐全、资源环境问题最复杂的省份之一,其生态环境准入管控具有典型性和代表性。以河北省生态环境准入清单的产业管控措施为例,识别了10类政策关键词特征、64项主要政策关键词,对全清单中对应关键词所在的语句覆盖率达95%;构造了24个管控措施-行业的分类标签,应用并比较了BERT、RoBERTa和ALBERT深度学习模型对政策文本的分类识别效果,预测精度、召回率和F1得分最高分别可达到0.95、0.79和0.86,训练模型可较好地识别准入清单政策内容。结果显示河北省准入清单在管控措施明确化、具体化、定量化方面仍存在不足,产业精细化管控、考核指标型以及时限型内容有待补充和细化。本研究提出的方法具有较好的适用前景,建议在此基础上结合前沿人工智能方法,进一步提高模型自动处理效率、动态分析以及提供精细化政策调整建议的能力。 展开更多
关键词 生态环境分区管控 生态环境准入清单 政策文本 自然语言处理(nlp)
在线阅读 下载PDF
基于NLP和SEM的博物馆导视系统设计优化策略研究
3
作者 王朝伟 郑刚强 +1 位作者 孙嘉伟 王征 《包装工程》 北大核心 2025年第16期472-483,共12页
目的基于自然语言处理(NLP)和结构方程模型(SEM)构建博物馆导视系统的设计优化路径,系统揭示关键设计因子对游客满意度的影响机制并提出具备普适适用性的优化策略,以提升导视系统的整体质量与用户体验。方法采用文本挖掘技术从多个旅游... 目的基于自然语言处理(NLP)和结构方程模型(SEM)构建博物馆导视系统的设计优化路径,系统揭示关键设计因子对游客满意度的影响机制并提出具备普适适用性的优化策略,以提升导视系统的整体质量与用户体验。方法采用文本挖掘技术从多个旅游平台获取用户评论,结合NLP词频分析与共现矩阵构建提取游客关注焦点。在用户体验理论与信息设计原则指导下,辅以定性访谈明确核心设计范畴,进一步转化为测量指标。通过探索性因子分析与主成分分析提取潜在变量,构建并验证结构方程模型,分析关键因子对满意度的路径影响关系。结果模型拟合度良好,验证了文化功能、信息传递、视觉设计、交互性与可用性五个外生变量对满意度的显著正向影响,而信息传递为最关键因子。基于路径系数结果,提出涵盖五大设计维度的系统性优化路径,明确了导视系统设计的优先介入顺序与策略方向。结论在实证基础上提出面向满意度提升的导视系统优化路径框架,为博物馆导视系统的系统化设计与科学决策提供理论依据与方法支持,拓展了结构方程模型在设计研究中的应用边界,具有良好的迁移性与实践指导价值。 展开更多
关键词 博物馆导视系统 自然语言处理(nlp) 结构方程模型(SEM) 设计影响因素 设计优化策略
在线阅读 下载PDF
小学教育现代化:教师视角的核心关切与现实困境分析——基于自然语言处理(NLP)技术
4
作者 杨黎 宋乃庆 谢路 《教育与教学研究》 2025年第6期83-95,共13页
小学教育现代化是实现基础教育高质量发展的关键环节。当前关于小学教育现代化的研究多聚焦宏观理论与政策设计,对教师在实践中的实际感受和意见关注不足。本研究基于全国中东西部25省市的6942位小学教师的意见数据,运用自然语言处理(N... 小学教育现代化是实现基础教育高质量发展的关键环节。当前关于小学教育现代化的研究多聚焦宏观理论与政策设计,对教师在实践中的实际感受和意见关注不足。本研究基于全国中东西部25省市的6942位小学教师的意见数据,运用自然语言处理(NLP)技术和词向量分析模型,对教师意见数据进行定量分析,系统挖掘小学教师在学校教育现代化进程中的核心关注点与现实困境,为政策制定者提供基层教育工作者的直接反馈,并在此基础上提出了小学教育现代化改进与完善的对策建议,为小学教育现代化的理论研究和实践探索提供科学依据和实践参考。 展开更多
关键词 小学教育 现代化发展 教师视角 自然语言处理(nlp)技术 词向量模型
在线阅读 下载PDF
结合多尺度特征提取和注意力机制的NLP数据处理模型
5
作者 杜家兵 王晶 +2 位作者 刘胜强 冯程浩 袁树森 《兵工自动化》 北大核心 2025年第10期94-101,共8页
为解决自然语言数据处理模型进行数据处理时存在效果差、资源消耗大等问题,提出一种基于多尺度特征提取和注意力机制的融合算法。通过不同尺度的特征数据提取,并在特征图上应用加权算法,从而增强对某些特定尺度特征的关注,并基于该融合... 为解决自然语言数据处理模型进行数据处理时存在效果差、资源消耗大等问题,提出一种基于多尺度特征提取和注意力机制的融合算法。通过不同尺度的特征数据提取,并在特征图上应用加权算法,从而增强对某些特定尺度特征的关注,并基于该融合算法对自然语言数据处理模型进行优化。仿真实验的结果表明:该融合算法特征提取效果较好,显著提升了计算机进行数据处理的各项能力。将优化后的自然语言处理(natural language processing,NLP)数据处理模型与CSAMT数据处理模型、BETG数据处理模型和优化前的NLP数据处理模型的性能进行对比可知:经过CBAM-MS-CNN优化的NLP数据处理模型的各项性能均优于其他模型。研究结果表明:该融合算法可以满足电子化移交流程中非结构化数据管理领域中的高可靠性、智能处理等业务需求,能提升数据处理效率和数据质量,减少人工录入数据和人工复核数据的工作量。 展开更多
关键词 多尺度特征提取 注意力机制 nlp 数据处理模型
在线阅读 下载PDF
Natural language processing for disaster-resilient infrastructure:Research focus and future opportunities
6
作者 Muhammad Ali Moriyani Lemlem Asaye +4 位作者 Chau Le Trung Le Harun Pirim Om Parkash Yadav Tuyen Le 《Resilient Cities and Structures》 2025年第4期47-71,共25页
The increasing frequency and severity of natural disasters,exacerbated by global warming,necessitate novel solutions to strengthen the resilience of Critical Infrastructure Systems(CISs).Recent research reveals the si... The increasing frequency and severity of natural disasters,exacerbated by global warming,necessitate novel solutions to strengthen the resilience of Critical Infrastructure Systems(CISs).Recent research reveals the sig-nificant potential of natural language processing(NLP)to analyze unstructured human language during disasters,thereby facilitating the uncovering of disruptions and providing situational awareness supporting various aspects of resilience regarding CISs.Despite this potential,few studies have systematically mapped the global research on NLP applications with respect to supporting various aspects of resilience of CISs.This paper contributes to the body of knowledge by presenting a review of current knowledge using the scientometric review technique.Using 231 bibliographic records from the Scopus and Web of Science core collections,we identify five key research areas where researchers have used NLP to support the resilience of CISs during natural disasters,including sentiment analysis,crisis informatics,data and knowledge visualization,disaster impacts,and content analysis.Furthermore,we map the utility of NLP in the identified research focus with respect to four aspects of resilience(i.e.,preparedness,absorption,recovery,and adaptability)and present various common techniques used and potential future research directions.This review highlights that NLP has the potential to become a supplementary data source to support the resilience of CISs.The results of this study serve as an introductory-level guide designed to help scholars and practitioners unlock the potential of NLP for strengthening the resilience of CISs against natural disasters. 展开更多
关键词 Natural language processing nlp Critical infrastructure RESILIENCE DISASTER
在线阅读 下载PDF
基于RAG-NLP的血必净注射剂电子病历数据挖掘方法研究
7
作者 骆永康 吴庆斌 +2 位作者 赖伟华 霍玮炫 赖信君 《中国卫生信息管理杂志》 2025年第6期1007-1015,共9页
目的针对中药血必净注射剂治疗脓毒症的真实世界安全性及有效性分析中电子病历的自然语言处理(NLP)问题展开研究。方法利用全国9所三级甲等医院共计111758例电子病历数据,提出包含“人工标注模型”和“检索增强生成(RAG)标注模型”的对... 目的针对中药血必净注射剂治疗脓毒症的真实世界安全性及有效性分析中电子病历的自然语言处理(NLP)问题展开研究。方法利用全国9所三级甲等医院共计111758例电子病历数据,提出包含“人工标注模型”和“检索增强生成(RAG)标注模型”的对比研究框架,探寻适用于脓毒症电子病历的高效命名实体识别方法。结果RAG标注模型依靠预定义词典和自动机适配技术,能够高效地对“恶心”“呕吐”等血必净药物不良反应(ADR)实体执行抽取,其字符级F1值全都大于96%,标注效率比人工提高了5倍。结论该方法适用在大规模结构化数据的预处理任务中,对血必净真实世界研究多模态数据的处理给予理论支撑。 展开更多
关键词 药物不良反应 中药制剂 电子病历 自然语言处理 检索增强生成
暂未订购
基于NLP研究娃哈哈品牌在社交媒体上的情感分析——以哔哩哔哩弹幕文本为例
8
作者 张楚华 梁凌 《文化创新比较研究》 2025年第9期108-112,共5页
自然语言处理技术的快速发展为社会科学研究提供了新的方法论支持。该研究聚焦情感分析领域,以哔哩哔哩弹幕评论为研究对象,运用八爪鱼采集器和ROST CM6工具获取用户对娃哈哈企业的实时互动数据。通过文本挖掘技术实现非结构化数据的结... 自然语言处理技术的快速发展为社会科学研究提供了新的方法论支持。该研究聚焦情感分析领域,以哔哩哔哩弹幕评论为研究对象,运用八爪鱼采集器和ROST CM6工具获取用户对娃哈哈企业的实时互动数据。通过文本挖掘技术实现非结构化数据的结构化转换,结合词频统计、语义网络分析和情感极性分类等方法,系统解析用户情感反馈特征。研究发现,企业形象的建构呈现产品设计、企业家精神和品牌形象三维度特征,且社交媒体平台通过“企业-平台-消费者-弹幕”的传播链条形成情感共振效应。研究成果不仅验证了NLP技术在社会科学领域的适用性,更为民族企业在新媒体时代的品牌传播提供了实证依据,揭示了数字空间情感动员机制对企业社会价值建构的重要作用。该研究通过跨学科方法创新,为数字技术的社会科学应用开辟了新的研究路径。 展开更多
关键词 nlp研究 情感分析 娃哈哈品牌 弹幕文本 社交媒体 实时互动数据
原文传递
大语言模型幻觉检测方法综述
9
作者 李自拓 孙建彬 +5 位作者 陈广州 方馨悦 崔瑞靖 田植良 黄震 杨克巍 《计算机研究与发展》 北大核心 2026年第1期123-146,共24页
近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucinati... 近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucination)问题引起了学术界和工业界的广泛关注。如何有效检测大语言模型幻觉,成为确保其在文本生成等下游任务可靠、安全、可信应用的关键挑战。该研究着重对大语言模型幻觉检测方法进行综述:首先,介绍了大语言模型概念,进一步明确了幻觉的定义与分类,系统梳理了大语言模型从构建到部署应用全生命周期各环节的特点,并深入分析了幻觉的产生机制与诱因;其次,立足于实际应用需求,考虑到在不同任务场景下模型透明度的差异等因素,将幻觉检测方法划分为针对白盒模型和黑盒模型2类,并进行了重点梳理和深入对比;而后,分析总结了现阶段主流的幻觉检测基准,为后续开展幻觉检测奠定基础;最后,指出了大语言模型幻觉检测的各种潜在研究方法和新的挑战。 展开更多
关键词 幻觉检测 大语言模型 事实一致性 文本生成 自然语言处理
在线阅读 下载PDF
基于NLP的煤矿事故原因分类研究 被引量:11
10
作者 张江石 李泳暾 +3 位作者 冒香凝 胡馨月 潘雨 王梓伊 《中国安全科学学报》 CAS CSCD 北大核心 2023年第6期20-26,共7页
为有效提升分析和处理煤矿事故文本的效率,融合自然语言处理(NLP)技术与事故致因模型,构建一个自动化的事故原因分类框架。首先以事故致因“2-4”模型(24Model)为事故分类依据,分析87份煤矿事故调查报告,得到煤矿事故原因分类框架,构建... 为有效提升分析和处理煤矿事故文本的效率,融合自然语言处理(NLP)技术与事故致因模型,构建一个自动化的事故原因分类框架。首先以事故致因“2-4”模型(24Model)为事故分类依据,分析87份煤矿事故调查报告,得到煤矿事故原因分类框架,构建每类事故原因的语料库;然后利用NLP技术分别处理语料库中各类原因文本,将其用于训练fastText模型,自动识别事故原因文本并分类;最后对比分析fastText模型与TextCNN等其他3种经典模型的分类效果。结果表明:共得到21类事故原因和6684条训练语料,训练后的fastText模型对煤矿事故原因分类的识别正确率能够达到98.92%,综合性能优于其他3种分类模型。基于24Model和NLP技术开发的事故文本挖掘系统,能够快速分析处理事故文本信息,进一步细化事故调查报告中的原因,便于进行事故案例学习和统计分析。 展开更多
关键词 自然语言处理(nlp) 事故原因分类 “2-4”模型(24Model) fastText 文本挖掘
原文传递
基于NLP的知识抽取系统架构研究 被引量:16
11
作者 化柏林 《现代图书情报技术》 CSSCI 北大核心 2007年第10期38-41,共4页
在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于NLP的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等8大模块;知识抽取过程包括论文类型分析、篇章结构分析、知识抽取... 在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于NLP的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等8大模块;知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示4大模块。通过对基于NLP的知识抽取系统架构的研究,明确自然语言处理与知识抽取的关系,分析出知识抽取的系统流程及关键技术。 展开更多
关键词 自然语言处理 知识抽取 文献分析 内容分析 系统架构 关键技术
在线阅读 下载PDF
基于NLP构建病历后结构化专病数据库探索与实践 被引量:3
12
作者 张亚男 董亮 何萍 《医学信息学杂志》 CAS 2024年第9期82-86,共5页
目的/意义建设基于结构化电子病历的专病数据库,提高专病数据库规范性和可用性,提高临床科研工作效率。方法/过程采用模板化输入、自然语言处理等技术,将非结构化电子病历转化为结构化电子病历,基于结构化电子病历构建专病数据库。结果... 目的/意义建设基于结构化电子病历的专病数据库,提高专病数据库规范性和可用性,提高临床科研工作效率。方法/过程采用模板化输入、自然语言处理等技术,将非结构化电子病历转化为结构化电子病历,基于结构化电子病历构建专病数据库。结果/结论龙华医院基于结构化电子病历建设的银屑病专病数据库分中心,为临床科研人员提供结构化科研数据源,辅助提升分析效率;同时有效支撑上海申康“基于多中心的银屑病专病大数据临床科研随访一体化平台”建设,有助于专病数据库高质量、规模化发展。 展开更多
关键词 自然语言处理 结构化电子病历 专病数据库
暂未订购
NLP与GA在煤矿开采进度计划中的比较应用
13
作者 刘玲 诸克军 +1 位作者 杨磊 郭海湘 《微计算机信息》 2009年第33期41-42,40,共3页
本文运用非线性规划(NLP)和遗传算法(GA)在网络图优化的基础上,以净现值NPV(Net Present Value)最大化作为进度安排目标,分别对平安五矿己二采区首采面开工的进度计划进行二次优化控制。结果表明本文提出的GA要优于NLP并且优化后净现值... 本文运用非线性规划(NLP)和遗传算法(GA)在网络图优化的基础上,以净现值NPV(Net Present Value)最大化作为进度安排目标,分别对平安五矿己二采区首采面开工的进度计划进行二次优化控制。结果表明本文提出的GA要优于NLP并且优化后净现值比NLP多60000元。 展开更多
关键词 工序管理 净现值 煤矿开采 GA nlp
在线阅读 下载PDF
Research on Text Mining of Syndrome Element Syndrome Differentiation by Natural Language Processing 被引量:5
14
作者 DENG Wen-Xiang ZHU Jian-Ping +6 位作者 LI Jing YUAN Zhi-Ying WU Hua-Ying YAO Zhong-Hua ZHANG Yi-Ge ZHANG Wen-An HUANG Hui-Yong 《Digital Chinese Medicine》 2019年第2期61-71,共11页
Objective Natural language processing (NLP) was used to excavate and visualize the core content of syndrome element syndrome differentiation (SESD). Methods The first step was to build a text mining and analysis envir... Objective Natural language processing (NLP) was used to excavate and visualize the core content of syndrome element syndrome differentiation (SESD). Methods The first step was to build a text mining and analysis environment based on Python language, and built a corpus based on the core chapters of SESD. The second step was to digitalize the corpus. The main steps included word segmentation, information cleaning and merging, document-entry matrix, dictionary compilation and information conversion. The third step was to mine and display the internal information of SESD corpus by means of word cloud, keyword extraction and visualization. Results NLP played a positive role in computer recognition and comprehension of SESD. Different chapters had different keywords and weights. Deficiency syndrome elements were an important component of SESD, such as "Qi deficiency""Yang deficiency" and "Yin deficiency". The important syndrome elements of substantiality included "Blood stasis""Qi stagnation", etc. Core syndrome elements were closely related. Conclusions Syndrome differentiation and treatment was the core of SESD. Using NLP to excavate syndromes differentiation could help reveal the internal relationship between syndromes differentiation and provide basis for artificial intelligence to learn syndromes differentiation. 展开更多
关键词 Syndrome element syndrome differentiation (SESD) Natural language processing (nlp) Diagnostics of TCM Artificial intelligence Text mining
在线阅读 下载PDF
Standard NER Tagging Scheme for Big Data Healthcare Analytics built on Unified Medical Corpora 被引量:1
15
作者 Sarah Shafqat Hammad Majeed +1 位作者 Qaisar Javaid Hafiz Farooq Ahmad 《Journal of Artificial Intelligence and Technology》 2022年第4期152-157,共6页
The motivation for this research comes from the gap found in discovering the common ground for medical context learning through analytics for different purposes of diagnosing,recommending,prescribing,or treating patie... The motivation for this research comes from the gap found in discovering the common ground for medical context learning through analytics for different purposes of diagnosing,recommending,prescribing,or treating patients for uniform phenotype features from patients’profile.The authors of this paper while searching for possible solutions for medical context learning found that unified corpora tagged with medical nomenclature was missing to train the analytics for medical context learning.Therefore,here we demonstrated a mechanism to come up with uniform NER(Named Entity Recognition)tagged medical corpora that is fed with 14407 endocrine patients’data set in Comma Separated Values(CSV)format diagnosed with diabetes mellitus and comorbidity diseases.The other corpus is of ICD-10-CM coding scheme in text format taken from www.icd10data.com.ICD-10-CM corpus is to be tagged for understanding the medical context with uniformity for which we are conducting different experiments using common natural language programming(NLP)techniques and frameworks like TensorFlow,Keras,Long Short-Term Memory(LSTM),and Bi-LSTM.In our preliminary experiments,albeit label sets in form of(instance,label)pair were tagged with Sequential()model formed on TensorFlow.Keras and Bi-LSTM NLP algorithms.The maximum accuracy achieved for model validation was 0.8846. 展开更多
关键词 big data endocrine diseases international diabetes federation healthcare analytics ICD-10 medical corpora nlp
在线阅读 下载PDF
基于NLP的图书馆智能问答系统研究 被引量:5
16
作者 刘怡彤 张静 姜润发 《信息与电脑》 2024年第1期117-120,共4页
随着计算机算力的提升和智能设备的普及,社会逐步进入智慧化时代。高校图书馆作为高校的文献信息中心,进行智慧化转型提升服务质量是时代所需。因此,文章借助智能问答技术,设计了基于自然语言处理(Natural Language Processing,NLP)的... 随着计算机算力的提升和智能设备的普及,社会逐步进入智慧化时代。高校图书馆作为高校的文献信息中心,进行智慧化转型提升服务质量是时代所需。因此,文章借助智能问答技术,设计了基于自然语言处理(Natural Language Processing,NLP)的图书馆智能问答系统,创新图书馆参考咨询服务模式,提高图书馆服务水平和效率。 展开更多
关键词 自然语言处理(nlp) 智慧图书馆 智能问答
在线阅读 下载PDF
Contextual Text Mining Framework for Unstructured Textual Judicial Corpora through Ontologies
17
作者 Zubair Nabi Ramzan Talib +1 位作者 Muhammad Kashif Hanif Muhammad Awais 《Computer Systems Science & Engineering》 SCIE EI 2022年第12期1357-1374,共18页
Digitalization has changed the way of information processing, and newtechniques of legal data processing are evolving. Text mining helps to analyze andsearch different court cases available in the form of digital text... Digitalization has changed the way of information processing, and newtechniques of legal data processing are evolving. Text mining helps to analyze andsearch different court cases available in the form of digital text documents toextract case reasoning and related data. This sort of case processing helps professionals and researchers to refer the previous case with more accuracy in reducedtime. The rapid development of judicial ontologies seems to deliver interestingproblem solving to legal knowledge formalization. Mining context informationthrough ontologies from corpora is a challenging and interesting field. Thisresearch paper presents a three tier contextual text mining framework throughontologies for judicial corpora. This framework comprises on the judicial corpus,text mining processing resources and ontologies for mining contextual text fromcorpora to make text and data mining more reliable and fast. A top-down ontologyconstruction approach has been adopted in this paper. The judicial corpus hasbeen selected with a sufficient dataset to process and evaluate the results.The experimental results and evaluations show significant improvements incomparison with the available techniques. 展开更多
关键词 Natural language processing judicial corpora contextual text mining ontologies information extraction information retrieval
在线阅读 下载PDF
Spontaneous Language Analysis in Alzheimer’s Disease:Evaluation of Natural Language Processing Technique for Analyzing Lexical Performance
18
作者 Liu Ning Yuan Zhenming 《Journal of Shanghai Jiaotong university(Science)》 EI 2022年第2期160-167,共8页
Language disorder,a common manifestation of Alzheimer’s disease(AD),has attracted widespread attention in recent years.This paper uses a novel natural language processing(NLP)method,compared with latest deep learning... Language disorder,a common manifestation of Alzheimer’s disease(AD),has attracted widespread attention in recent years.This paper uses a novel natural language processing(NLP)method,compared with latest deep learning technology,to detect AD and explore the lexical performance.Our proposed approach is based on two stages.First,the dialogue contents are summarized into two categories with the same category.Second,term frequency—inverse document frequency(TF-IDF)algorithm is used to extract the keywords of transcripts,and the similarity of keywords between the groups was calculated separately by cosine distance.Several deep learning methods are used to compare the performance.In the meanwhile,keywords with the best performance are used to analyze AD patients’lexical performance.In the Predictive Challenge of Alzheimer’s Disease held by iFlytek in 2019,the proposed AD diagnosis model achieves a better performance in binary classification by adjusting the number of keywords.The F1 score of the model has a considerable improvement over the baseline of 75.4%,and the training process of which is simple and efficient.We analyze the keywords of the model and find that AD patients use less noun and verb than normal controls.A computer-assisted AD diagnosis model on small Chinese dataset is proposed in this paper,which provides a potential way for assisting diagnosis of AD and analyzing lexical performance in clinical setting. 展开更多
关键词 natural language processing(nlp) Alzheimer's disease(AD) mild cognitive impairment term frequency-inverse document frequency(TF-IDF) bag of words
原文传递
Unlocking the Potential:A Comprehensive Systematic Review of ChatGPT in Natural Language Processing Tasks
19
作者 Ebtesam Ahmad Alomari 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第10期43-85,共43页
As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects in... As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects increasing interest in the field and induces critical inquiries into ChatGPT’s applicability in the NLP domain.This review paper systematically investigates the role of ChatGPT in diverse NLP tasks,including information extraction,Name Entity Recognition(NER),event extraction,relation extraction,Part of Speech(PoS)tagging,text classification,sentiment analysis,emotion recognition and text annotation.The novelty of this work lies in its comprehensive analysis of the existing literature,addressing a critical gap in understanding ChatGPT’s adaptability,limitations,and optimal application.In this paper,we employed a systematic stepwise approach following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)framework to direct our search process and seek relevant studies.Our review reveals ChatGPT’s significant potential in enhancing various NLP tasks.Its adaptability in information extraction tasks,sentiment analysis,and text classification showcases its ability to comprehend diverse contexts and extract meaningful details.Additionally,ChatGPT’s flexibility in annotation tasks reducesmanual efforts and accelerates the annotation process,making it a valuable asset in NLP development and research.Furthermore,GPT-4 and prompt engineering emerge as a complementary mechanism,empowering users to guide the model and enhance overall accuracy.Despite its promising potential,challenges persist.The performance of ChatGP Tneeds tobe testedusingmore extensivedatasets anddiversedata structures.Subsequently,its limitations in handling domain-specific language and the need for fine-tuning in specific applications highlight the importance of further investigations to address these issues. 展开更多
关键词 Generative AI large languagemodel(LLM) natural language processing(nlp) ChatGPT GPT(generative pretraining transformer) GPT-4 sentiment analysis NER information extraction ANNOTATION text classification
在线阅读 下载PDF
大语言模型综述与展望 被引量:24
20
作者 秦小林 古徐 +1 位作者 李弟诚 徐海文 《计算机应用》 北大核心 2025年第3期685-696,共12页
大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参... 大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。 展开更多
关键词 大语言模型 智能体 自然语言处理 检索增强生成 模型幻觉
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部