为解决自然语言数据处理模型进行数据处理时存在效果差、资源消耗大等问题,提出一种基于多尺度特征提取和注意力机制的融合算法。通过不同尺度的特征数据提取,并在特征图上应用加权算法,从而增强对某些特定尺度特征的关注,并基于该融合...为解决自然语言数据处理模型进行数据处理时存在效果差、资源消耗大等问题,提出一种基于多尺度特征提取和注意力机制的融合算法。通过不同尺度的特征数据提取,并在特征图上应用加权算法,从而增强对某些特定尺度特征的关注,并基于该融合算法对自然语言数据处理模型进行优化。仿真实验的结果表明:该融合算法特征提取效果较好,显著提升了计算机进行数据处理的各项能力。将优化后的自然语言处理(natural language processing,NLP)数据处理模型与CSAMT数据处理模型、BETG数据处理模型和优化前的NLP数据处理模型的性能进行对比可知:经过CBAM-MS-CNN优化的NLP数据处理模型的各项性能均优于其他模型。研究结果表明:该融合算法可以满足电子化移交流程中非结构化数据管理领域中的高可靠性、智能处理等业务需求,能提升数据处理效率和数据质量,减少人工录入数据和人工复核数据的工作量。展开更多
随着计算机算力的提升和智能设备的普及,社会逐步进入智慧化时代。高校图书馆作为高校的文献信息中心,进行智慧化转型提升服务质量是时代所需。因此,文章借助智能问答技术,设计了基于自然语言处理(Natural Language Processing,NLP)的...随着计算机算力的提升和智能设备的普及,社会逐步进入智慧化时代。高校图书馆作为高校的文献信息中心,进行智慧化转型提升服务质量是时代所需。因此,文章借助智能问答技术,设计了基于自然语言处理(Natural Language Processing,NLP)的图书馆智能问答系统,创新图书馆参考咨询服务模式,提高图书馆服务水平和效率。展开更多
As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects in...As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects increasing interest in the field and induces critical inquiries into ChatGPT’s applicability in the NLP domain.This review paper systematically investigates the role of ChatGPT in diverse NLP tasks,including information extraction,Name Entity Recognition(NER),event extraction,relation extraction,Part of Speech(PoS)tagging,text classification,sentiment analysis,emotion recognition and text annotation.The novelty of this work lies in its comprehensive analysis of the existing literature,addressing a critical gap in understanding ChatGPT’s adaptability,limitations,and optimal application.In this paper,we employed a systematic stepwise approach following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)framework to direct our search process and seek relevant studies.Our review reveals ChatGPT’s significant potential in enhancing various NLP tasks.Its adaptability in information extraction tasks,sentiment analysis,and text classification showcases its ability to comprehend diverse contexts and extract meaningful details.Additionally,ChatGPT’s flexibility in annotation tasks reducesmanual efforts and accelerates the annotation process,making it a valuable asset in NLP development and research.Furthermore,GPT-4 and prompt engineering emerge as a complementary mechanism,empowering users to guide the model and enhance overall accuracy.Despite its promising potential,challenges persist.The performance of ChatGP Tneeds tobe testedusingmore extensivedatasets anddiversedata structures.Subsequently,its limitations in handling domain-specific language and the need for fine-tuning in specific applications highlight the importance of further investigations to address these issues.展开更多
随着人工智能技术的快速发展,自然语言处理(Natural Language Processing,NLP)技术在各个领域得到了广泛应用。文章提出一种基于NLP技术的智能培训系统中知识点与题库关联方法,该方法利用NLP技术对培训材料进行文本分析,自动提取知识点...随着人工智能技术的快速发展,自然语言处理(Natural Language Processing,NLP)技术在各个领域得到了广泛应用。文章提出一种基于NLP技术的智能培训系统中知识点与题库关联方法,该方法利用NLP技术对培训材料进行文本分析,自动提取知识点,并基于知识点和题库之间建立关联模型,实现试卷题目的自动分配。该方法能够有效提高培训系统的智能化水平,提高培训效率和质量。展开更多
在数字化时代,智能语音质检成为企业提升工作效率的重要工具,其中自然语言处理(Natural Language Processing,NLP)技术的应用为智能语音质检提供了技术支持。NLP技术通过情感分析、语义分析等手段,使得质检过程更加高效、准确,并降低了...在数字化时代,智能语音质检成为企业提升工作效率的重要工具,其中自然语言处理(Natural Language Processing,NLP)技术的应用为智能语音质检提供了技术支持。NLP技术通过情感分析、语义分析等手段,使得质检过程更加高效、准确,并降低了质检成本。基于此,探讨了NLP技术在智能语音质检中的应用优势和具体实现方式。展开更多
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi...中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。展开更多
ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分...ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。展开更多
建筑信息模型(BIM)以其多维模型和多源数据集成的优势,正成为推动公路设计行业创新和数字化转型的关键技术,以BIM模型作为设计交付成果已成为未来公路工程设计领域发展的必然趋势。然而,现阶段公路BIM模型的审查工作以人工手动肉眼审查...建筑信息模型(BIM)以其多维模型和多源数据集成的优势,正成为推动公路设计行业创新和数字化转型的关键技术,以BIM模型作为设计交付成果已成为未来公路工程设计领域发展的必然趋势。然而,现阶段公路BIM模型的审查工作以人工手动肉眼审查为主,存在效率低、易出错、主观性强等问题,难以适应三维数字化设计模式的审查需求。针对该问题,该文提出一种基于知识图谱的公路BIM模型自动审查方法,通过构建公路工程领域的知识图谱,涵盖公路设计标准规范、语义库、元结构等多维度知识,利用自然语言处理技术(NLP)对设计标准规范、条文的审查规则进行结构化处理,进而以IFC(Industry Foundation Classes)构件实体为对象,利用Cypher查询语言实现对公路BIM模型构件属性信息完整性、数据正确性和设计合规性的审查。结果表明:基于知识图谱技术的图数据库,可以为公路BIM模型设计成果审查提供技术方法,显著提升公路三维设计成果的质量和审查效率。展开更多
大型工程施工过程中产生了海量的安全隐患排查记录,蕴含了多类隐患要素关联知识,对工程安全管控有重要参考意义。然而,通过人工手段进行隐患危险源信息抽取与其内在关联挖掘耗时费力,难以及时反馈现场管控。提出一种基于通用信息抽取(Un...大型工程施工过程中产生了海量的安全隐患排查记录,蕴含了多类隐患要素关联知识,对工程安全管控有重要参考意义。然而,通过人工手段进行隐患危险源信息抽取与其内在关联挖掘耗时费力,难以及时反馈现场管控。提出一种基于通用信息抽取(Universal Information Extraction, UIE)框架与改进Apriori算法的隐患危险源实体智能抽取与知识挖掘方法。首先,基于UIE框架构建危险源实体识别模型,确定实体抽取提示标签,并通过小样本微调实现高效、准确的危险源实体自动抽取;然后,提出考虑隐患数据类型约束改进Apriori算法流程,进行多要素关联规则的挖掘与可视化。实例分析表明,所提出的危险源实体抽取模型在验证集与测试集上的F1值分别达到了0.892和0.886,显著高于基础模型的0.253与0.307,在整体模型上的危险源实体识别率提高了36.66%;此外,利用桑基图和关联网络图对改进Apriori抽取的多要素强关联规则进行可视化,展示出良好的可解释性。可为大型工程的海量安全隐患文本知识挖掘提供了高效、智能化的技术手段,为施工现场针对性安全管控措施制定提供了数据支持。展开更多
文摘为解决自然语言数据处理模型进行数据处理时存在效果差、资源消耗大等问题,提出一种基于多尺度特征提取和注意力机制的融合算法。通过不同尺度的特征数据提取,并在特征图上应用加权算法,从而增强对某些特定尺度特征的关注,并基于该融合算法对自然语言数据处理模型进行优化。仿真实验的结果表明:该融合算法特征提取效果较好,显著提升了计算机进行数据处理的各项能力。将优化后的自然语言处理(natural language processing,NLP)数据处理模型与CSAMT数据处理模型、BETG数据处理模型和优化前的NLP数据处理模型的性能进行对比可知:经过CBAM-MS-CNN优化的NLP数据处理模型的各项性能均优于其他模型。研究结果表明:该融合算法可以满足电子化移交流程中非结构化数据管理领域中的高可靠性、智能处理等业务需求,能提升数据处理效率和数据质量,减少人工录入数据和人工复核数据的工作量。
文摘随着计算机算力的提升和智能设备的普及,社会逐步进入智慧化时代。高校图书馆作为高校的文献信息中心,进行智慧化转型提升服务质量是时代所需。因此,文章借助智能问答技术,设计了基于自然语言处理(Natural Language Processing,NLP)的图书馆智能问答系统,创新图书馆参考咨询服务模式,提高图书馆服务水平和效率。
文摘As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects increasing interest in the field and induces critical inquiries into ChatGPT’s applicability in the NLP domain.This review paper systematically investigates the role of ChatGPT in diverse NLP tasks,including information extraction,Name Entity Recognition(NER),event extraction,relation extraction,Part of Speech(PoS)tagging,text classification,sentiment analysis,emotion recognition and text annotation.The novelty of this work lies in its comprehensive analysis of the existing literature,addressing a critical gap in understanding ChatGPT’s adaptability,limitations,and optimal application.In this paper,we employed a systematic stepwise approach following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)framework to direct our search process and seek relevant studies.Our review reveals ChatGPT’s significant potential in enhancing various NLP tasks.Its adaptability in information extraction tasks,sentiment analysis,and text classification showcases its ability to comprehend diverse contexts and extract meaningful details.Additionally,ChatGPT’s flexibility in annotation tasks reducesmanual efforts and accelerates the annotation process,making it a valuable asset in NLP development and research.Furthermore,GPT-4 and prompt engineering emerge as a complementary mechanism,empowering users to guide the model and enhance overall accuracy.Despite its promising potential,challenges persist.The performance of ChatGP Tneeds tobe testedusingmore extensivedatasets anddiversedata structures.Subsequently,its limitations in handling domain-specific language and the need for fine-tuning in specific applications highlight the importance of further investigations to address these issues.
文摘随着人工智能技术的快速发展,自然语言处理(Natural Language Processing,NLP)技术在各个领域得到了广泛应用。文章提出一种基于NLP技术的智能培训系统中知识点与题库关联方法,该方法利用NLP技术对培训材料进行文本分析,自动提取知识点,并基于知识点和题库之间建立关联模型,实现试卷题目的自动分配。该方法能够有效提高培训系统的智能化水平,提高培训效率和质量。
文摘在数字化时代,智能语音质检成为企业提升工作效率的重要工具,其中自然语言处理(Natural Language Processing,NLP)技术的应用为智能语音质检提供了技术支持。NLP技术通过情感分析、语义分析等手段,使得质检过程更加高效、准确,并降低了质检成本。基于此,探讨了NLP技术在智能语音质检中的应用优势和具体实现方式。
文摘中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。
文摘ReLM(Rephrasing Language Model)是当前性能领先的中文拼写纠错(CSC)模型。针对它在复杂语义场景中存在特征表达不足的问题,提出深层语义特征增强的ReLM——FeReLM(Feature-enhanced Rephrasing Language Model)。该模型利用深度可分离卷积(DSC)技术融合特征提取模型BGE(BAAI General Embeddings)生成的深层语义特征与ReLM生成的整体特征,从而有效提升模型对复杂上下文的解析力和拼写错误的识别纠正精度。首先,在Wang271K数据集上训练FeReLM,使模型持续学习句子中的深层语义和复杂表达;其次,迁移训练好的权重,从而将模型学习到的知识应用于新的数据集并进行微调。实验结果表明,在ECSpell和MCSC数据集上与ReLM、MCRSpell(Metric learning of Correct Representation for Chinese Spelling Correction)和RSpell(Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check)等模型相比,FeReLM的精确率、召回率、F1分数等关键指标的提升幅度可达0.6~28.7个百分点。此外,通过消融实验验证了所提方法的有效性。
文摘建筑信息模型(BIM)以其多维模型和多源数据集成的优势,正成为推动公路设计行业创新和数字化转型的关键技术,以BIM模型作为设计交付成果已成为未来公路工程设计领域发展的必然趋势。然而,现阶段公路BIM模型的审查工作以人工手动肉眼审查为主,存在效率低、易出错、主观性强等问题,难以适应三维数字化设计模式的审查需求。针对该问题,该文提出一种基于知识图谱的公路BIM模型自动审查方法,通过构建公路工程领域的知识图谱,涵盖公路设计标准规范、语义库、元结构等多维度知识,利用自然语言处理技术(NLP)对设计标准规范、条文的审查规则进行结构化处理,进而以IFC(Industry Foundation Classes)构件实体为对象,利用Cypher查询语言实现对公路BIM模型构件属性信息完整性、数据正确性和设计合规性的审查。结果表明:基于知识图谱技术的图数据库,可以为公路BIM模型设计成果审查提供技术方法,显著提升公路三维设计成果的质量和审查效率。
文摘大型工程施工过程中产生了海量的安全隐患排查记录,蕴含了多类隐患要素关联知识,对工程安全管控有重要参考意义。然而,通过人工手段进行隐患危险源信息抽取与其内在关联挖掘耗时费力,难以及时反馈现场管控。提出一种基于通用信息抽取(Universal Information Extraction, UIE)框架与改进Apriori算法的隐患危险源实体智能抽取与知识挖掘方法。首先,基于UIE框架构建危险源实体识别模型,确定实体抽取提示标签,并通过小样本微调实现高效、准确的危险源实体自动抽取;然后,提出考虑隐患数据类型约束改进Apriori算法流程,进行多要素关联规则的挖掘与可视化。实例分析表明,所提出的危险源实体抽取模型在验证集与测试集上的F1值分别达到了0.892和0.886,显著高于基础模型的0.253与0.307,在整体模型上的危险源实体识别率提高了36.66%;此外,利用桑基图和关联网络图对改进Apriori抽取的多要素强关联规则进行可视化,展示出良好的可解释性。可为大型工程的海量安全隐患文本知识挖掘提供了高效、智能化的技术手段,为施工现场针对性安全管控措施制定提供了数据支持。