期刊文献+
共找到397篇文章
< 1 2 20 >
每页显示 20 50 100
Deep Learning-Based Natural Language Processing Model and Optical Character Recognition for Detection of Online Grooming on Social Networking Services
1
作者 Sangmin Kim Byeongcheon Lee +2 位作者 Muazzam Maqsood Jihoon Moon Seungmin Rho 《Computer Modeling in Engineering & Sciences》 2025年第5期2079-2108,共30页
The increased accessibility of social networking services(SNSs)has facilitated communication and information sharing among users.However,it has also heightened concerns about digital safety,particularly for children a... The increased accessibility of social networking services(SNSs)has facilitated communication and information sharing among users.However,it has also heightened concerns about digital safety,particularly for children and adolescents who are increasingly exposed to online grooming crimes.Early and accurate identification of grooming conversations is crucial in preventing long-term harm to victims.However,research on grooming detection in South Korea remains limited,as existing models trained primarily on English text and fail to reflect the unique linguistic features of SNS conversations,leading to inaccurate classifications.To address these issues,this study proposes a novel framework that integrates optical character recognition(OCR)technology with KcELECTRA,a deep learning-based natural language processing(NLP)model that shows excellent performance in processing the colloquial Korean language.In the proposed framework,the KcELECTRA model is fine-tuned by an extensive dataset,including Korean social media conversations,Korean ethical verification data from AI-Hub,and Korean hate speech data from Hug-gingFace,to enable more accurate classification of text extracted from social media conversation images.Experimental results show that the proposed framework achieves an accuracy of 0.953,outperforming existing transformer-based models.Furthermore,OCR technology shows high accuracy in extracting text from images,demonstrating that the proposed framework is effective for online grooming detection.The proposed framework is expected to contribute to the more accurate detection of grooming text and the prevention of grooming-related crimes. 展开更多
关键词 Online grooming KcELECTRA natural language processing optical character recognition social networking service text classification
在线阅读 下载PDF
Research on the Automatic Pattem Abstraction and Recognition Methodology for Large-scale Database System based on Natural Language Processing 被引量:1
2
作者 RongWang Cuizhen Jiao Wenhua Dai 《International Journal of Technology Management》 2015年第9期125-127,共3页
In this research paper, we research on the automatic pattern abstraction and recognition method for large-scale database system based on natural language processing. In distributed database, through the network connec... In this research paper, we research on the automatic pattern abstraction and recognition method for large-scale database system based on natural language processing. In distributed database, through the network connection between nodes, data across different nodes and even regional distribution are well recognized. In order to reduce data redundancy and model design of the database will usually contain a lot of forms we combine the NLP theory to optimize the traditional method. The experimental analysis and simulation proves the correctness of our method. 展开更多
关键词 pattern Abstraction and recognition Database System natural language processing.
在线阅读 下载PDF
Automated Handwriting Recognition and Speech Synthesizer for Indigenous Language Processing
3
作者 Bassam A.Y.Alqaralleh Fahad Aldhaban +1 位作者 Feras Mohammed A-Matarneh Esam A.AlQaralleh 《Computers, Materials & Continua》 SCIE EI 2022年第8期3913-3927,共15页
In recent years,researchers in handwriting recognition analysis relating to indigenous languages have gained significant internet among research communities.The recent developments of artificial intelligence(AI),natur... In recent years,researchers in handwriting recognition analysis relating to indigenous languages have gained significant internet among research communities.The recent developments of artificial intelligence(AI),natural language processing(NLP),and computational linguistics(CL)find useful in the analysis of regional low resource languages.Automatic lexical task participation might be elaborated to various applications in the NLP.It is apparent from the availability of effective machine recognition models and open access handwritten databases.Arabic language is a commonly spoken Semitic language,and it is written with the cursive Arabic alphabet from right to left.Arabic handwritten Character Recognition(HCR)is a crucial process in optical character recognition.In this view,this paper presents effective Computational linguistics with Deep Learning based Handwriting Recognition and Speech Synthesizer(CLDL-THRSS)for Indigenous Language.The presented CLDL-THRSS model involves two stages of operations namely automated handwriting recognition and speech recognition.Firstly,the automated handwriting recognition procedure involves preprocessing,segmentation,feature extraction,and classification.Also,the Capsule Network(CapsNet)based feature extractor is employed for the recognition of handwritten Arabic characters.For optimal hyperparameter tuning,the cuckoo search(CS)optimization technique was included to tune the parameters of the CapsNet method.Besides,deep neural network with hidden Markov model(DNN-HMM)model is employed for the automatic speech synthesizer.To validate the effective performance of the proposed CLDL-THRSS model,a detailed experimental validation process takes place and investigates the outcomes interms of different measures.The experimental outcomes denoted that the CLDL-THRSS technique has demonstrated the compared methods. 展开更多
关键词 Computational linguistics handwriting character recognition natural language processing indigenous language
在线阅读 下载PDF
A Convolutional Neural Network Based Optical Character Recognition for Purely Handwritten Characters and Digits
4
作者 Syed Atir Raza Muhammad Shoaib Farooq +3 位作者 Uzma Farooq Hanen Karamti Tahir Khurshaid Imran Ashraf 《Computers, Materials & Continua》 2025年第8期3149-3173,共25页
Urdu,a prominent subcontinental language,serves as a versatile means of communication.However,its handwritten expressions present challenges for optical character recognition(OCR).While various OCR techniques have bee... Urdu,a prominent subcontinental language,serves as a versatile means of communication.However,its handwritten expressions present challenges for optical character recognition(OCR).While various OCR techniques have been proposed,most of them focus on recognizing printed Urdu characters and digits.To the best of our knowledge,very little research has focused solely on Urdu pure handwriting recognition,and the results of such proposed methods are often inadequate.In this study,we introduce a novel approach to recognizing Urdu pure handwritten digits and characters using Convolutional Neural Networks(CNN).Our proposed method utilizes convolutional layers to extract important features from input images and classifies them using fully connected layers,enabling efficient and accurate detection of Urdu handwritten digits and characters.We implemented the proposed technique on a large publicly available dataset of Urdu handwritten digits and characters.The findings demonstrate that the CNN model achieves an accuracy of 98.30%and an F1 score of 88.6%,indicating its effectiveness in detecting and classifyingUrdu handwritten digits and characters.These results have far-reaching implications for various applications,including document analysis,text recognition,and language understanding,which have previously been unexplored in the context of Urdu handwriting data.This work lays a solid foundation for future research and development in Urdu language detection and processing,opening up new opportunities for advancement in this field. 展开更多
关键词 Image processing natural language processing handwritten Urdu characters optical character recognition deep learning feature extraction CLASSIFICATION
在线阅读 下载PDF
Continuous Arabic Sign Language Recognition in User Dependent Mode
5
作者 K. Assaleh T. Shanableh +2 位作者 M. Fanaswala F. Amin H. Bajaj 《Journal of Intelligent Learning Systems and Applications》 2010年第1期19-27,共9页
Arabic Sign Language recognition is an emerging field of research. Previous attempts at automatic vision-based recog-nition of Arabic Sign Language mainly focused on finger spelling and recognizing isolated gestures. ... Arabic Sign Language recognition is an emerging field of research. Previous attempts at automatic vision-based recog-nition of Arabic Sign Language mainly focused on finger spelling and recognizing isolated gestures. In this paper we report the first continuous Arabic Sign Language by building on existing research in feature extraction and pattern recognition. The development of the presented work required collecting a continuous Arabic Sign Language database which we designed and recorded in cooperation with a sign language expert. We intend to make the collected database available for the research community. Our system which we based on spatio-temporal feature extraction and hidden Markov models has resulted in an average word recognition rate of 94%, keeping in the mind the use of a high perplex-ity vocabulary and unrestrictive grammar. We compare our proposed work against existing sign language techniques based on accumulated image difference and motion estimation. The experimental results section shows that the pro-posed work outperforms existing solutions in terms of recognition accuracy. 展开更多
关键词 pattern recognition Motion Analysis Image/ VIDEO processing and SIGN language
在线阅读 下载PDF
Generating Factual Text via Entailment Recognition Task
6
作者 Jinqiao Dai Pengsen Cheng Jiayong Liu 《Computers, Materials & Continua》 SCIE EI 2024年第7期547-565,共19页
Generating diverse and factual text is challenging and is receiving increasing attention.By sampling from the latent space,variational autoencoder-based models have recently enhanced the diversity of generated text.Ho... Generating diverse and factual text is challenging and is receiving increasing attention.By sampling from the latent space,variational autoencoder-based models have recently enhanced the diversity of generated text.However,existing research predominantly depends on summarizationmodels to offer paragraph-level semantic information for enhancing factual correctness.The challenge lies in effectively generating factual text using sentence-level variational autoencoder-based models.In this paper,a novel model called fact-aware conditional variational autoencoder is proposed to balance the factual correctness and diversity of generated text.Specifically,our model encodes the input sentences and uses them as facts to build a conditional variational autoencoder network.By training a conditional variational autoencoder network,the model is enabled to generate text based on input facts.Building upon this foundation,the input text is passed to the discriminator along with the generated text.By employing adversarial training,the model is encouraged to generate text that is indistinguishable to the discriminator,thereby enhancing the quality of the generated text.To further improve the factual correctness,inspired by the natural language inference system,the entailment recognition task is introduced to be trained together with the discriminator via multi-task learning.Moreover,based on the entailment recognition results,a penalty term is further proposed to reconstruct the loss of our model,forcing the generator to generate text consistent with the facts.Experimental results demonstrate that compared with competitivemodels,ourmodel has achieved substantial improvements in both the quality and factual correctness of the text,despite only sacrificing a small amount of diversity.Furthermore,when considering a comprehensive evaluation of diversity and quality metrics,our model has also demonstrated the best performance. 展开更多
关键词 Text generation entailment recognition task natural language processing artificial intelligence
在线阅读 下载PDF
自然语言处理研究综述 被引量:11
7
作者 赵铁军 许木璠 陈安东 《新疆师范大学学报(哲学社会科学版)》 北大核心 2025年第2期89-111,F0002,共24页
近年来,自然语言处理因在分析与建模人类语言任务领域取得诸多成果而备受关注。当前,大规模预训练语言模型展现出强大的对话问答和文本生成能力,带来自然语言处理研究的新一轮热潮。自然语言处理在机器翻译、文本摘要、信息抽取等领域... 近年来,自然语言处理因在分析与建模人类语言任务领域取得诸多成果而备受关注。当前,大规模预训练语言模型展现出强大的对话问答和文本生成能力,带来自然语言处理研究的新一轮热潮。自然语言处理在机器翻译、文本摘要、信息抽取等领域应用广泛。文本首先讨论自然语言处理针对语言学四个不同层次文本信息的分析手段,对自然语言处理的基本任务组成进行概述;其次,讨论自然语言处理在具体下游任务中的应用现状,包括自然语言处理在具体任务中的应用历史、当前的研究趋势以及面临的挑战;最后,在大规模预训练语言模型研究对数据集提出更高要求的背景下,对自然语言处理领域已有的数据集及评测基准集等进行讨论。 展开更多
关键词 自然语言处理 句法分析 语义分析 机器翻译 问答系统 信息抽取
原文传递
基于知识图谱的钻井顶部驱动装置故障智能诊断方法 被引量:1
8
作者 陈冬 肖远山 +2 位作者 尹志勇 张彦龙 叶智慧 《天然气工业》 北大核心 2025年第2期125-135,共11页
钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井... 钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井顶部驱动装置故障诊断方法,利用以Transformer为基础的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)构建了混合神经网络模型BERT-BiLSTM-CRF与BERT-BiLSTM-Attention,分别实现了顶驱故障文本数据的命名实体识别和关系抽取,并通过相似度计算,实现了故障知识的有效融合和智能问答,最终构建了顶部驱动装置故障诊断方法。研究结果表明:①在故障实体识别任务上,BERT-BiLSTM-CRF模型的精确度达到95.49%,能够有效识别故障文本中的信息实体;②在故障关系抽取上,BERT-BiLSTM-Attention模型的精确度达到93.61%,实现了知识图谱关系边的正确建立;③开发的问答系统实现了知识图谱的智能应用,其在多个不同类型问题上的回答准确率超过了90%,能够满足现场使用需求。结论认为,基于知识图谱的故障诊断方法能够有效利用顶部驱动装置的先验知识,实现故障的快速定位与智能诊断,具备良好的应用前景。 展开更多
关键词 钻井装备 顶部驱动装置 故障诊断 深度学习 知识图谱 自然语言处理 命名实体识别 智能问答系统
在线阅读 下载PDF
基于语言表达模式和自然语言处理的有机化学文献数据自动识别提取方法
9
作者 陈维明 戴静芳 +5 位作者 李英勇 周俊红 高犇 赵英莉 徐挺军 薛小松 《有机化学》 北大核心 2025年第6期2189-2198,共10页
期刊文献是科学数据的一个重要来源,以往大多采用人工标引方法识别和提取其中的科学数据.随着信息技术和人工智能方法的发展,从期刊文献资料中自动识别和提取科学数据正在逐步成为可能.研究了结合语言表达模式和基于规则的自然语言处理... 期刊文献是科学数据的一个重要来源,以往大多采用人工标引方法识别和提取其中的科学数据.随着信息技术和人工智能方法的发展,从期刊文献资料中自动识别和提取科学数据正在逐步成为可能.研究了结合语言表达模式和基于规则的自然语言处理技术(NLP)从期刊文章中自动识别提取化学数据和信息的方法,完成了2013~2022年10年《有机化学》期刊中3275篇实验研究文章中化学数据的自动识别提取,提取了包括产物特性、合成反应参数、物性数据、谱学数据等30多种化学数据,提取的数据经过处理建成对应的数据库,已经开始对外提供《有机化学》期刊知识服务.对2022年《有机化学》期刊全部422篇文章进行的方法性能测试表明,旋光数据识别提取的正确率为100%,熔点数据识别提取的正确率为99.85%,氟核磁谱识别提取的正确率为99.55%,碳核磁谱识别提取的正确率为99.80%,物质形态数据识别提取的正确率为99.47%,产物名称识别提取的正确率为98.76%(共提取4665个产物名称,其中有问题的产物名称58个).本文中产物名称自动识别提取使用了基于局部场景的无关内容排除法,如果使用化合物系统半系统命名模式,产物名称的自动识别准确率有望进一步提高.基于语言表达模式和自然语言处理技术的自动识别提取方法原则上不受学科限制,适合所有科学数据. 展开更多
关键词 化学数据 识别提取 语言表达模式 自然语言处理
原文传递
多维语言复杂度对说明文写作语言质量的预测效应
10
作者 彭程 鲍珍 《外语与外语教学》 北大核心 2025年第2期35-45,146,共12页
本文以英语专业大三学生产出的说明文写作文本为研究对象,采用自然语言处理方法考察多维语言指标对写作语言质量的预测。研究发现,(1)词汇、句法、短语维度的部分指标和写作语言成绩呈显著相关;(2)二元序列和依存搭配的关联强度共解释... 本文以英语专业大三学生产出的说明文写作文本为研究对象,采用自然语言处理方法考察多维语言指标对写作语言质量的预测。研究发现,(1)词汇、句法、短语维度的部分指标和写作语言成绩呈显著相关;(2)二元序列和依存搭配的关联强度共解释写作语言成绩约49%的差异,从属结构占比和复杂名词占比共解释写作语言成绩12.4%的差异,实词词频可解释写作语言成绩8%的差异。研究结果表明,与词汇和句法维度的指标相比,短语关联度对说明文写作语言质量的预测更有效,对二语写作评估有一定启示。 展开更多
关键词 短语复杂度 句法复杂度 词汇复杂度 说明文写作 自然语言处理
原文传递
层次融合多元知识的命名实体识别框架——HTLR
11
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
方面语义增强的融合网络用于方面级情感分析
12
作者 郑诚 陈雪灵 《小型微型计算机系统》 北大核心 2025年第9期2105-2112,共8页
方面级情感分析旨在识别方面词表达的情感.最近,基于依赖树的图卷积网络已被证明在方面级情感分析任务中是有效的.然而,句法依赖树并不是特定于情感分析的工具,不能关注到特定的方面词.针对上述问题,本文提出一种方面语义增强的融合网... 方面级情感分析旨在识别方面词表达的情感.最近,基于依赖树的图卷积网络已被证明在方面级情感分析任务中是有效的.然而,句法依赖树并不是特定于情感分析的工具,不能关注到特定的方面词.针对上述问题,本文提出一种方面语义增强的融合网络模型,该模型将句法,语义和词法信息与方面词相结合,用于方面级情感分析.首先,使用快速梯度对抗训练算法进行数据增强.其次,为了充分利用句法依赖树中的有效信息,分别使用图卷积网络和注意力机制学习依赖树中的句法信息和词法信息.同时,将方面增强注意力机制与自注意力机制相结合,来增强句子的方面语义感知能力.最后,使用非对称损失作为损失函数.在基准数据集上进行了实验,验证了本文模型的有效性. 展开更多
关键词 自然语言处理 方面级情感分析 数据增强 注意力机制 句法依赖树
在线阅读 下载PDF
基于多路局部特征整合的嵌套命名实体识别方法
13
作者 王进 蒋诗琪 《江苏大学学报(自然科学版)》 北大核心 2025年第4期431-437,共7页
为了解决嵌套命名实体识别中边界模糊和嵌套实体提取困难的问题,提出了基于多路局部特征整合的嵌套命名实体识别方法.新方法先采用双向长短时记忆网络拆解序列的正反向特征,然后按实体长度对嵌套命名实体识别任务进行拆分,使用不同大小... 为了解决嵌套命名实体识别中边界模糊和嵌套实体提取困难的问题,提出了基于多路局部特征整合的嵌套命名实体识别方法.新方法先采用双向长短时记忆网络拆解序列的正反向特征,然后按实体长度对嵌套命名实体识别任务进行拆分,使用不同大小的卷积网络对固定长度的局部信息进行整合,最后将正反向特征进行匹配得到预测结果.引入前置加权方法来解决多层模型中层间信息传递误差大的问题.将新方法与其他的嵌套命名实体识别方法在ACE2005和GENIA两个数据集上进行对比试验.结果表明:新方法在两个数据集上均表现出了更好的效果,比其他方法中最优的Dependency Parsing在ACE2005和GENIA数据集上F_(1)分数分别提升0.18和0.03百分点,新方法相比目前主流方法有一定的性能提升. 展开更多
关键词 自然语言处理 嵌套命名实体识别 深度学习 卷积神经网络 长短时记忆网络 特征融合 自适应学习
在线阅读 下载PDF
面向特定领域的文本特征提取技术研究
14
作者 魏帅 蒋中平 《计算机应用文摘》 2025年第19期115-117,120,共4页
在海量信息中准确提取关键信息已成为当前智能信息处理领域的重要研究课题。针对特定领域的中文文本处理需求,研究并实现了一套基于深度学习与自然语言处理技术的文本特征提取方法。主要研究内容包括基于BiLSTM-CRF模型的中文分词技术... 在海量信息中准确提取关键信息已成为当前智能信息处理领域的重要研究课题。针对特定领域的中文文本处理需求,研究并实现了一套基于深度学习与自然语言处理技术的文本特征提取方法。主要研究内容包括基于BiLSTM-CRF模型的中文分词技术、结合词典监督的命名实体识别方法、基于协同Bootstrapping算法的实体集合扩展方案,以及融合统计、规则与词典的关键要素提取机制。 展开更多
关键词 文本特征提取 中文分词 命名实体识别 BOOTSTRAPPING 自然语言处理
在线阅读 下载PDF
中医文本命名实体识别研究综述 被引量:2
15
作者 时倩如 李贺 +2 位作者 于雯倩 沈旺 张承坤 《现代情报》 北大核心 2025年第2期4-16,共13页
[目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次... [目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次面临的挑战;梳理中医文本NER语料构建中可用的术语标准、实体类型和标注原则与方法;归纳中医文本NER技术的一般框架、常用方法和近期趋势,并总结评估指标。[结果/结论]建议未来研究可从以下方向开展:在语料层面制定标注规范并构建高质量数据集,在算法层面探索针对小样本问题的数据优化、针对复杂实体的识别模型和增强模型解释性,以提高中医NER的效果。 展开更多
关键词 命名实体识别 中医 深度学习 自然语言处理 综述
在线阅读 下载PDF
基于BERT的多特征融合中文命名实体识别 被引量:2
16
作者 孙璐冰 康怡琳 +1 位作者 王俊 朱容波 《中南民族大学学报(自然科学版)》 CAS 2025年第1期68-74,共7页
针对中文命名实体识别往往需要引入外部知识获取深层语义信息,以及基于RNN结构的模型对空间特征提取效果不佳等问题,提出了基于BERT的多特征融合中文命名实体识别模型.通过BERT模型获取输入文本序列的深层次语义信息,利用MHSA模块和IDCN... 针对中文命名实体识别往往需要引入外部知识获取深层语义信息,以及基于RNN结构的模型对空间特征提取效果不佳等问题,提出了基于BERT的多特征融合中文命名实体识别模型.通过BERT模型获取输入文本序列的深层次语义信息,利用MHSA模块和IDCNN模块增强特征提取能力.前者利用相对位置编码和多头自注意力机制来捕获输入序列的隐藏特征,使模型能够考虑到字符间的距离方向信息;后者则可以对空间特征建模,获得输入序列的全局信息.通过将两个模块的输出特征进行连接,增强模型性能.实验结果表明:模型在MSRA、Resume和Weibo三个公共数据集上的F1值分别达到了95.12%、95.45%和66.14%,优于其它最新模型,验证了模型在中文命名实体识别上的有效性. 展开更多
关键词 自然语言处理 中文命名实体识别 BERT模型 迭代膨胀卷积神经网络 自注意力
在线阅读 下载PDF
基于深度学习模型的文化景观基因命名实体识别 被引量:1
17
作者 林洁如 胡最 《地球信息科学学报》 北大核心 2025年第1期207-225,共19页
【目的】针对当前传统聚落研究缺乏结合自然语言处理的原理与方法从海量文本数据中提取文化景观基因信息的相关探索,本文提出景观基因命名实体(Traditional Settlement Landscape Genes Named Entity,TSLGNE)的概念,并以邵阳市48个传统... 【目的】针对当前传统聚落研究缺乏结合自然语言处理的原理与方法从海量文本数据中提取文化景观基因信息的相关探索,本文提出景观基因命名实体(Traditional Settlement Landscape Genes Named Entity,TSLGNE)的概念,并以邵阳市48个传统村落为案例,采用BERT-BiLSTM-CRF深度学习模型开展TSLGNE的识别研究。【方法】首先,结合地理实体特征与文化景观基因理论及其分类体系,提出TSLGNE的概念、分类体系与知识表达方法。其次,基于TSLGNE的分类体系与扩展BIOES标注方法,对研究案例源文本数据进行语料标注,构建了相应的语料库。随后,基于BERT-BiLSTM-CRF深度学习模型识别并提取语料数据中的TSLGNE信息。最后,通过Neo4j图数据库对获取到的TSLGNE知识进行组织与储存,并基于此对区域传统聚落及其TSLGNE进行空间特征分析。【结果】本文模型能够有效识别文本数据中的建筑、环境、文化等12类景观基因实体信息,总体精确率、召回率、F1值相较对比模型均有提升。与BiLSTM-CRF、BERT-CRF模型相比,本模型的F1值分别提高11%与1%。特别地,本模型对于语料数据质量差且语义复杂的实体的识别效果有极大提升,如文化基因C3类实体识别的F1较对比模型分别提高了31%与5%。【结论】此方法能够有效地对区域复杂的传统聚落文化基因特征及其关系进行空间分析处理,对今后结合GIS和数据挖掘方法分析传统聚落的重要文化特征及传统聚落知识服务等具有较好的借鉴意义。 展开更多
关键词 传统聚落 文化景观基因 自然语言处理 命名实体识别 BERT预训练语言模型 Neo4j图数据库 知识图谱
原文传递
基于计算机视觉的手语识别与翻译研究综述 被引量:1
18
作者 李宇楠 耿熙 苗启广 《微电子学与计算机》 2025年第6期15-36,共22页
手语动作的复杂性和多样性显著增加了学习难度,在一定程度上阻碍了聋哑人士与健听人群之间的有效交流。随着计算机技术的发展,为了解决非手语者与聋哑人之间无法无障碍交流的问题,基于计算机视觉的手语识别与翻译技术应运而生。其中,手... 手语动作的复杂性和多样性显著增加了学习难度,在一定程度上阻碍了聋哑人士与健听人群之间的有效交流。随着计算机技术的发展,为了解决非手语者与聋哑人之间无法无障碍交流的问题,基于计算机视觉的手语识别与翻译技术应运而生。其中,手语识别是将手语视频所表达的一个或多个手语词逐个识别,并映射为对应的标注文本;手语翻译则是在其基础上进一步将手语标注序列转换为符合自然语言语序的句子。手语识别与翻译任务对输入的手语视频进行视觉特征提取并捕获其上下文信息最终以文本形式输出,是一种典型的跨学科研究。本文以手语识别与手语翻译两大任务作为论述线索,系统地介绍了手语识别及手语翻译两类任务的发展情况及相关的各种方法。对手语识别任务分别从孤立词手语识别与连续手语识别两个方面展开,根据各研究在特征提取、序列建模以及识别分类阶段所使用方法不同进行分类归纳并分析各自特点;对于手语翻译任务则根据是否使用手语标注(Gloss)文本作为媒介,分别介绍了Sign2Text与Sign2Gloss2Text两类方法的研究情况。其次,本文还归纳整理了当前主流的不同国家地区的手语识别与翻译数据集、相应的评价指标以及在主流数据集上的先进方法。此外,根据现有研究的优势与不足,从相邻手语动作粘连、视频序列与标注序列对应关系缺失以及多模态数据融合等方面总结手语识别与翻译任务中现存的问题,并对未来研究的发展方向进行展望。 展开更多
关键词 手语识别 手语翻译 计算机视觉 自然语言处理
在线阅读 下载PDF
基于EALMDA的医疗命名实体识别数据增强方法
19
作者 道路 刘纳 +2 位作者 郑国风 李晨 杨杰 《郑州大学学报(理学版)》 北大核心 2026年第1期43-50,共8页
医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合... 医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合命名实体识别数据增强(entity aware mask local mixup data augmentation,EALMDA)方法。首先,使用实体感知掩码通道提取关键元素并掩码非实体部分,以保留核心语义。其次,通过上下文实体相似度和k近邻两种采样策略的线性组合对掩码句子进行融合,保留核心语义的同时增加样本的多样性。最后,经序列线性化操作后,将句子输入生成的模型中得到增强样本。在NCBI-disease等五个主流医疗命名实体识别数据集上,模拟低资源场景与主流的数据增强基线方法进行对比实验,所提方法的性能相比基线方法有显著提升。 展开更多
关键词 数据增强 命名实体识别 自然语言处理 生成模型 Mixup
在线阅读 下载PDF
融合边界交互信息的命名实体识别方法
20
作者 何安康 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《广西师范大学学报(自然科学版)》 北大核心 2025年第3期1-11,共11页
命名实体识别是自然语言处理领域中的一项基本任务,旨在识别和分类文本中的命名实体。目前,基于跨度的方法在实体识别方面取得一定进展,但这些方法往往忽视了候选跨度的质量差异。针对该问题,本文提出一种融合边界交互信息的命名实体识... 命名实体识别是自然语言处理领域中的一项基本任务,旨在识别和分类文本中的命名实体。目前,基于跨度的方法在实体识别方面取得一定进展,但这些方法往往忽视了候选跨度的质量差异。针对该问题,本文提出一种融合边界交互信息的命名实体识别方法。该方法通过一个边界交互模块评估边界间的语义关联和交互强度,生成边界交互信息矩阵,用于识别边界间潜在的语义联系,引导模型识别和标记出高质量的候选跨度。此外,该方法集成多尺度空洞卷积模块,利用跨度之间的语义关系来减轻非实体噪声的影响。实验表明,本文方法在ACE2005中文数据集、ACE2005英文数据集和Weibo数据集上的F 1值分别达到89.78%、87.37%和72.10%,与基准模型相比分别提升0.67、0.95和0.69个百分点,验证了该方法对命名实体识别的有效性。 展开更多
关键词 自然语言处理 命名实体识别 信息抽取 边界交互
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部