期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
Graph-based Lexicalized Reordering Models for Statistical Machine Translation
1
作者 SU Jinsong LIU Yang +1 位作者 LIU Qun DONG Huailin 《China Communications》 SCIE CSCD 2014年第5期71-82,共12页
Lexicalized reordering models are very important components of phrasebased translation systems.By examining the reordering relationships between adjacent phrases,conventional methods learn these models from the word a... Lexicalized reordering models are very important components of phrasebased translation systems.By examining the reordering relationships between adjacent phrases,conventional methods learn these models from the word aligned bilingual corpus,while ignoring the effect of the number of adjacent bilingual phrases.In this paper,we propose a method to take the number of adjacent phrases into account for better estimation of reordering models.Instead of just checking whether there is one phrase adjacent to a given phrase,our method firstly uses a compact structure named reordering graph to represent all phrase segmentations of a parallel sentence,then the effect of the adjacent phrase number can be quantified in a forward-backward fashion,and finally incorporated into the estimation of reordering models.Experimental results on the NIST Chinese-English and WMT French-Spanish data sets show that our approach significantly outperforms the baseline method. 展开更多
关键词 natural language processing statistical machine translation lexicalized reordering model reordering graph
在线阅读 下载PDF
中文文本适读性评估特征体系研究——基于语言认知的可解释性视角 被引量:1
2
作者 杨丽姣 徐会丹 宋培彦 《语言文字应用》 北大核心 2025年第1期100-113,共14页
在国际中文教育数字化应用快速发展的背景下,阅读材料量化分析与智能评估的需求日益增长。本研究基于《国际中文教育中文水平等级标准》的等级框架,融合语料库方法与自然语言处理技术,从语言认知的可解释性出发,设计并构建了一种适用于... 在国际中文教育数字化应用快速发展的背景下,阅读材料量化分析与智能评估的需求日益增长。本研究基于《国际中文教育中文水平等级标准》的等级框架,融合语料库方法与自然语言处理技术,从语言认知的可解释性出发,设计并构建了一种适用于国际中文教育领域的文本适读性评估特征体系,系统剖析了多维度语言特征与学习者词汇语义认知、文本理解之间的内在联系,为中文文本适读性评估的理论与实践提供了新视角。为进一步探究特征体系的科学性与实用价值,本研究构建了大规模基础资源库,验证了词语抽象度、构式密度等特征在文本适读性评估中的关键作用,发现汉语文化词等特征的适用性及局限性。在此基础上,本课题团队研发了中文文本适读性智能评估系统(ACTR)。该系统提升了国际中文教育领域文本自动定级的精细度与准确性,有助于中文阅读资源的高质量评估、建设与优化。 展开更多
关键词 文本适读性 特征体系 认知可解释性 语料库方法 自然语言处理技术
原文传递
A Survey on Enhancing Image Captioning with Advanced Strategies and Techniques
3
作者 Alaa Thobhani Beiji Zou +4 位作者 Xiaoyan Kui Amr Abdussalam Muhammad Asim Sajid Shah Mohammed ELAffendi 《Computer Modeling in Engineering & Sciences》 2025年第3期2247-2280,共34页
Image captioning has seen significant research efforts over the last decade.The goal is to generate meaningful semantic sentences that describe visual content depicted in photographs and are syntactically accurate.Man... Image captioning has seen significant research efforts over the last decade.The goal is to generate meaningful semantic sentences that describe visual content depicted in photographs and are syntactically accurate.Many real-world applications rely on image captioning,such as helping people with visual impairments to see their surroundings.To formulate a coherent and relevant textual description,computer vision techniques are utilized to comprehend the visual content within an image,followed by natural language processing methods.Numerous approaches and models have been developed to deal with this multifaceted problem.Several models prove to be stateof-the-art solutions in this field.This work offers an exclusive perspective emphasizing the most critical strategies and techniques for enhancing image caption generation.Rather than reviewing all previous image captioning work,we analyze various techniques that significantly improve image caption generation and achieve significant performance improvements,including encompassing image captioning with visual attention methods,exploring semantic information types in captions,and employing multi-caption generation techniques.Further,advancements such as neural architecture search,few-shot learning,multi-phase learning,and cross-modal embedding within image caption networks are examined for their transformative effects.The comprehensive quantitative analysis conducted in this study identifies cutting-edgemethodologies and sheds light on their profound impact,driving forward the forefront of image captioning technology. 展开更多
关键词 Image captioning semantic attention multi-caption natural language processing visual attention methods
在线阅读 下载PDF
基于内部评价法的建筑施工坍塌事故致因体系的分层聚类研究
4
作者 李珏 孟娟 潘悦 《土木工程与管理学报》 2025年第4期48-55,100,共9页
研究针对中国建筑施工坍塌事故的复杂致因体系,通过分析2018—2024年203份调查报告,运用文本挖掘与自然语言处理技术,将数据划分为直接原因、间接原因、追责人员、防范措施四类。采用向量化方法构建1023维向量空间,结合分层聚类及轮廓... 研究针对中国建筑施工坍塌事故的复杂致因体系,通过分析2018—2024年203份调查报告,运用文本挖掘与自然语言处理技术,将数据划分为直接原因、间接原因、追责人员、防范措施四类。采用向量化方法构建1023维向量空间,结合分层聚类及轮廓系数、加利福特-哈拉巴斯指数和戴维森堡丁指数确定最优聚类结构,并利用扎根理论解析安全因素关联性。结果表明:二级指标间无线性相关性,而一级指标存在共现可能。其中直接原因“安全意识淡薄”(DirCau1)与防范措施“完善管理体系,强化责任落实与安全监督”(PreRec1)呈现显著统计关联,当事故直接原因为DirCau1时,对应整改措施为PreRec1的概率最高。研究结果为事故初步评估提供了快速且精准的方法论支持,加速了应急响应流程的启动,并为建筑安全管理提供了参考。 展开更多
关键词 坍塌事故 自然语言处理 分层聚类 内部评价法 线性相关性 致因体系
在线阅读 下载PDF
大语言模型在统计学中的应用与展望
5
作者 尹楠 朱英明 《统计与决策》 北大核心 2025年第24期35-40,共6页
文章旨在探讨大语言模型(LLMs)在统计学中的应用前景,以解决传统统计方法在处理非结构化文本数据时的局限性。通过文献综述与案例分析,系统梳理了LLMs与统计学的内在联系及影响机制,构建了基于统计学的大语言模型框架,并分析了其在数据... 文章旨在探讨大语言模型(LLMs)在统计学中的应用前景,以解决传统统计方法在处理非结构化文本数据时的局限性。通过文献综述与案例分析,系统梳理了LLMs与统计学的内在联系及影响机制,构建了基于统计学的大语言模型框架,并分析了其在数据预处理、特征提取、模型训练、预测优化等环节的应用优势。采用理论推演与实证结合的方法,揭示了LLMs通过自动化特征提取、跨模态数据处理、时序分析等提升统计建模效率与准确性的路径。结果表明,LLMs不仅拓展了统计学的应用边界,还通过与深度学习、贝叶斯推断等技术的融合,推动了统计推断、异常检测、决策支持等领域的革新。未来,随着模型规模的优化及与跨学科技术的结合,LLMs有望在提升模型可解释性、降低计算成本、增强鲁棒性等方面取得突破,进一步释放数据驱动决策的价值,为统计学在人工智能领域的发展注入新动能。 展开更多
关键词 大语言模型 统计学 自然语言处理 人工智能
原文传递
自然语言处理技术方法研究进展与发展趋势综述 被引量:4
6
作者 卫宣伶 孙翔 《中阿科技论坛(中英文)》 2025年第5期84-88,共5页
自然语言处理(NLP)作为实现人机语义交互的核心技术,其方法体系经历了从统计学习到深度学习,再到预训练范式的演进,持续推动认知智能系统的发展。文章系统地梳理了自然语言处理技术的三重演进阶段:从统计方法奠定语言建模理论基础,到深... 自然语言处理(NLP)作为实现人机语义交互的核心技术,其方法体系经历了从统计学习到深度学习,再到预训练范式的演进,持续推动认知智能系统的发展。文章系统地梳理了自然语言处理技术的三重演进阶段:从统计方法奠定语言建模理论基础,到深度学习方法在语义表示学习方面取得突破性进展,再到预训练范式通过自监督学习实现跨任务知识迁移,揭示了各阶段的代际差异,特别剖析了当前面临的模型鲁棒性、语义边界问题以及模型参数量大等关键挑战。针对发展需求提出了提升模型鲁棒性、提高模型语义理解和推理能力以及开发高效轻量级NLP模型的新路径等重点研究方向,为后续理论探索和技术实践提供重要参考依据。 展开更多
关键词 自然语言处理 预训练语言模型 统计学习 深度学习 深层语义推理
在线阅读 下载PDF
生成式对话的差异感知对比学习方法
7
作者 王成瑞 陈宏申 +3 位作者 蔡恒毅 李天浩 徐夙龙 赵晓芳 《高技术通讯》 北大核心 2025年第11期1163-1173,共11页
对比学习作为一种有效的微调方法得到了广泛应用,然而,其中的数据增强技术仍面临一些挑战。由于自然语言的离散性,传统数据增强方法可能引起语义的显著变化;同时,模型可能对表面特征过度敏感,而忽略关键的语义差异。为应对这些问题,本... 对比学习作为一种有效的微调方法得到了广泛应用,然而,其中的数据增强技术仍面临一些挑战。由于自然语言的离散性,传统数据增强方法可能引起语义的显著变化;同时,模型可能对表面特征过度敏感,而忽略关键的语义差异。为应对这些问题,本文提出了一种差异感知的对比学习方法。该方法通过等价对比增强使模型能够对语义等价的增强数据保持不敏感,同时使用非等价差异判别器来捕获增强样本中的语义变化,进而让模型对潜在的非等价增强数据保持敏感。在2个开放域对话数据集上的实验结果表明,采用本文方法进行微调的模型与之前微调方法的基线模型相比在量化评估和人工测评上性能均取得了显著提升。同时本文进行了消融实验,实验结果验证了本文方法中不同模块的有效性。 展开更多
关键词 自然语言处理 开放域对话系统 对比学习 差异感知方法 预训练模型
在线阅读 下载PDF
医院病历自查数据统计分析及对策
8
作者 张浩钟 侯毅翰 《中国卫生标准管理》 2025年第8期15-19,共5页
目的 了解厦门市各医院病历质量书写情况,针对统计数据所暴露出的问题,提出相应对策,提升病历书写质量。方法 收集厦门市设有住院病房的39家医院通过自查的形式检查2023年1—9月的住院病历,得出自查数据。厦门市病案管理质量控制中心统... 目的 了解厦门市各医院病历质量书写情况,针对统计数据所暴露出的问题,提出相应对策,提升病历书写质量。方法 收集厦门市设有住院病房的39家医院通过自查的形式检查2023年1—9月的住院病历,得出自查数据。厦门市病案管理质量控制中心统计、汇总数据,找出缺陷,分析原因。结果 (1)不合理复制病历发生率随季度增长,第3季度达到27.12%,不满足低于25%的要求。部分电子病历存在模板化、过度引用问题。(2)手术相关记录完整率达到了93%的要求,3个季度涨幅不大,部分病历手术期病程记录不完整。(3)植入物相关记录符合率虽满足> 90%要求,但呈下降趋势,部分病历植入物存在模糊问题。(4)知情同意书规范签署率3季度都高于97%,部分病历缺少必要身份证复印件。结论 医院应提高电子病历书写质量,组织相关技能培训,提升责任意识。加强编码规范制度,落实医师查房制度,提升病历内涵质量。 展开更多
关键词 电子病历 数据统计 病案质量 病历书写 自然语言处理 病历质控
暂未订购
自然语言处理下通信网络数据自动检索方法
9
作者 陈亚峰 《长江信息通信》 2025年第6期191-193,共3页
通信网络数据中包含了大量的文本信息,这些非结构化数据具有复杂性和多样性,难以通过简单的关键词搜索准确提取有价值的信息。为此,研究自然语言处理下通信网络数据自动检索方法。设计并构建通信网络数据索引结构,该结构利用Kibana系统... 通信网络数据中包含了大量的文本信息,这些非结构化数据具有复杂性和多样性,难以通过简单的关键词搜索准确提取有价值的信息。为此,研究自然语言处理下通信网络数据自动检索方法。设计并构建通信网络数据索引结构,该结构利用Kibana系统和B树式结构,进行索引的实时更新和数据同步。针对通信网络数据中的大量文本信息,利用自然语言处理技术提取关键词。在建立了数据索引结构和提取了关键词之后,计算关键词在索引结构内的匹配度,并根据匹配度的计算结果,将最相关的数据项排在前面,以便用户能够快速找到所需信息。实验结果表明,该通信网络数据检索方法在NDCG值和查全率上均具有较高值,表现出显著优势,证明了其在通信网络数据检索中的高准确性和全面性。 展开更多
关键词 自然语言处理 通信网络数据 数据检索 自动检索 检索方法
在线阅读 下载PDF
基于最大熵的隐马尔可夫模型文本信息抽取 被引量:49
10
作者 林亚平 刘云中 +2 位作者 周顺先 陈治平 蔡立军 《电子学报》 EI CAS CSCD 北大核心 2005年第2期236-240,共5页
文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学... 文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学习上的技术基础 ,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数 ,实现文本信息抽取 .实验结果表明 ,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能 . 展开更多
关键词 人工智能 文本信息抽取 隐马尔可夫模型 最大熵
在线阅读 下载PDF
统计词义消歧的研究进展 被引量:28
11
作者 卢志茂 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2006年第2期333-343,共11页
本文参考大量的文献资料,分析了当前国内外统计词义消歧研究中采用的多种方法和技术,指出了统计词义消歧研究的关键问题,并围绕关键问题阐述了统计词义消歧的研究进展,探讨了研究中存在的问题和未来研究的重点.
关键词 统计词义消歧 自然语言处理 综述
在线阅读 下载PDF
基于K-最近距离的自动文本分类的研究 被引量:13
12
作者 孙健 王伟 钟义信 《北京邮电大学学报》 EI CAS CSCD 北大核心 2001年第1期42-46,共5页
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文... 提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文本的测试结果表明 。 展开更多
关键词 自然语言理解 向量空间模型 K-最近距离 自动文本分类
在线阅读 下载PDF
基于统计模型的词语搭配自动获取方法的分析与比较 被引量:11
13
作者 全昌勤 刘辉 何婷婷 《计算机应用研究》 CSCD 北大核心 2005年第9期55-57,共3页
对搭配的定义及搭配在自然语言处理中的应用作了介绍,着重分析了目前广泛使用的基于统计模型的词语搭配自动获取方法,并对衡量搭配强度的六种统计指标进行了详细的分析和比较。
关键词 自然语言处理 词语搭配 统计模型
在线阅读 下载PDF
稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究 被引量:11
14
作者 李强 王强 +1 位作者 肖桐 朱靖波 《计算机学报》 EI CSCD 北大核心 2017年第4期925-938,共14页
该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中... 该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨. 展开更多
关键词 自然语言处理 统计机器翻译 外国语翻译 中间语言 语料构建
在线阅读 下载PDF
自动文摘系统评价方法的研究与实践 被引量:8
15
作者 沈洲 王永成 +1 位作者 许一震 方澈 《情报学报》 CSSCI 北大核心 2001年第1期66-72,共7页
自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了... 自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了当前国内外自动文摘的评价方法 。 展开更多
关键词 自然语言处理 自动文摘系统 评价方法 内部评价方法 外部评价方法
在线阅读 下载PDF
语言信息处理技术中的最大熵模型方法 被引量:10
16
作者 李素建 刘群 +1 位作者 张志勇 程学旗 《计算机科学》 CSCD 北大核心 2002年第7期108-110,共3页
1引言 进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等.这些自然语言中的问题都可以形式化为分类问题,估计某一类y在上下文x中发生的概率,即p(y,x).在汉语中上下文x的内容可以包括汉字、词、词性等,对于不同的任... 1引言 进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等.这些自然语言中的问题都可以形式化为分类问题,估计某一类y在上下文x中发生的概率,即p(y,x).在汉语中上下文x的内容可以包括汉字、词、词性等,对于不同的任务上下文的内容也不同.这类问题可以采用统计建模的方法去处理. 展开更多
关键词 语言信息处理 最大熵模型 汉语信息处理 自然语言处理 语义分析
在线阅读 下载PDF
基于深度学习的中文标准文献语言模型 被引量:11
17
作者 李抵非 田地 胡雄伟 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第2期596-599,共4页
为解决中文标准文献的自然语言处理问题,对Hierarchical Log-Bilinear英文统计语言模型算法进行了改进,构建了适用于中文语言的模型。采用深度神经网络技术,将无监督学习与有监督学习相结合,利用多层受限玻尔兹曼机训练文本词向量,并将... 为解决中文标准文献的自然语言处理问题,对Hierarchical Log-Bilinear英文统计语言模型算法进行了改进,构建了适用于中文语言的模型。采用深度神经网络技术,将无监督学习与有监督学习相结合,利用多层受限玻尔兹曼机训练文本词向量,并将训练好的词向量输入到前馈神经网络进行有监督训练,完成对中文标准文献内容的机器学习。对100多万条标准题录数据进行训练的实验结果表明,该方法能有效提高语言模型的学习能力。 展开更多
关键词 人工智能 自然语言处理 统计语言模型 深度神经网络 受限玻尔兹曼机 词向量表示
在线阅读 下载PDF
基于代码库和特征匹配的函数名称推荐方法 被引量:7
18
作者 高原 刘辉 +1 位作者 樊孝忠 牛振东 《软件学报》 EI CSCD 北大核心 2015年第12期3062-3074,共13页
函数名称质量的高低,对于理解和维护程序非常重要.然而对于软件开发人员,尤其是母语非英语的软件开发人员,为函数选取高质量的名称比较困难.为此,提出一种函数名称推荐方法.首先,基于开源软件创建函数库;然后,对于某个需要推荐名称的函... 函数名称质量的高低,对于理解和维护程序非常重要.然而对于软件开发人员,尤其是母语非英语的软件开发人员,为函数选取高质量的名称比较困难.为此,提出一种函数名称推荐方法.首先,基于开源软件创建函数库;然后,对于某个需要推荐名称的函数f,从函数库中检索与其相似的函数.对检索返回的相似函数用自然语言处理工具对函数名进行解析并获取标注词条,然后,从相应的函数体中提取特征代码并与相应的标注词条建立关联.基于此关联关系以及函数f的特征,自动推荐合适的函数名.该方法在开源项的1 430个函数中进行了初步验证,结果表明:有22.7%的推荐结果与原函数名完全一致,有57.9%的推荐结果与原函数名关键词一致或基本一致. 展开更多
关键词 函数名称 推荐 特征选择 算法 自然语言处理
在线阅读 下载PDF
面向口语翻译的双语语块自动识别 被引量:3
19
作者 程葳 赵军 +1 位作者 刘非凡 徐波 《计算机学报》 EI CSCD 北大核心 2004年第8期1016-1020,共5页
语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语... 语块识别是实现“基于语块处理方法”的基础 .目前 ,针对单语语块的研究成果已有很多 ,但机器翻译更需要双语相关的语块分析 .该文根据口语翻译的实际需要 ,提出了“双语语块”的概念 .并在此基础上 ,实现了一种针对并行语料库进行双语语块自动识别的新方法 .该方法将统计和规则相结合 ,可同时保证双语语块的语义特性和句法规范 .通过在一个 6万句的旅馆预定领域口语语料库中的实验可以看出 ,该方法对汉英并行语料的双语语块识别正确率可达到 80 %左右 . 展开更多
关键词 语块 语块分析 语料库 口语翻译
在线阅读 下载PDF
基于最大熵方法的统计语言模型 被引量:4
20
作者 徐延勇 郭忠伟 周献中 《计算机工程与应用》 CSCD 北大核心 2002年第5期53-55,121,共4页
针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;... 针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;在特征选择阶段,采用计算近似增益的平行算法,解决模型计算量过大和系统开销问题。将该模型用于汉语句子分析的软件实验中表明:模型具有较高的计算效率和鲁棒性。 展开更多
关键词 自然语言处理 统计语言模型 最大熵方法 鲁棒性 计算机
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部