期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
Research and Analysis of Grammatical Error Correction Technology for Chinese Documents
1
作者 Wei Jin Feng Jiang +2 位作者 Xiulai Wang Ningling Ma Yutao Zhang 《Journal of Computer and Communications》 2024年第8期202-223,共22页
With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial informati... With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial information grow, electronic documents have also proliferated. When dealing with numerous electronic documents and texts written by Chinese beginners, manually written texts often contain hidden grammatical errors, posing a significant challenge to traditional manual proofreading. Correcting these grammatical errors is crucial to ensure fluency and readability. However, certain special types of text grammar or logical errors can have a huge impact, and manually proofreading a large number of texts individually is clearly impractical. Consequently, research on text error correction techniques has garnered significant attention in recent years. The advent and advancement of deep learning have paved the way for sequence-to-sequence learning methods to be extensively applied to the task of text error correction. This paper presents a comprehensive analysis of Chinese text grammar error correction technology, elaborates on its current research status, discusses existing problems, proposes preliminary solutions, and conducts experiments using judicial documents as an example. The aim is to provide a feasible research approach for Chinese text error correction technology. 展开更多
关键词 Chinese text error Judicial Documents Neural Network Deep Learning TRANSFORMER
在线阅读 下载PDF
从留学生话头偏误看汉语语篇规则 被引量:1
2
作者 朱钰麒 熊文新 《汉语学习》 北大核心 2025年第4期81-92,共12页
文章以小句复合体理论为指导,对400篇留学生作文中的话头偏误及其发展进行量化分析。研究发现:(1)话头偏误可分为话头多余与话头缺失。随着留学生汉语水平的提高,话头多余显著减少,话头缺失则无改善。(2)话头缺失可分为缺头句误用为分... 文章以小句复合体理论为指导,对400篇留学生作文中的话头偏误及其发展进行量化分析。研究发现:(1)话头偏误可分为话头多余与话头缺失。随着留学生汉语水平的提高,话头多余显著减少,话头缺失则无改善。(2)话头缺失可分为缺头句误用为分支话身、缺头句误用为新支话身、缺头句穿越标点句发生共享、缺头句未发生共享。(3)留学生较难习得的汉语语篇规则有兼顾成分共享关系和紧密逻辑语义关系、话头构成组块数应不大于四个、遵循成分共享机制,以及标点句的NT小句应具有论元完整性。本研究为国际中文教育语篇教学提供了新的视角,相关结论有助于促进留学生对汉语句子的理解,提高写作能力。 展开更多
关键词 留学生 小句复合体 话头偏误 语篇规则 成分共享
原文传递
面向多源文本的越南语文本检错方法
3
作者 庄紫薇 朱俊国 《计算机工程》 北大核心 2025年第5期93-102,共10页
文本检错是自然语言处理的研究方向之一,目标是自动检测输入文本中错误单词的位置和类型,该任务不仅在文本处理的各种下游环节中应用广泛,而且关系到日常生活中方方面面。目前,针对英文、中文的文本检错模型已经能够达到较高的准确率,然... 文本检错是自然语言处理的研究方向之一,目标是自动检测输入文本中错误单词的位置和类型,该任务不仅在文本处理的各种下游环节中应用广泛,而且关系到日常生活中方方面面。目前,针对英文、中文的文本检错模型已经能够达到较高的准确率,然而,因越南语语料资源稀缺、人工标注数据不足,面向越南语的文本检错任务深受训练样本匮乏和低质量的困扰。此外,还存在不同场景来源的文本包含错误类型不同,以及错误类型数量不均衡的情况,导致通用文本检错模型无法学习到特定错误类型的检测方法,检错能力较弱。基于上述问题,首先,提出一种面向多源文本的越南语文本检错语料库构建方法,利用越南语光学字符识别(OCR)、越南语语音识别和越南语-英语翻译数据集构建初始语料库,并根据多源越南语检错语料生成方法得到错误语料,通过检错语料自动标注算法获得带标签的训练数据。其次,提出融入多源信息特征的越南语文本检错序列标注模型,在多语言来自变换器的双向编码器表征量(BERT)编码端融入场景特征,使模型能够根据当前输入文本场景适应错误类型。实验结果表明,该方法相比基线模型,F0.5值和F1值提升了1.91和1.80百分点,并进一步验证了模型各组件的必要性以及数据集构建方法的有效性。 展开更多
关键词 自然语言处理 机器学习 深度学习 文本检错 越南语
在线阅读 下载PDF
基于改进Seq2Seq的翻译机器人错误文本自动化检测系统
4
作者 李发娟 《电子设计工程》 2025年第8期174-177,182,共5页
为适应不同语言、不同领域和不同风格的错误文本检测任务,提升系统的适应性和泛化能力,设计基于改进Seq2Seq的翻译机器人错误文本自动化检测系统。通过使用预训练语言模型与GloVe词向量技术,将源语言文本转换为向量表示;编码器通过双向... 为适应不同语言、不同领域和不同风格的错误文本检测任务,提升系统的适应性和泛化能力,设计基于改进Seq2Seq的翻译机器人错误文本自动化检测系统。通过使用预训练语言模型与GloVe词向量技术,将源语言文本转换为向量表示;编码器通过双向长短期记忆网络,自动提取文本特征;解码器在多层长短期记忆网络引入权值分配策略,并结合文本特征,预测文本的错误类别标签;分类模块通过Softmax分类器自动化输出各标签的概率,以最大概率对应的错误类别为检测结果。实验证明,该系统可有效提取待检测翻译机器人源语言文本的特征,并预测错误类别标签;成功将汉明损失值从0.015降低到0.002,提升翻译机器人错误文本自动化检测精度,实现了翻译机器人错误文本的自动化检测。 展开更多
关键词 改进Seq2Seq 翻译机器人 错误文本 自动化检测 长短期记忆网络 Softmax分类器
在线阅读 下载PDF
ERNIE和序列标注结合的中文文本检错纠错 被引量:1
5
作者 左壮壮 王法玉 陈洪涛 《天津理工大学学报》 2025年第1期83-89,共7页
针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局... 针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型中,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。 展开更多
关键词 中文文本检错纠错 基于知识增强的自然语言表示模型 序列标注 双向长短期记忆网络 条件随机场 多策略纠错
在线阅读 下载PDF
我国数字经济政策文本主题挖掘及其空间效应研究
6
作者 徐慧超 赵彦云 《信息资源管理学报》 2025年第5期51-65,共15页
数字经济政策是政府支持数字经济发展的体现之一,对政策特征的挖掘有助于明确政策实施效果。结合数字经济特征,依托数字经济产业链视角,基于2017—2022年我国468条数字经济综合性政策,应用文本分析方法、网络分析方法和空间计量模型进... 数字经济政策是政府支持数字经济发展的体现之一,对政策特征的挖掘有助于明确政策实施效果。结合数字经济特征,依托数字经济产业链视角,基于2017—2022年我国468条数字经济综合性政策,应用文本分析方法、网络分析方法和空间计量模型进行实证分析。结果发现,我国数字经济政策分为人才培养、企业及园区发展、服务平台、技术发展、产业融合发展、申报与评定、管理与规划、奖励与补助八类。整体上,数字经济政策显著促进本地区及邻近地区的数字经济发展,人才培养类和技术发展类数字经济政策表现出显著正外部性,企业及园区发展类、服务平台类、技术发展类、奖励与补助类、管理与规划类数字经济政策均表现出明显的数字经济推动效应。数字经济政策数量对数字经济发展具有长线影响作用,而数字经济政策力度对于数字经济发展的影响则具有当期显著性。 展开更多
关键词 数字经济政策 LDA主题模型 社会网络分析 文本分析 空间误差模型
在线阅读 下载PDF
《乐纬》文本的整理及运用探析
7
作者 李若楠 《保山学院学报》 2025年第6期93-99,共7页
目前对《乐纬》的研究多以安居香山、中村璋八的《纬书集成》作为底本,但该书存在两大问题,一是有很多不属于《乐纬》的条目被收录,二是误置了许多本不属于特定篇目的内容于该篇之中,故《乐纬》有重新整理的必要。在重新整理时,除了将... 目前对《乐纬》的研究多以安居香山、中村璋八的《纬书集成》作为底本,但该书存在两大问题,一是有很多不属于《乐纬》的条目被收录,二是误置了许多本不属于特定篇目的内容于该篇之中,故《乐纬》有重新整理的必要。在重新整理时,除了将上述两种错误纠正之外,还应该进行条目缀合、疏证等工作,以此为《乐纬》研究提供一个完善的本子。 展开更多
关键词 《乐纬》 辑佚 错误 体例
在线阅读 下载PDF
基于文本纠错模型的时空数据标准化文档生成研究
8
作者 刘满义 牛坤 《地理空间信息》 2025年第11期7-11,69,共6页
为提高时空数据文档成果的生成效率和质量,降低工作成本,针对特定的调查工作,提出了Textual-Feature BERT文本纠错模型;设计了时空数据标准化文档生成算法,通过自定义的数据抽取规则对属性数据进行智能化抽取,对空间数据成果图件进行自... 为提高时空数据文档成果的生成效率和质量,降低工作成本,针对特定的调查工作,提出了Textual-Feature BERT文本纠错模型;设计了时空数据标准化文档生成算法,通过自定义的数据抽取规则对属性数据进行智能化抽取,对空间数据成果图件进行自动编制,实现快速、便捷生成文档成果的目标。该算法已应用于地理国情监测、自然灾害综合风险普查、“两违”遥感监测等项目中,错别字纠错正确率达95%以上、文本缺失填充正确率可达93%。结果表明,该算法具有一定的应用价值,且可应用于类似项目中。 展开更多
关键词 文本纠错模型 GIS动态匹配制图 时空数据 标准化工具
在线阅读 下载PDF
《经律异相》异文(14-15卷)考辨
9
作者 刘晓兴 《汉字汉语研究》 2025年第1期107-116,F0003,共11页
我国现存最早的佛教类书《经律异相》在流传的过程中,不同版本产生了大量的异文。为了更好地恢复该书原貌,本文结合版本证据、所引佛经以及各类语言学知识,对卷14-15的七条异文进行甄辨。依据成因,可将异文分为两类:其一,异文为形讹字,... 我国现存最早的佛教类书《经律异相》在流传的过程中,不同版本产生了大量的异文。为了更好地恢复该书原貌,本文结合版本证据、所引佛经以及各类语言学知识,对卷14-15的七条异文进行甄辨。依据成因,可将异文分为两类:其一,异文为形讹字,如“引”误作“别”“利”,“苦”误作“若”,“设”误作“没”,“次”误作“欲”,“亦”误作“工”。其二,异文为同义词,如“转易”误作“博易”,“坚系”误作“紧系”。 展开更多
关键词 类书 异文 形讹字 同义词
在线阅读 下载PDF
基于鲁棒零水印的半结构化电力数据追踪
10
作者 赵磊 邹云峰 +3 位作者 徐超 马玉龙 沈文 杨仪馨 《电力信息与通信技术》 2025年第1期60-67,共8页
电力数据在线上渠道对外分享过程中,可能存在数据泄露的风险,因此需要对泄露数据进行有效溯源。文章提出一种基于鲁棒零水印的半结构化电力数据追踪方法,通过嵌入不改变原始数据的零水印,在数据发生局部变动情况下仍可对泄露数据进行追... 电力数据在线上渠道对外分享过程中,可能存在数据泄露的风险,因此需要对泄露数据进行有效溯源。文章提出一种基于鲁棒零水印的半结构化电力数据追踪方法,通过嵌入不改变原始数据的零水印,在数据发生局部变动情况下仍可对泄露数据进行追踪。首先,提取出半结构化电力数据部分键值对生成特征序列,作为零水印的载体;其次,将特征序列和水印本体处理成相同数量的块;然后,结合抹除码和冗余纠错码理论,通过一个转移矩阵得到中间序列,并使用纠错码对其进行编码;最后,将纠错编码后的水印信息嵌入特征序列,生成电力数据的鲁棒零水印。在追踪过程中,通过提取与分析被追踪数据的鲁棒零水印,可以有效识别和定位数据的异动。实验和仿真验证证明该方法在保证数据安全性的同时,零水印提取成功率达98%以上。文章提出的方法对于电力系统的数据监测和异动追踪具有重要的应用价值。 展开更多
关键词 鲁棒零水印 数据安全 半结构化数据 文本水印 纠错编码 电力数据保护
在线阅读 下载PDF
考虑相似度的语料库文本解译误差校正仿真
11
作者 周永英 薛阿亮 《计算机仿真》 2025年第2期553-557,共5页
高度文化特定含义的词汇或表达方式复杂,导致语料库文本解译误差暴露概率增加,由此,提出了基于相似度的语料库文本解译误差自动校正。按照选择话题建立样本语料库,提取出关键词,利用文本特征和相似性阈值,计算特征词权重,获得语义特征... 高度文化特定含义的词汇或表达方式复杂,导致语料库文本解译误差暴露概率增加,由此,提出了基于相似度的语料库文本解译误差自动校正。按照选择话题建立样本语料库,提取出关键词,利用文本特征和相似性阈值,计算特征词权重,获得语义特征相似性。应用K-近邻算法标记文本特征,计算并优化解译误差概率,识别出文本解译误差;将注意力函数变换成输出矢量,挖掘序列文本解译信息,获得数据的最大似然度,通过自动化对比与校正,实现文本解译误差自动校正。仿真结果表明,文本解译误差自动校正后,解译准确性较高,优化了解译质量,促进跨语言沟通。 展开更多
关键词 语料库 语义相似度 文本解译 自注意力机制 误差校正
在线阅读 下载PDF
基于数据挖掘算法的汉语合成韵律参数预测方法 被引量:9
12
作者 王玮 蔡莲红 《声学学报》 EI CSCD 北大核心 2003年第1期1-6,共6页
韵律模块是语音合成系统中的重要组成部分,韵律特征参数的描述正确与否直接影响合成系统的输出,针对目前语音合成系统中缺乏对前后音节的韵律参数之间关系的有效描述,提出一种新的韵律参数预测方法——数据挖掘技术来发现音节韵律参数... 韵律模块是语音合成系统中的重要组成部分,韵律特征参数的描述正确与否直接影响合成系统的输出,针对目前语音合成系统中缺乏对前后音节的韵律参数之间关系的有效描述,提出一种新的韵律参数预测方法——数据挖掘技术来发现音节韵律参数之间的相互关系,通过其中的关联规则模型对这些关系进行描述,并基于关联发现算法获得汉语韵律参数中基频参数和时长参数的变化规则,研究表明这些规则可以较好地为多样本拼接合成系统的选音提供帮助和指导。 展开更多
关键词 数据挖掘 算法 汉语合成 韵律参数 预测方法 语音合成 韵律模块 关联规则模型
原文传递
GM(1,1)模型预测农业用水量及节水灌溉形式 被引量:3
13
作者 刘淑慧 程伍群 +2 位作者 高芬 宋少刚 康国芳 《节水灌溉》 北大核心 2007年第8期14-16,共3页
应用灰色理论建立了GM(1,1)模型,对坝上地区农业用水量及在不同节水灌溉措施下的灌溉面积进行了预测。对所建模型进行残差检验、关联度检验、均方差检验和小误差概率检验,精度均满足要求,证明该模型具有可行性和适应性,可以用来预测。... 应用灰色理论建立了GM(1,1)模型,对坝上地区农业用水量及在不同节水灌溉措施下的灌溉面积进行了预测。对所建模型进行残差检验、关联度检验、均方差检验和小误差概率检验,精度均满足要求,证明该模型具有可行性和适应性,可以用来预测。预测结果为研究区域今后的节水灌溉发展提供了依据,可以有效地指导今后该地区的节水灌溉。 展开更多
关键词 农业用水量 节水灌溉面积 预测 灰色模型 残差检验
在线阅读 下载PDF
基于错误分析理论的大学英语写作教学新探 被引量:32
14
作者 郭晓华 欧阳菁 《外国语文》 CSSCI 北大核心 2010年第2期137-140,共4页
以英语专业四级(TEM4)考试写作部分成绩为参照,用错误分析理论为指导,对学生课堂写作训练进行实证研究,分析英语专业学生写作文本的错误类型、严重程度及其对英语写作的影响,探讨学生对错误的感知能力和写作思维能力的培养,验证错误分... 以英语专业四级(TEM4)考试写作部分成绩为参照,用错误分析理论为指导,对学生课堂写作训练进行实证研究,分析英语专业学生写作文本的错误类型、严重程度及其对英语写作的影响,探讨学生对错误的感知能力和写作思维能力的培养,验证错误分析理论指导下大学生英语写作教学的有效性,从中获得对英语写作教学的启示。 展开更多
关键词 错误分析理论 文本错误 写作教学 启示
在线阅读 下载PDF
基于TBL算法的汉语韵律词预测 被引量:6
15
作者 陈龙 杨鸿武 蔡莲红 《西北师范大学学报(自然科学版)》 CAS 2008年第1期47-51,共5页
提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律... 提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度. 展开更多
关键词 韵律词 语法词 TBL算法 文语转换
在线阅读 下载PDF
基于语篇衔接连贯理论的大学英语写作错误分析 被引量:7
16
作者 池丽霞 王晶晶 《北京工业职业技术学院学报》 2009年第4期82-85,114,共5页
衔接与连贯是语篇分析中的两个重要因素。以篇章衔接连贯理论为基础,从篇章衔接和整体连贯两大方面对学生英语写作进行错误分析,以期对写作教学有一定的借鉴作用。
关键词 错误分析 语篇衔接连贯理论 英语写作教学
在线阅读 下载PDF
基于随机森林的文本分类模型研究 被引量:61
17
作者 张华伟 王明文 甘丽新 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期5-9,共5页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reute... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5,KNN,SM0,SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN,SMO和SVM方法相当. 展开更多
关键词 文本分类 随机森林 决策树 泛化误差
在线阅读 下载PDF
中文文本自动校对 被引量:23
18
作者 张磊 周明 +1 位作者 黄昌宁 潘海华 《语言文字应用》 CSSCI 北大核心 2001年第1期19-26,共8页
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对... 本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。 展开更多
关键词 中文文本自动校对 拼写检查 自然语言处理
原文传递
基于层次化修正框架的文本纠错模型 被引量:9
19
作者 叶俊民 罗达雄 陈曙 《电子学报》 EI CAS CSCD 北大核心 2021年第2期401-407,共7页
文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,... 文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模得到文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率. 展开更多
关键词 文本纠错 预训练模型 层次化修正框架 深度学习
在线阅读 下载PDF
面向政治新闻领域的中文文本校对方法研究 被引量:12
20
作者 张仰森 唐安杰 张泽伟 《中文信息学报》 CSCD 北大核心 2014年第6期79-84,128,共7页
政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差... 政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。 展开更多
关键词 政治新闻 文本校对 查错模型
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部