期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
The Research of Chinese Text Proofreading Algorithm
1
作者 李建华 《High Technology Letters》 EI CAS 2000年第1期3-9,共7页
Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used word... Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used words, but pays less attention to correcting these errors. In this paper, the Chinese text features are interpreted first and then a Chinese text proofreading method and its algorithm are introduced. In this algorithm, text features, including text statistical feature and language structure feature, are properly used. Here, correcting errors goes on at the same time with finding errors. Experimental results show that this method has a performance of detecting 75% of wrongly used Chinese words and correcting about 60% of them with the first candidates. 展开更多
关键词 chinese words text proofreading algorithm
在线阅读 下载PDF
基于改进ADAM算法的变电站SCD文本分词方法
2
作者 郑翔 陈韶昱 +3 位作者 吴俊飞 阮黎翔 骆兆军 徐小俊 《微型电脑应用》 2025年第1期255-258,共4页
针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF... 针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。 展开更多
关键词 中文分词技术 ADAM算法 CNN-Bi-GRU-CRF 变电站SCD文本
在线阅读 下载PDF
中文文本校对技术的研究与实现 被引量:7
3
作者 陈笑蓉 秦进 +1 位作者 汪维家 陆汝占 《计算机科学》 CSCD 北大核心 2003年第11期53-55,共3页
文本自动校对工作的计算机化是说所有的校对工作应在计算机上自动完成;具体地说是计算机应在文字处理上增加专为校对服务的功能,主要是查(侦)错和改(纠)错.
关键词 中文文本 校对 技术
在线阅读 下载PDF
基于最大熵算法的全文检索研究 被引量:6
4
作者 张立岩 吕玲 王井阳 《河北科技大学学报》 CAS 北大核心 2009年第2期112-115,共4页
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问... 全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。 展开更多
关键词 全文检索 最大熵模型 分词
在线阅读 下载PDF
基于BERT和多特征融合嵌入的中文拼写检查 被引量:1
5
作者 刘哲 殷成凤 李天瑞 《计算机科学》 CSCD 北大核心 2023年第3期282-290,共9页
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符... 由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。 展开更多
关键词 中文拼写检查 BERT 文本校对 掩码语言模型 字词错误校对 预训练模型
在线阅读 下载PDF
中文分词算法概述 被引量:39
6
作者 龙树全 赵正文 唐华 《电脑知识与技术》 2009年第4期2605-2607,共3页
当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模... 当前搜索引擎技术被广泛地应用,这使得全文检索技术和中文分词技术的研究逐渐深入.中文分词是中文信息的关键技术之一.其质量高低直接影响中文信息处理效率。文章致力于研究中文分词算法,对多种中文分词算法、自动分词系统的理论模型进行了详细的阐述和讨论.为中文分词的进一步发展提供基础和方向。 展开更多
关键词 中文分词 全文检索 算法 搜索引擎 歧义切分
在线阅读 下载PDF
改进词向量和kNN的中文文本分类算法 被引量:12
7
作者 丁正生 马春洁 《现代电子技术》 2022年第1期100-103,共4页
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBO... 为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。 展开更多
关键词 中文文本分类 文本向量化 快速kNN算法 词向量 双通道CBOW模型 特征向量 数据分类
在线阅读 下载PDF
用AdaBooster算法实现中文文本分类问题
8
作者 火善栋 《现代计算机》 2016年第20期3-6,共4页
文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBo... 文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBooster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用AdaBooster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。 展开更多
关键词 中文文本分类 ADA Booster算法 中文分词 文档特征向量
在线阅读 下载PDF
基于深度学习和支持向量机的文本分类模型 被引量:8
9
作者 何铠 管有庆 龚锐 《计算机技术与发展》 2022年第7期22-27,共6页
NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术... NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。 展开更多
关键词 自然语言处理 词频算法 中文文本分类 权重预处理 词密度权重
在线阅读 下载PDF
一种基于权重预处理的中文文本分类算法 被引量:5
10
作者 何铠 管有庆 龚锐 《计算机技术与发展》 2022年第3期40-45,53,共7页
文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处... 文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。 展开更多
关键词 自然语言处理 词频算法 中文文本分类 权重预处理 词密度权重
在线阅读 下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
11
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(MMSEG)
在线阅读 下载PDF
一种改进的文本聚类算法
12
作者 李众 梁志剑 《陕西科技大学学报(自然科学版)》 2008年第6期163-166,共4页
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.
关键词 文本聚类 聚类算法 中文分词
在线阅读 下载PDF
基于朴素贝叶斯算法的微博垃圾信息自动识别系统
13
作者 崔凯雯 《移动信息》 2024年第6期291-294,共4页
贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采... 贝叶斯算法是一种利用数学概率来计算可能性的算法,被广泛用于各种分类器,其将所有事件都假设为相互独立的事件,从而降低算法难度。文中设计并实现了一种基于朴素贝叶斯算法的微博垃圾信息自动识别系统。该系统基于MyEclipse8.6工具,采用Java语言进行开发,首先使用爬虫程序对微博评论区内容进行抓取,并以txt格式保存评论区内容以备后续训练使用,随后采用MMAnalyzer算法进行中文文本分词,提取文本特征,最后使用朴素贝叶斯分类器进行分类。实验结果表明,基于朴素贝叶斯算法的分类器设计简单、使用方便且正确率较高,是一种具有良好前景的初级分类器。 展开更多
关键词 朴素贝叶斯算法 分类器 中文分词 文本分类
在线阅读 下载PDF
基于情感字典与连词结合的中文文本情感分类 被引量:17
14
作者 刘玉娇 琚生根 +1 位作者 伍少梅 苏翀 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第1期57-62,共6页
本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语.而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,... 本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语.而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别.实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果. 展开更多
关键词 中文文本情感 基准词 SO—PMI算法 情感字典 共现
原文传递
研究中文文本分类技术的辅助平台 被引量:2
15
作者 白若鹞 董渊 +1 位作者 张素琴 徐大伟 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第7期1150-1153,共4页
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确... 为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题。 展开更多
关键词 自动文本分类 中文分词 特征选择 分类算法
原文传递
自动标引中的歧义词消除方法研究 被引量:5
16
作者 王丹 杨晓蓉 《图书情报工作》 CSSCI 北大核心 2014年第5期93-97,共5页
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词... 针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。 展开更多
关键词 中文文本 自动标引 关键词提取 歧义词消除 算法研究
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部