Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used word...Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used words, but pays less attention to correcting these errors. In this paper, the Chinese text features are interpreted first and then a Chinese text proofreading method and its algorithm are introduced. In this algorithm, text features, including text statistical feature and language structure feature, are properly used. Here, correcting errors goes on at the same time with finding errors. Experimental results show that this method has a performance of detecting 75% of wrongly used Chinese words and correcting about 60% of them with the first candidates.展开更多
针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF...针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。展开更多
NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术...NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。展开更多
文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处...文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。展开更多
文摘Generally, text proofreading consists of two procedures, finding the wrongly used words and then presenting the correct forms. At present, most of the Chinese text proofreading focuses on finding the wrongly used words, but pays less attention to correcting these errors. In this paper, the Chinese text features are interpreted first and then a Chinese text proofreading method and its algorithm are introduced. In this algorithm, text features, including text statistical feature and language structure feature, are properly used. Here, correcting errors goes on at the same time with finding errors. Experimental results show that this method has a performance of detecting 75% of wrongly used Chinese words and correcting about 60% of them with the first candidates.
文摘针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。
文摘NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。
文摘文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。