期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于人机交互和隐马尔可夫模型时序分析的语言文本信息抽取研究
1
作者 王燕 赵建华 《自动化与仪器仪表》 2025年第2期24-27,共4页
为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交... 为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交互系统语音文本情感的分析。结果表明,使用二阶隐马尔可夫模型在测试集上进行切分,所得结果相较于使用一阶隐马尔可夫分词模型,更符合实际词义,且与人工分词结果相近;基于二阶隐马尔可夫模型分词结果进行的情感分析,总体准确率相较于基于一阶隐马尔可夫模型提高了1.26%,有效提高了模型的文本情感分析的性能;最终在社交文本数据集上,结合二阶隐马尔可夫分词模型与Bi_LSTM分类预测模型,总体准确率达到92.67%。由此得出,在人机交互的语音识别中,无论是在积极、消极还是中性的语音文本上,本模型对情感倾向的分类准确率都更高于使用一阶隐马尔可夫模型和其他模型,。由此得出,本语音文本抽取方法可用于人机交互中的信息抽取和情感分析。 展开更多
关键词 人机交互 隐马尔可夫模型 长短时网络 文本信息 情感分析
原文传递
面向煤矿安全隐患文本的预训练语言模型构建
2
作者 李泽荃 刘飞翔 +2 位作者 赵嘉良 祁慧 李靖 《矿业安全与环保》 北大核心 2025年第3期185-192,共8页
煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)... 煤矿各类安全管理信息化平台积累的大量非结构化文本数据目前并没有得到充分利用。为充分挖掘煤矿安全隐患文本知识,提出一种基于领域术语掩码语言建模(DP-MLM)和句子顺序预测建模(SOP)学习机制的煤矿安全领域预训练语言模型(CoalBERT)。利用收集到的110万余条煤矿隐患排查记录数据和自构建的1 328个领域术语词典进行模型训练,并在煤矿安全隐患文本分类和命名实体识别2个任务上分别进行对比实验。研究结果表明:在文本分类实验中,CoalBERT模型总体结果的精准率、召回率和综合评价指标F_(1)值较双向编码器表征法预训练模型(BERT)分别提高0.34%、0.21%、0.27%;在命名实体识别实验中,CoalBERT模型的精准率和F_(1)值较BERT模型分别提高3.84%、2.13%。CoalBERT模型能够有效提升煤矿安全隐患文本语义理解能力,可为煤矿安全领域文本挖掘相关任务场景提供基础参考。 展开更多
关键词 BERT模型 煤矿安全隐患文本 文本分类 命名实体识别 预训练模型 任务微调
在线阅读 下载PDF
基于改进LSTRNN的图文人工智能翻译研究
3
作者 苗艺丹 《自动化与仪器仪表》 2025年第5期218-221,226,共5页
对图文人工智能翻译进行研究,以商务英语教学为例,提出一种基于人名国籍分类的汉英人名翻译方法,对商务英语教学相关图文中的不同国籍人名进行中英翻译。首先,采用结合RNN+LSTM网络模型对图文中不同人名的国籍进行分类;然后,根据国籍分... 对图文人工智能翻译进行研究,以商务英语教学为例,提出一种基于人名国籍分类的汉英人名翻译方法,对商务英语教学相关图文中的不同国籍人名进行中英翻译。首先,采用结合RNN+LSTM网络模型对图文中不同人名的国籍进行分类;然后,根据国籍分类的结果,采用基于维特比算法的隐马尔可夫模型对人名进行中英翻译;最后,构建训练集和测试集对本文所提方法进行测试。测试结果表明提出的结合RNN+LSTM的图像人名国籍分类方法收敛速度快,对不同国家人名的国籍分类准确度高,最佳分类准确率达到92%;引入维特比算法的隐马尔可夫模型能更快达到最佳翻译准确率,且准确率和精确率都比标准隐马尔可夫模型更高,分别为91.25%与92.04%,翻译速度更快;对图文中人名的国籍进行分类,可以显著提升汉英人名翻译的翻译效果,国籍分类前测试平均精确率为92.01%,国籍分类后测试平均精确率为95.68%,提升了3.67%。 展开更多
关键词 图文人工智能翻译 RNN LSTM 维特比算法 隐马尔可夫
原文传递
A HMM-Based System To Diacritize Arabic Text
4
作者 M. S. Khorsheed 《Journal of Software Engineering and Applications》 2012年第12期124-127,共4页
The Arabic language comes under the category of Semitic languages with an entirely different sentence structure in terms of Natural Language Processing. In such languages, two different words may have identical spelli... The Arabic language comes under the category of Semitic languages with an entirely different sentence structure in terms of Natural Language Processing. In such languages, two different words may have identical spelling whereas their pronunciations and meanings are totally different. To remove this ambiguity, special marks are put above or below? the spelling characters to determine the correct pronunciation. These marks are called diacritics and the language that uses them is called a diacritized language. This paper presents a system for Arabic language diacritization using Hid- den Markov Models (HMMs). The system employs the renowned HMM Tool Kit? (HTK). Each single diacritic is represented as a separate model. The concatenation of output models is coupled with the input? character sequence to form the fully diacritized text. The performance of the proposed system is assessed using a data corpus that includes more than 24000 sentences. 展开更多
关键词 ARABIC hidden MARKOV MODELS text-TO-SPEECH Diacritization
暂未订购
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
5
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 Mathematical Expression EXTRACTION hidden MARKOV Model text FIELDS DOCUMENTS SYMBOL Combination Features
在线阅读 下载PDF
基于ERNIE-BiGRU-CRF模型的煤矿安全隐患命名实体智能识别研究 被引量:5
6
作者 刘飞翔 李泽荃 +1 位作者 赵嘉良 李靖 《煤炭工程》 北大核心 2024年第2期206-212,共7页
为充分挖掘煤矿安全隐患文本关键知识,帮助煤矿企业安全管理人员更好的开展隐患排查治理工作,提出一种基于预训练语言模型的命名实体识别方法。首先定义煤矿安全隐患实体类别,并采用BIO标注策略构建了7个实体类别和15个实体标签;然后将... 为充分挖掘煤矿安全隐患文本关键知识,帮助煤矿企业安全管理人员更好的开展隐患排查治理工作,提出一种基于预训练语言模型的命名实体识别方法。首先定义煤矿安全隐患实体类别,并采用BIO标注策略构建了7个实体类别和15个实体标签;然后将收集到的煤矿隐患排查数据进行预处理,由煤矿安全领域专家人工标注相关实体,得到1500条煤矿安全隐患命名实体标准数据集;最后采用ERNIE预训练模型对煤矿安全隐患文本词向量进行表征、同时利用BiGRU结构进行上下文语义特征提取以及CRF模型进行实体标签解码,完成煤矿安全隐患命名实体识别研究。实验结果表明:ERNIE-BiGRU-CRF模型在序列标注任务上的精确率、召回率和F1值分别为56.69%、69.23%和62.34%,较于BiLSTM-CRF基线模型分别提高了6.85%、13.74%和9.83%,并且实体抽取结果与实际标注结果相差不大。另外,消融实验也验证了BiGRU层能够更好的捕捉煤矿安全隐患文本上下文语义依赖关系以及CRF层能够进一步优化标签序列的有效性。 展开更多
关键词 煤矿安全隐患 ERNIE-BiGRU-CRF算法模型 命名实体识别 信息抽取
在线阅读 下载PDF
基于隐马尔可夫模型的半结构化文本信息抽取研究 被引量:1
7
作者 蒲治宇 《数字通信世界》 2024年第6期84-85,93,共3页
随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成... 随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成为了一个重要的研究领域,文章基于隐马尔科夫模型对半结构化文本信息的抽取进行研究。 展开更多
关键词 半结构化文本 信息抽取 隐马尔科夫模型
在线阅读 下载PDF
基于文本挖掘的煤矿安全隐患分析 被引量:25
8
作者 谭章禄 陈晓 +1 位作者 宋庆正 陈孝慈 《安全与环境学报》 CAS CSCD 北大核心 2017年第4期1262-1266,共5页
为充分有效利用煤矿安全隐患数据,揭示安全隐患数据中隐藏的重要信息和潜在规律,用于指导安全管理实践,在对安全隐患数据进行预处理的基础上,利用词云和词频统计方法展现安全隐患概况,运用文本挖掘技术和社会网络分析方法研究煤矿安全... 为充分有效利用煤矿安全隐患数据,揭示安全隐患数据中隐藏的重要信息和潜在规律,用于指导安全管理实践,在对安全隐患数据进行预处理的基础上,利用词云和词频统计方法展现安全隐患概况,运用文本挖掘技术和社会网络分析方法研究煤矿安全隐患信息的关联关系和分布规律。结果表明,将文本挖掘技术和社会网络分析方法应用于文本型安全隐患数据分析具有可行性,有助于煤矿企业提高对安全隐患数据的认知并制定合理的安全隐患治理措施。 展开更多
关键词 安全管理工程 煤矿隐患 文本挖掘 社会网络分析 关联关系
原文传递
基于隐主题分析的中文微博话题发现 被引量:19
9
作者 史剑虹 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2014年第3期700-704,共5页
针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁... 针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 展开更多
关键词 中文微博 话题发现 隐主题模型 文本聚类 频繁项集挖掘
在线阅读 下载PDF
煤矿安全隐患信息自动分类方法 被引量:11
10
作者 谢斌红 马非 +1 位作者 潘理虎 张英俊 《工矿自动化》 北大核心 2018年第10期10-14,共5页
人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预... 人工分类方式难以满足海量煤矿安全隐患信息的分类要求,而基于概率统计的文本自动分类方法分类准确率较低。针对上述问题,提出了一种基于Word2vec和卷积神经网络的煤矿安全隐患信息自动分类方法。首先对隐患信息进行分词、去停用词等预处理,然后应用Word2vec来表征词之间的语义相似性关系,最后利用卷积神经网络提取隐患信息的局部上下文高层特征,并使用Softmax分类器实现隐患信息的自动分类。实验结果表明,该方法实现了端到端的自动分类,可有效提升分类的准确性和全面性。 展开更多
关键词 煤矿安全 隐患信息自动分类 文本分类 卷积神经网络 Word2vec
在线阅读 下载PDF
基于隐马尔可夫模型的文本信息抽取 被引量:52
11
作者 刘云中 林亚平 陈治平 《系统仿真学报》 CAS CSCD 2004年第3期507-510,共4页
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐... 文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 文本分块 机器学习
在线阅读 下载PDF
基于网页上下文的Deep Web数据库分类 被引量:31
12
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 DEEP Web 隐式Web 数据库分类 内容文本抽取 语义分类
在线阅读 下载PDF
基于主动学习隐马尔可夫模型的文本信息抽取 被引量:3
13
作者 周顺先 林亚平 王耀南 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期74-77,共4页
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通... 对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量. 展开更多
关键词 主动学习 隐马尔可夫模型 文本信息抽取
在线阅读 下载PDF
文本信息挖掘技术及其在断路器全寿命状态评价中的应用 被引量:63
14
作者 邱剑 王慧芳 +3 位作者 应高亮 张波 邹国平 何奔腾 《电力系统自动化》 EI CSCD 北大核心 2016年第6期107-112,118,共7页
电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状... 电网企业记录了大量故障与缺陷中文文本,这些文本蕴藏了丰富的设备健康信息。但迄今为止,鲜有电力领域的文本信息挖掘技术研究。以断路器全寿命状态评价为应用研究背景,探索了电网中文文本挖掘方法。首先,根据断路器状态评价的研究现状,提出了构建文本挖掘与全寿命状态评价模型的关键问题。然后,构建了包含文本挖掘信息的全寿命状态评价模型,通过基于隐马尔可夫法(HMM)的文本预处理与向量化、自主区间搜索k最近邻(KNN)算法的文本分类和比率型状态信息融合模型完成了断路器全寿命健康状态指数的展示。最后,采用某电网公司实际缺陷文本构建算例。算例表明,文本挖掘技术实现了相似缺陷的相关性学习,比率型信息融合模型能更全面真实地展示健康状态评价的历史流。 展开更多
关键词 全寿命状态评价 检修消缺 断路器 文本挖掘 隐马尔可夫法(HMM) k最近邻(KNN)
在线阅读 下载PDF
基于文本聚类的煤矿安全隐患类型挖掘研究 被引量:10
15
作者 谭章禄 王兆刚 +2 位作者 胡翰 姜萱 彭胜男 《中国安全科学学报》 CAS CSCD 北大核心 2019年第3期145-148,共4页
为提升煤矿安全管理者对隐患数据的理解和处理能力,提高隐患排查治理工作水平,将文本聚类方法运用于煤矿企业历史安全隐患记录数据的挖掘分析,并采用卡方统计量提取与类别关联度高的特征词描述聚类结果,研究历史隐患数据中记录的主要隐... 为提升煤矿安全管理者对隐患数据的理解和处理能力,提高隐患排查治理工作水平,将文本聚类方法运用于煤矿企业历史安全隐患记录数据的挖掘分析,并采用卡方统计量提取与类别关联度高的特征词描述聚类结果,研究历史隐患数据中记录的主要隐患的类型及特点。结果表明:文本聚类与卡方统计相结合,能够有效识别煤矿安全隐患数据中记录的主要隐患类型及特点;隐患排查治理工作应以数量多的隐患类型作为排查侧重点,根据隐患类型的特点制定相应的治理措施,以改善隐患排查治理工作的针对性和有效性。 展开更多
关键词 煤矿 安全隐患 文本聚类 关联度 隐患类型
原文传递
伤痕文学的创伤记忆与性别政治 被引量:6
16
作者 马春花 《南京师范大学文学院学报》 CSSCI 北大核心 2019年第4期76-87,共12页
本文从性别范畴研究1980年代的伤痕文学思潮,意在探究伤痕文学如何藉性别表意创伤,以创伤来建构"新时期"历史意识的记忆政治。伤痕文学在女性表象与男性主体、历史见证者与受害者、叙述者与被叙述者、归来者与丧失者等叙述结... 本文从性别范畴研究1980年代的伤痕文学思潮,意在探究伤痕文学如何藉性别表意创伤,以创伤来建构"新时期"历史意识的记忆政治。伤痕文学在女性表象与男性主体、历史见证者与受害者、叙述者与被叙述者、归来者与丧失者等叙述结构上存在一个性别与政治之间的转换机制。借助自然化的性别与性别关系型构,伤痕作家在以创伤叙事重构性别、代际、阶层等权力秩序的同时,也呼应并落实了一个走向重生时代的"新时期"意识形态。对伤痕文学的女性主义解读,不仅将指出伤痕文学的新父权本质,也可能发现一个隐藏于"光明"文本之内的"阴性"文本,它偏离了通过再造女性/底层等他者来确证主体的创伤叙述规范,重新打开了那个单维与封闭的记忆空间。 展开更多
关键词 伤痕文学 创伤记忆 性别政治 隐藏的文本
在线阅读 下载PDF
HMM模型和句法分析相结合的事件属性信息抽取 被引量:10
17
作者 吴家皋 周凡坤 张雪英 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期30-34,共5页
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相... 自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率. 展开更多
关键词 自然语言处理 中文文本信息抽取 隐马尔科夫模型 句法分析 触发词
在线阅读 下载PDF
面向短文本的命名实体识别 被引量:18
18
作者 王丹 樊兴华 《计算机应用》 CSCD 北大核心 2009年第1期143-145,171,共4页
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不... 针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。 展开更多
关键词 短文本 隐马尔可夫模型 命名实体识别 拼音同指关系库 词性
在线阅读 下载PDF
基于文本分块的多模板隐马尔可夫模型的文本信息抽取 被引量:4
19
作者 王雷 陈治平 李志成 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期25-28,共4页
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模... 针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 展开更多
关键词 文本信息抽取 隐马尔可夫模型 多模板 文本分块
在线阅读 下载PDF
基于改进隐马尔可夫模型的文本分类研究 被引量:3
20
作者 李开荣 孔照昆 +1 位作者 陈桂香 朱俊武 《微电子学与计算机》 CSCD 北大核心 2012年第11期161-165,共5页
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中... 将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量. 展开更多
关键词 隐马尔可夫模型 文本分类 期望交叉熵(ECE) χ2统计 TF-IDF方法
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部