期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于文本相似度的智能查号引擎研究
1
作者 乔世权 戴继勇 《河北科技大学学报》 CAS 2018年第3期282-288,共7页
为了帮助电话人工客服座席提供不间断地、质量稳定的服务,有必要研发智能查号引擎。基于最长公共子序列算法和最长公共子元素序列算法的研究,提出了短文本相似度计算算法,以提高查号的准确性,并以此为基础,设计出智能查号搜索引擎系统... 为了帮助电话人工客服座席提供不间断地、质量稳定的服务,有必要研发智能查号引擎。基于最长公共子序列算法和最长公共子元素序列算法的研究,提出了短文本相似度计算算法,以提高查号的准确性,并以此为基础,设计出智能查号搜索引擎系统及其实现方法。考虑到实际需求,通过自然语言处理中的分词、简称替换、同义词替换、构建停用词表等,对数据进行预处理;通过基于HowNet和同义词词林的相似计算,完成进一步的数据处理;对外提供遵循REST规范的API接口。实验表明,智能查号引擎的设计可行,具有较好的业务处理能力,可满足用户需求;同时,也存在一些问题,有待于进一步的改进。智能查号引擎可以提供24h不间断服务,相对于人工服务,具有更高的查号效率和更稳定的高质服务,可为智能电话客服的发展提供借鉴。 展开更多
关键词 计算机信息管理系统 文本相似度 分词 停用词 同义词 查号引擎
在线阅读 下载PDF
中文文本聚类常用停用词表对比研究 被引量:59
2
作者 官琴 邓三鸿 王昊 《数据分析与知识发现》 CSSCI CSCD 2017年第3期72-80,共9页
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用... 【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。 展开更多
关键词 文本聚类 停用词 K—means
原文传递
基于辅助集的专利主题分析领域停用词选取 被引量:6
3
作者 俞琰 赵乃瑄 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第11期95-103,共9页
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]... [目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。 展开更多
关键词 专利主题分析 领域停用词 辅助集
原文传递
专利文本主题建模中领域停用词自动选取研究 被引量:4
4
作者 俞琰 赵乃瑄 《图书情报工作》 CSSCI 北大核心 2018年第11期120-126,共7页
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,... [目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。 展开更多
关键词 专利文本 主题建模 领域停用词 自动选取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部