期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于文本相似度的智能查号引擎研究
1
作者
乔世权
戴继勇
《河北科技大学学报》
CAS
2018年第3期282-288,共7页
为了帮助电话人工客服座席提供不间断地、质量稳定的服务,有必要研发智能查号引擎。基于最长公共子序列算法和最长公共子元素序列算法的研究,提出了短文本相似度计算算法,以提高查号的准确性,并以此为基础,设计出智能查号搜索引擎系统...
为了帮助电话人工客服座席提供不间断地、质量稳定的服务,有必要研发智能查号引擎。基于最长公共子序列算法和最长公共子元素序列算法的研究,提出了短文本相似度计算算法,以提高查号的准确性,并以此为基础,设计出智能查号搜索引擎系统及其实现方法。考虑到实际需求,通过自然语言处理中的分词、简称替换、同义词替换、构建停用词表等,对数据进行预处理;通过基于HowNet和同义词词林的相似计算,完成进一步的数据处理;对外提供遵循REST规范的API接口。实验表明,智能查号引擎的设计可行,具有较好的业务处理能力,可满足用户需求;同时,也存在一些问题,有待于进一步的改进。智能查号引擎可以提供24h不间断服务,相对于人工服务,具有更高的查号效率和更稳定的高质服务,可为智能电话客服的发展提供借鉴。
展开更多
关键词
计算机信息管理系统
文本相似度
分词
停用词
同义词
查号引擎
在线阅读
下载PDF
职称材料
中文文本聚类常用停用词表对比研究
被引量:
59
2
作者
官琴
邓三鸿
王昊
《数据分析与知识发现》
CSSCI
CSCD
2017年第3期72-80,共9页
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用...
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
展开更多
关键词
文本聚类
停用词
K—means
原文传递
基于辅助集的专利主题分析领域停用词选取
被引量:
6
3
作者
俞琰
赵乃瑄
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第11期95-103,共9页
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]...
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。
展开更多
关键词
专利主题分析
领域停用词
辅助集
原文传递
专利文本主题建模中领域停用词自动选取研究
被引量:
4
4
作者
俞琰
赵乃瑄
《图书情报工作》
CSSCI
北大核心
2018年第11期120-126,共7页
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,...
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。
展开更多
关键词
专利文本
主题建模
领域停用词
自动选取
原文传递
题名
基于文本相似度的智能查号引擎研究
1
作者
乔世权
戴继勇
机构
河北科技大学信息科学与工程学院
中国航天科工集团有限公司第三研究院
出处
《河北科技大学学报》
CAS
2018年第3期282-288,共7页
基金
河北省科学技术研究与发展计划项目(14K50120D)
河北省教育厅青年基金(QN2014174)
文摘
为了帮助电话人工客服座席提供不间断地、质量稳定的服务,有必要研发智能查号引擎。基于最长公共子序列算法和最长公共子元素序列算法的研究,提出了短文本相似度计算算法,以提高查号的准确性,并以此为基础,设计出智能查号搜索引擎系统及其实现方法。考虑到实际需求,通过自然语言处理中的分词、简称替换、同义词替换、构建停用词表等,对数据进行预处理;通过基于HowNet和同义词词林的相似计算,完成进一步的数据处理;对外提供遵循REST规范的API接口。实验表明,智能查号引擎的设计可行,具有较好的业务处理能力,可满足用户需求;同时,也存在一些问题,有待于进一步的改进。智能查号引擎可以提供24h不间断服务,相对于人工服务,具有更高的查号效率和更稳定的高质服务,可为智能电话客服的发展提供借鉴。
关键词
计算机信息管理系统
文本相似度
分词
停用词
同义词
查号引擎
Keywords
computer information management system
text similarity
word segmentation
stopword
synonyms
phone numher checking engine
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文文本聚类常用停用词表对比研究
被引量:
59
2
作者
官琴
邓三鸿
王昊
机构
南京大学信息管理学院
江苏省数据工程与知识服务重点实验室
出处
《数据分析与知识发现》
CSSCI
CSCD
2017年第3期72-80,共9页
基金
中国地震局星火计划攻关项目"面向地震应急的空间智能决策方法研究"(项目编号:XH15019)
江苏省自然科学基金项目"面向专利预警的中文文本学习研究"(项目编号:BK20130587)的研究成果之一
文摘
【目的】通过实验对比分析,比较不同停用词表对于不同类型的文本数据的作用效果,对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表,基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理,并且采用Java编写的K-means算法进行聚类实验,通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显,词表的长度、内容结构是影响作用效果的直接因素,其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限,同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较,未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响,构建或选取适宜的中文停用词表极为重要。同时,过度增加停用词的数量并不会一直改善聚类结果。
关键词
文本聚类
停用词
K—means
Keywords
Text Clustering
stopword
List K-means
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于辅助集的专利主题分析领域停用词选取
被引量:
6
3
作者
俞琰
赵乃瑄
机构
南京工业大学信息服务部
东南大学成贤学院计算机工程系
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第11期95-103,共9页
基金
国家社会科学基金项目"大数据时代支持创新设计的多维度多层次专利文本挖掘研究"(项目编号:17BTQ059)的研究成果之一
文摘
[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。
关键词
专利主题分析
领域停用词
辅助集
Keywords
Patent Topic Analysis
Domain Specific
stopword
s
Auxiliary Set
分类号
G250 [文化科学—图书馆学]
原文传递
题名
专利文本主题建模中领域停用词自动选取研究
被引量:
4
4
作者
俞琰
赵乃瑄
机构
南京工业大学信息服务部
东南大学成贤学院电子与计算机学院
出处
《图书情报工作》
CSSCI
北大核心
2018年第11期120-126,共7页
基金
教育部人文社科规划项目项目“大数据时代技能知识图谱构建研究”(项目编号:16YJAZH073)
国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号:17BTQ059)研究成果之一
文摘
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。
关键词
专利文本
主题建模
领域停用词
自动选取
Keywords
patent text topic model domain-specific
stopword
automatic selection
分类号
G202 [文化科学—传播学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于文本相似度的智能查号引擎研究
乔世权
戴继勇
《河北科技大学学报》
CAS
2018
0
在线阅读
下载PDF
职称材料
2
中文文本聚类常用停用词表对比研究
官琴
邓三鸿
王昊
《数据分析与知识发现》
CSSCI
CSCD
2017
59
原文传递
3
基于辅助集的专利主题分析领域停用词选取
俞琰
赵乃瑄
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018
6
原文传递
4
专利文本主题建模中领域停用词自动选取研究
俞琰
赵乃瑄
《图书情报工作》
CSSCI
北大核心
2018
4
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部