一种面向短文本分类的基于词嵌技术的改进模型的设计

A Improved Word Embedding Technology Design for Short Text Classification

下载PDF

导出

摘要由于短文本存在的特征稀疏的问题,所以导致了大多在长文本上能够取得优秀效果的算法在短文本上都不能取得很好的效果。基于前人在词向量嵌入技术上的研究提出改进方案,并从词向量的角度去扩充短文本的特征,意在缓解短文本特征稀疏的问题,在原始的短文本词向量的基础上引入主题向量,使得短文本得到了语义层面的特征扩充。并且基于短文本上下文内容较少的特点,选用了特征抽取能力很强的卷积神经网络作为最终的分类器。最终通过实验证明,该分类方案的分类效果较其他目前的研究成果有所提高。 Most of classification algorithms which can achieve excellent results in long texts can not achieve the satisfied result in short texts, because short text can not provide enough features for classification. This paper proposes an improvement scheme based on previous work on word embedding to enrich short texts, which is intented to solve the feature sparseness problem. Besides, this paper employes topic vector to improve the feature of short texts, which means the semantic features of short texts are extended. Finally, the CNN（convolutional neural network）, the feature extraction capability is very strong, is employed as the classifier for short text classification. On an open short text classification dataset, we compared the proposed framework with other baselines, and experimental results validate the effectiveness of our method.

作者赵芃孙宝山

机构地区天津工业大学计算机科学与软件学院

出处《仪器仪表用户》 2017年第12期1-5,共5页 Instrumentation

关键词主题模型词嵌入短文本分类卷积神经网络 topic model word embedding short text classification convolutional neural network

分类号 TP183 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1李济任.这样的课文不学也罢——例谈小学语文教材之过[J].教学月刊（小学版）（语文）,2017(1):96-99.
2谢玉凯,卢桂馥.基于L1范数的特征提取算法研究[J].兰州文理学院学报（自然科学版）,2017,31(5):83-88. 被引量：2
3王伟.警惕随性教学尊奉文体特征——以《语言的演变》为例[J].语文教学之友,2017,36(10):17-18.
4邓淑卿,徐健.我国情报学研究主题内容分析[J].情报科学,2017,35(11):83-88. 被引量：15
5刘慧婷,郭孝雪,程雷,赵鹏.基于降噪关系正则化的微博用户标签推荐[J].模式识别与人工智能,2017,30(10):907-916. 被引量：4
6吉余岗,李依桐,石川.融合异质网络与主题模型的方面分预测[J].计算机应用,2017,37(11):3201-3206. 被引量：22
7王燕鹏.基于文献计量的主题模型研究进展分析[J].科学观察,2017,12(5):9-20. 被引量：3
8朱国琴.紧扣文体特征取舍教学价值——就《望月》谈教学价值取舍[J].科学大众（智慧教育）,2017(10):77-77.
9李慧,胡云凤.基于动态情感主题模型的在线评论分析[J].数据分析与知识发现,2017,1(9):74-82. 被引量：11
10杨建玫,娄钰.电开SWIFT信用证英文本疑难问题的解读方法[J].对外经贸实务,2017(10):68-71. 被引量：3

仪器仪表用户

2017年第12期

浏览历史

内容加载中请稍等...

一种面向短文本分类的基于词嵌技术的改进模型的设计

相关作者

相关机构

相关主题

浏览历史