基于逐步优化分类模型的跨领域文本情感分类被引量：3

Cross-domain Sentiment Classification Based on Optimizing Classification Model Progressively

下载PDF

导出

摘要跨领域文本情感分类已成为自然语言处理领域的一个研究热点。针对传统主动学习不能利用领域间的相关信息以及词袋模型不能过滤与情感分类无关的词语,提出了一种基于逐步优化分类模型的跨领域文本情感分类方法。首先选择源领域和目标领域的公共情感词作为特征,在源领域上训练分类模型,再对目标领域进行初始类别标注,选择高置信度的文本作为分类模型的初始种子样本。为了加快目标领域的分类模型的优化速度,在每次迭代时,选取低置信度的文本供专家标注,将标注的结果与高置信度文本共同加入训练集,再根据情感词典、评价词搭配抽取规则以及辅助特征词从训练集中动态抽取特征集。实验结果表明,该方法不仅有效地改善了跨领域情感分类效果,而且在一定程度上降低了人工标注样本的代价。 Cross-domain sentiment classification has attracted more attention in natural language processing field. Given that tradition active learning can＇ t make use of the public information between domains and the bag of words model can＇t filter these words not related with sentiment classification, a method of cross-domain sentiment classification based on optimizing classification model progressively was proposed. Firstly, this paper selected the public sentiment words as features to train classification model on the labeled source domain, then used the classification model to predict the initial category label for target domain and selected the texts with high confidence value as initial seed texts of the learning model. Secondly, we added the high confidence text and low confidence text to the training set at each iteration. Finally, the feature set was extracted to transform feature space based on the sentimental dictionary, evaluation colloca- tion rules and assist feature words, The experimental results indicate that this method can not only improve the accuracy of cross domain sentiment classification effectively, but also reduce the manual annotation price to some extent.

作者张军王素格

机构地区山西大学计算机与信息技术学院山西大学计算智能与中文信息处理教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2016年第7期234-239,共6页 Computer Science

基金国家自然科学基金资助项目(61175067 61272095 60875040) 国家"八六三"高技术研究发展计划基金项目(2015AA015407) 山西省科技攻关项目(20110321027-02) 山西省回国留学人员科研项目(2013-014) 山西省科技基础条件平台建设项目(2015091001-0102)资助

关键词情感分类跨领域分类模型特征抽取置信度 Sentiment classification, Cross domain, Classification model, Feature extraction, Confidence

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王素格,李德玉,魏英杰.基于赋权粗糙隶属度的文本情感分类方法[J].计算机研究与发展,2011,48(5):855-861. 被引量：20
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：558
3车万翔,张梅山,刘挺.基于主动学习的中文依存句法分析[J].中文信息学报,2012,26(2):18-22. 被引量：10
4张玉红,周全,胡学钢.面向跨领域情感分类的特征选择方法[J].模式识别与人工智能,2013,26(11):1068-1072. 被引量：3
5魏现辉,张绍武,杨亮,林鸿飞.基于加权SimRank的跨领域文本情感倾向性分析[J].模式识别与人工智能,2013,26(11):1004-1009. 被引量：12
6赵传君,王素格,李德玉,李欣.基于分组提升集成的跨领域文本情感分类[J].计算机研究与发展,2015,52(3):629-638. 被引量：12
7徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：432

二级参考文献98

1陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：329
3林传鼎,无.社会主义心理学中的情绪问题——在中国社会心理学研究会成立大会上的报告(摘要)[J].社会心理科学,2006,21(1):37-37. 被引量：15
4毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
5谭松波.中文情感挖掘语料--chnsenticorp[EB/OL].[2010-05-01].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm.
6Yang Y, Pedersen J O. A comparative study on feature selection in text categorization [C] //Proc of the 14th Int Conf on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1997:412-420.
7Pang B, Lee L, Vaithyanathan S. Thumbs up? sentiment classification using machine learning techniques [C] //Proc of the Conf on Empirical Methods in Natural Language Processing (EMNLP). Philadelphia, PA~ Association for Computaional Linguistics, 2002:79-86.
8Wang Suge, Wei Yingjie, Li Deyu, et al. A hybrid method of feature selection for Chinese text sentiment classification[C] //Proc of the 4th Int Conf on Fuzzy Systems and Knowledge Discovery. Los Alamitos, CA: IEEE Computer Society, 2007:435-439.
9Tan Songbo, Zhang Jin. An empirical study of sentiment analysis for Chinese documents [J]. Expert Systems with Application, 2008, 34(4):2622-2629.
10Turney P D, Littman M L. Measuring praise and criticism: inference of semantic orientation from association[J]. ACM Trans on Information Systems, 2003, 21 (4) : 315-346.

共引文献993

1武瑞娟,李佩毓,李研.线上消费者负面评论中贴图数量对评论有用性影响效应研究——一项基于负面评论的研究[J].管理评论,2022,34(12):157-172. 被引量：8
2张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：40
3刘昊.情感视域下社交媒体平台舆论分层与社群挖掘研究[J].中国网络传播研究,2018(2). 被引量：1
4夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
5包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：8
6王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
7王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：29
8郭庆,贾郭军.基于tree LSTM的旅游评论情感分析方法研究[J].计算机应用研究,2020,37(S02):63-65. 被引量：7
9刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
10徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：3

同被引文献22

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：329
2唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：139
3徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：110
4周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11):2725-2728. 被引量：76
5宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究[J].中文信息学报,2010,24(1):89-93. 被引量：34
6那日萨,刘影,李媛.消费者网络评论的情感模糊计算与产品推荐研究[J].广西师范大学学报（自然科学版）,2010,28(1):143-146. 被引量：6
7刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：128
8王文,王树锋,李洪华.基于文本语义和表情倾向的微博情感分析方法[J].南京理工大学学报,2014,38(6):733-738. 被引量：23
9李会星,史宪杰,梁雨荣,何蕾,陈明易,王宏光,吕少诚,王学栋,孟翔飞.计算机辅助规划系统在肝门部胆管癌手术规划中的应用价值[J].中华医学杂志,2015,95(6):412-415. 被引量：6
10刘建伟,崔立鹏,刘泽宇,罗雄麟.正则化稀疏模型[J].计算机学报,2015,38(7):1307-1325. 被引量：71

引证文献3

1李燕,卫志华,徐凯.基于Lasso算法的中文情感混合特征选择方法研究[J].计算机科学,2018,45(1):39-46. 被引量：9
2卢水英.探究人工智能在文本情感分析中的具体应用[J].信息系统工程,2019,32(8):145-145. 被引量：2
3金玉.基于自然语言处理的日语计算机辅助教学系统设计[J].自动化技术与应用,2021,40(10):52-55. 被引量：2

二级引证文献13

1王根生,黄学坚,吴小芳,胡向亮.基于改进信息增益特征选择法的SVM中文情感分类算法[J].成都理工大学学报（自然科学版）,2019,46(1):105-110. 被引量：5
2谭勇,谢林柏,冯宏伟,温子腾.基于LASSO回归的红外火焰探测器的设计与实现[J].激光与红外,2019,49(6):720-724. 被引量：9
3管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术,2019,42(21):182-186. 被引量：1
4万志超,胡峰,邓维斌.面向不平衡文本情感分类的三支决策特征选择方法[J].计算机应用,2019,39(11):3127-3133. 被引量：4
5郑纯军,王春立,贾宁.语音任务下声学特征提取综述[J].计算机科学,2020,47(5):110-119. 被引量：15
6张学锋,陈雪瑞.乒乓球挥拍动作识别方法研究[J].重庆工商大学学报（自然科学版）,2021,38(1):62-69. 被引量：8
7于卫红.我国航海教育研究热点近二十年之变迁——基于知网论文的文本分析[J].航海教育研究,2021,38(2):49-56. 被引量：1
8徐济惠,颜晨阳.一种基于黏液菌觅食机制的特征选择算法及其在文本情感识别中的应用[J].南京理工大学学报,2021,45(5):596-605. 被引量：2
9曾劲松.人工智能在文本情感分析中的应用探究[J].计算机与数字工程,2021,49(12):2606-2610.
10秦洋,郑楠昱.基于大数据的热点话题舆情分析系统设计[J].无线互联科技,2022,19(2):49-50. 被引量：3

1徐娟,张超,黄大卫,吴小培,王营冠.基于运动目标分类的监控视频检索系统[J].工业控制计算机,2015,28(7):115-116.
2陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6
3李杰,王小伟.基于作者主题模型的遥感图像自动类别标注方法[J].计算机应用与软件,2013,30(10):263-265. 被引量：3
4屈军.基于增量的贝叶斯算法在网页文本中的应用[J].赤峰学院学报（自然科学版）,2013,29(13):23-24.
5刘树锟,莫正杰,吴沛林.基于C#语言的程序合约动态抽取工具[J].福建电脑,2013(2):15-16.
6高华,王雅琴.动态抽取试题的计算机考试模型[J].山东科技大学学报（自然科学版）,2000,19(3):97-99.
7尹木,肖铮.词性标注与动词细分类研究[J].电脑知识与技术,2009,5(8X):6774-6776. 被引量：1
8赵华,邓攀,张建伟.基于关联词对动态抽取的报道关系检测技术研究[J].计算机科学,2010,37(6):237-239. 被引量：2
9黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
10华秀丽,徐凡,王中卿,李培峰.细粒度科技论文摘要句子分类方法[J].计算机工程,2012,38(14):138-140. 被引量：3

计算机科学

2016年第7期

浏览历史

内容加载中请稍等...

基于逐步优化分类模型的跨领域文本情感分类被引量：3

参考文献7

二级参考文献98

共引文献993

同被引文献22

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于逐步优化分类模型的跨领域文本情感分类 被引量：3

参考文献7

二级参考文献98

共引文献993

同被引文献22

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于逐步优化分类模型的跨领域文本情感分类被引量：3