基于Huffman-LDA和Weight-Word2vec的文本表示模型研究被引量：5

Text Representation Model Based on Huffman-LDA and Weight-Word2vec

下载PDF

导出

摘要 LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 LDA is to model the global structure of theme-to-document;but its features lack the relationship between the local words within the document;so only sparse features can be obtained.Word2vec is a word embedding model based on context prediction of target words.However,based on this method,document features can only be represented by local information,lacking global information.The mixed model of LDA and Word2vec is to calculate the new feature representation text based on topic vector and document vector,but the distance between the sparse theme feature is directly calculated and the document feature based on word vector is not consistent with the feature.In this paper,the text representation model of Huffman-LDA and Weight-Word2vec algorithm is proposed.Firstly,the topic huffman tree is constructed after the topic vector is obtained by using LDA model;and then the topic vector is updated by using gradient rise method.The new topic vector contains the relationship between different subject words,and the obtained feature is no longer sparse.Then,the LDA topic vector and the topic property of words in the topic matrix are used to calculate the word weight and update the word vector of Word2vec;so that the word vector contains the relationship between the subject words and then represents the document vector.Finally,the text representation with strong classification features is obtained through the Euclidean distance of subject vector and document vector.Experimental results show that the proposed method can obtain stronger text representation features and improve the accuracy of document classification.

作者黄春雨胡迪邱宁佳孙爽滋 HUANG Chun-yu;HU Di;QIU Ning-jia;SUN Shuang-zi(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022)

机构地区长春理工大学计算机科学技术学院

出处《长春理工大学学报（自然科学版）》 2020年第1期89-96,132,共9页 Journal of Changchun University of Science and Technology(Natural Science Edition)

基金吉林省重大科技招标项目(20170203004GX)。

关键词主题模型词嵌入文本表示 Huffman-LDA Weight-Word2vec topic model word embedded text representation Huffman-LDA Weight-Word2vec

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1殷宏威,赵伟,杨志伟.蚁群算法在KNN文本分类中的应用[J].长春理工大学学报（自然科学版）,2010,33(1):159-163. 被引量：2
2孙佳伟,李正华,陈文亮,张民.基于词模式嵌入的词语上下位关系分类[J].北京大学学报（自然科学版）,2019,55(1):1-7. 被引量：12
3胡瑞娟,李岩芳,何昀.基于关联规则算法的医疗数据挖掘[J].长春理工大学学报（自然科学版）,2009,32(2):282-284. 被引量：8
4夏修臣,王秀英.基于余弦相似度的改进C4.5决策树算法[J].计算机工程与设计,2018,39(1):120-125. 被引量：17
5崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：86

二级参考文献23

1张彩虹,王春才,颜雁.医保决策支持系统中的聚类算法[J].长春理工大学学报（自然科学版）,2004,27(4):41-43. 被引量：2
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
3刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
4郝晓燕,常晓明.中文文本分类研究[J].太原理工大学学报,2006,37(6):710-713. 被引量：6
5牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
6景永霞,王治和,杜跃.一种新的Apriori改进算法[J].长春理工大学学报（自然科学版）,2007,30(2):67-69. 被引量：4
7王艳春,秦刚,陈毓.数据挖掘在医保系统中的应用[J].长春理工大学学报（自然科学版）,2007,30(2):70-72. 被引量：4
8Kantardzic M. Data Mining Concept,Models ,Methods and Algorithms[J].IEEE Press, 2002.
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1109
10姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50

共引文献120

1吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：2
2韩祥民,刘晓波,徐邦贤,邱知,唐辉.基于CEEMD与GWO-SVM算法的配电网高阻接地故障选线方法[J].智能计算机与应用,2021,11(12):143-148. 被引量：2
3秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,21(31):9422-9426. 被引量：17
4蔡永铭,谷凌雁.基于社交网络监测药品不良反应[J].医学信息学杂志,2014,35(4):52-54. 被引量：1
5汪少敏,杨迪,任华.基于深度学习的文本分类系统关键技术研究与模型验证[J].电信科学,2018,34(12):117-124. 被引量：11
6冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：15
7武建军,罗文龙.基于SVM的热点话题跟踪实现过程研究[J].信息安全与技术,2016,7(3):21-23.
8李优柱,李崇光,李谷成.我国蔬菜价格预警系统研究[J].农业技术经济,2014(7):79-88. 被引量：21
9王风平.医院信息管理系统基于C/S结构与医保系统的对接应用[J].中国电子商务,2014(14):31-31. 被引量：1
10于飞,李红莲,吕学强.基于支持向量机的文本分类技术[J].无线互联科技,2014,11(8):185-186.

同被引文献44

1张英杰,冷伏海.基于案例的科学前沿探测方法比较研究[J].图书情报工作,2012,56(20):42-46. 被引量：12
2李巧明,王晓光.跨学科视角下数字人文研究中心的组织与运作[J].数字图书馆论坛,2013(3):26-31. 被引量：27
3胡吉明,陈果.基于动态LDA主题模型的内容主题挖掘与演化[J].图书情报工作,2014,58(2):138-142. 被引量：87
4牛力,曾静怡,刘丁君.数字记忆视角下档案创新开发利用“PDU”模型探析[J].档案学通讯,2019(1):65-72. 被引量：46
5王昊,邓三鸿,苏新宁.中文短文本自动分类中的汉字特征优化研究[J].情报理论与实践,2015,38(6):121-127. 被引量：4
6杨国立,刘竟,汪满容,卢章平.欧美图书馆学博士学位论文研究主题图谱分析[J].中国图书馆学报,2015,41(4):96-111. 被引量：11
7高胜寒,赵宇翔,朱庆华.国内外数字人文领域研究进展分析[J].图书馆杂志,2016,35(10):9-18. 被引量：64
8夏翠娟,张磊.关联数据在家谱数字人文服务中的应用[J].图书馆杂志,2016,35(10):26-34. 被引量：83
9柯平,宫平.数字人文研究演化路径与热点领域分析[J].中国图书馆学报,2016,42(6):13-30. 被引量：191
10陈磊,李俊.基于LF-LDA和Word2vec的文本表示模型研究[J].电子技术（上海）,2017,46(7):1-5. 被引量：5

引证文献5

1宋尚文,卢超,阎红灿.DT和SVM分类器在情感极性分析中的应用[J].新一代信息技术,2020,3(8):17-23.
2李晚莲,田俊钦.国际数字人文领域研究前沿探测与发展趋势分析:基于词嵌入和主题建模技术[J].高校图书馆工作,2021,41(3):22-28. 被引量：3
3宋尚文,卢超,阎红灿.基于DT和SVM分类器的中文文本情感极性分析[J].新一代信息技术,2021,4(8):17-23.
4陈茜月.概念、逻辑与普适模型:数字时代档案信息文本表示研究[J].山西档案,2022(6):33-40. 被引量：5
5黄沈权,朱晓辉,陈子瑞,李攀峰,于鲁川.基于双向序列特征和主题语义模型的制造服务推荐方法[J].计算机集成制造系统,2026,32(2):772-785.

二级引证文献8

1程晓楠.档案数字化转型:实践与经验[J].山西档案,2023(2):174-176. 被引量：13
2郑永慧.数字人文与文献学融合发展的进路及趋向[J].图书馆,2022(8):49-55. 被引量：4
3雷恒林,古兰拜尔·吐尔洪,买日旦·吾守尔,曾琪.基于Hellinger距离与词向量的终身机器学习主题模型[J].计算机工程,2022,48(11):89-95. 被引量：1
4赵正敏.基于知识图谱的高校数字档案资源数据知识化分析[J].数字与缩微影像,2023(4):4-6. 被引量：2
5冷雪卓,张涛,崔文波.国内数字人文领域文献主题识别及框架研究——基于LDA和Word2Vec的分析[J].图书馆学刊,2024,46(3):104-110. 被引量：4
6谭春辉,涂瑞德.融合用户动态兴趣和社交信任的潜在好友推荐方法研究[J].情报科学,2024,42(9):1-8.
7梁志平,张公一.基于在线评论数据挖掘的机构品牌价值提升研究——以吉林大学MBA项目为例[J].情报科学,2024,42(10):202-208. 被引量：4
8周枫,金波.基于PDCA模型的档案数据质量治理研究[J].情报科学,2024,42(10):24-31. 被引量：14

1陈学鹃.统编教材之资料搜集的序列及教学建议[J].小学教学设计（语文．品德版）,2019,0(10):7-9.
2杜敏,郭珊珊,潘鹏,陶骏.哈夫曼树教学探讨[J].电脑知识与技术,2020,16(2):106-108. 被引量：2
3马欢,郭勇,吴广恩,闵刚,张长青.利用部分采样的数字混合信号单通道盲分离算法[J].数据采集与处理,2019,34(6):1002-1011. 被引量：2
4詹攀攀.如何在初中英语阅读教学中有效地教学词汇[J].读天下（综合）,2020,0(5):0236-0236.
5黄水銮.小学英语课堂中词汇教学探究[J].文理导航（教育研究与实践）,2020,0(4):94-94.
6王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报（自然科学版）,2020,40(1):102-110. 被引量：15
7霍文君,王伟,李文.AnomalyDetect:一种基于欧式距离的在线异常检测算法[J].中国科学技术大学学报,2019,49(7):555-563. 被引量：14
8JIA Zhaoxu.Association between weight control and recurrence of atrial fibrillation after catheter ablation in overweight and obese patients[J].China Medical Abstracts(Internal Medicine),2019,36(4):213-214. 被引量：1
9刘晓东,马飞,张玉,杜立夫.基于BP神经网络的模型参考自适应姿态控制[J].航天控制,2019,37(6):3-7. 被引量：12
10郎晓彤.混合模型的运动目标检测与跟踪算法[J].现代电子技术,2020,43(3):70-73. 被引量：6

长春理工大学学报（自然科学版）

2020年第1期

浏览历史

内容加载中请稍等...

基于Huffman-LDA和Weight-Word2vec的文本表示模型研究被引量：5

参考文献5

二级参考文献23

共引文献120

同被引文献44

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量：5

参考文献5

二级参考文献23

共引文献120

同被引文献44

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于Huffman-LDA和Weight-Word2vec的文本表示模型研究被引量：5