基于LDA模型和文本聚类的水族文献主题挖掘研究被引量：16

Research on the Shui Literature Topic Mining Based on LDA Model and Text Clustering

下载PDF

导出

摘要针对传统民族文献主题识别不精准,缺乏深层次语义理解等问题,提出一种基于LDA模型和文本聚类的水族文献主题挖掘算法。通过Python抓取中国知网水族文献990篇,利用LDA模型挖掘水族文献主题分布特征,融合水族特征词典进行文本聚类,并挖掘出水族文化、体育、音乐、医学和水书五大主题的关键词,通过准确率、召回率和F特征值进行实验评估。实验结果表明,该方法有效地挖掘出水族文献主题关键词及热门研究领域,使得水族文献的主题脉络更加清晰,为下一步水族引文分析和数字化保护民族文献提供帮助,具有一定的应用前景和实用价值。 Aiming at the inaccurate recognition of traditional national literature topics and the lack of deep semantic understanding,proposes a Shui literature mining algorithm based on LDA model and text clustering.Grabs 990 Shui literature from CNKI by Python,uses the LDA model to explore the distribution characteristics of Shui literature,integrates the feature dictionary for text clustering,and excavates five key themes of Shui culture,sports,music,medicine and Shui word.Carries out experimental evaluation by precision,recall and F-measure.The experimental results show that the method proposed effectively mines the topic keywords and popular research fields of Shui literature,which makes the theme of Shui literature more clear,and provides help for the next step of citation analysis and digital protection of national literature.It has certain application prospects and practical value.

作者杨秀璋 YANG Xiu-zhang(School of Information,Guizhou University of Finance and Economics,Guiyang 550025)

机构地区贵州财经大学信息学院

出处《现代计算机》 2019年第5期13-17,共5页 Modern Computer

基金贵州省教育厅青年科技人才成长项目(黔教合KY字[2016]172)

关键词 LDA模型文本聚类水族文献主题挖掘民族研究 LDA Model Text Clustering Shui Literature Topic Mining Ethnic Studies

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1潘朝霖.水族鱼图腾析[J].广西民族研究,2001(3):65-69. 被引量：13
2王树义,廖桦涛,吴查科.基于情感分类的竞争企业新闻文本主题挖掘[J].数据分析与知识发现,2018,2(3):70-78. 被引量：33
3王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：106
4张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：171
5李霄野,李春生,李龙,张可佳.基于LDA模型的文本聚类检索[J].计算机与现代化,2018(6):7-11. 被引量：9
6王婷婷,韩满,王宇.LDA模型的优化及其主题数量选择研究——以科技文献为例[J].数据分析与知识发现,2018,2(1):29-40. 被引量：52

二级参考文献65

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
3Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
4Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
5Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
6Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
7Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
8Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.
9Salton G, McGill M. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill, 1983.
10Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

共引文献369

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：3
2陈琳,陈涛.基于LDA模型和信任维度的在线短租用户信任感知空间分布研究——基于Airbnb北京地区数据[J].中国发展,2021,21(5):53-61. 被引量：3
3许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：5
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364. 被引量：1
5彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
6金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
7郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
8刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
9姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
10罗玲玲.水族鱼崇拜的图腾文化浅析[J].科技信息,2009(12):87-87. 被引量：2

同被引文献204

1车思琪,李学沛.评价系统视阈下中美企业致股东信情感话语对比分析——基于情感词典和机器学习的文本挖掘技术[J].外国语,2021,44(2):50-59. 被引量：18
2潘朝霖.非公有制经济是水族地区经济发展的重头戏[J].贵州民族研究,2000,20(S1):60-64. 被引量：1
3夏中义,富华.苦难中的温情与温情地受难——论余华小说的母题演化[J].南方文坛,2001(4):28-39. 被引量：73
4张清华.文学的减法——论余华[J].南方文坛,2002(4):4-8. 被引量：96
5余华,杨绍斌.“我只要写作,就是回家”[J].当代作家评论,1999(1):4-13. 被引量：155
6赵毅衡.非语义化的凯旋——细读余华[J].当代作家评论,1991(2):33-38. 被引量：67
7郜元宝.余华创作中的苦难意识[J].文学评论,1994(3):88-94. 被引量：89
8苏和平.水族审美意识探源[J].贵州民族研究,2004,24(3):70-73. 被引量：38
9叶立文,余华.访谈:叙述的力量——余华访谈录[J].小说评论,2002(4):36-40. 被引量：82
10洪治纲.悲悯的力量——论余华的三部长篇小说及其精神走向[J].当代作家评论,2004(6):20-37. 被引量：64

引证文献16

1倪志恒,杨盛菁.我国“养老服务”研究热点分析——基于文献计量方法[J].广西质量监督导报,2021(3):23-24.
2杨秀璋,武帅,夏换,于小民.基于主题挖掘和情感分析的“新冠肺炎疫情”舆情分析研究[J].计算机时代,2020(8):31-36. 被引量：19
3杨鑫,杨典,苏慧慧,宋卓远,杨秀璋,罗子江.基于情感分析的景点评论主题挖掘[J].图书情报导刊,2020,5(8):59-65. 被引量：6
4杨秀璋,武帅,夏换,于小民,范郁锋,丛楠,张懿源.面向贵州省三大战略行动的文本挖掘及LDA模型分析研究[J].现代计算机,2020,26(25):9-14. 被引量：5
5牛奉高,高旭霞.基于加权网络改进的中文短文本相似性度量模型[J].情报学报,2021,40(3):278-285. 被引量：5
6牛奉高,赵霞,徐倩丽.基于点互信息语义相似性的向量空间模型[J].山西大学学报（自然科学版）,2021,44(2):220-228. 被引量：3
7杨秀璋,武帅,夏换,于小民,范郁锋.企业竞争情报主题挖掘与主题演化研究[J].计算机时代,2021(7):21-27. 被引量：1
8李芳芳,伍诗萌,毛星亮,赵颖,颜珺.大学生思想动态数据的采集与分析——以微博为例[J].教育观察,2021,10(37):91-94. 被引量：1
9陈登建,杜飞霞,夏换.基于层次聚类与LDA主题识别的中国动漫产业分析[J].信息技术与信息化,2021(10):33-36.
10令狐秋萍,何世群,齐梦珂,罗子江,杨秀璋.基于知识图谱和层次聚类的水族文化主题演化研究[J].现代计算机,2022,28(1):1-9. 被引量：3

二级引证文献51

1宋雅蓉,王译啡.基于LDA模型和情感分析的网上教学舆情分析研究[J].网络空间安全,2023,14(1):112-118. 被引量：3
2张永成,王怀彬.Python 自然语言处理方法在文本情感分析中的应用[J].电脑知识与技术,2020,16(36):87-88. 被引量：9
3武帅,刘锡峰,张苗,陈静桥,夏换,杨秀璋.基于时间序列及K-Means聚类的学生就业形式分析[J].信息技术与信息化,2021(1):5-10. 被引量：2
4杨鑫,赵凯,马原东,杨典,杨秀璋,罗子江.基于情感分析和Word2Vec的图书推荐方法[J].图书情报导刊,2021,6(3):46-52. 被引量：4
5郑尔特,杨一辰,李赞,付慧真.基于主题识别与情感分析的突发公共卫生事件新闻舆情研究[J].图书情报导刊,2021,6(4):61-71. 被引量：5
6Shi-Pian Li,Xue-Meng Cai,Cheng Chen,Ze-Lin Wei,Wen-Zong Zhang,Dai-Le Zhang,Yong-Ming Guo,Xin-Ju Li.Analysis of microblog public opinion characteristics on traditional Chinese medicine against COVID-19 based on deep learning[J].History & Philosophy of Medicine,2021,3(2):24-35.
7王媚.突发公共事件中的新闻管理与协调研究[J].传播力研究,2020,4(34):1-2.
8李晓峰,李坤琪,袁杰,杨鑫,杨秀璋,罗子江.基于共词分析和主题挖掘的档案服务创新研究[J].信息技术与信息化,2021(7):58-60. 被引量：1
9刘建义,夏换,向怡,施奕.基于时间序列和逻辑回归的贵州茶叶价格预测[J].信息技术与信息化,2021(7):70-75. 被引量：4
10杨秀璋,宋卓远,赵凯,陈镱尹,杨鑫,杨云帆,赵小明,周既松,罗子江.基于LDA模型和情感分析的贵州景点舆情分析研究[J].现代计算机,2021,27(25):36-43. 被引量：4

1杨秀璋.基于水族文献的计量分析与知识图谱研究[J].现代计算机,2019,25(1):25-32. 被引量：5
2王芃.川东北地区高校体育舞蹈的开展现状及对策[J].智库时代,2018(33):82-82.
3郭伟.高校体育舞蹈教学方式的优化[J].长江丛刊,2018(28):90-90. 被引量：1
4汪俊言.小学美术课堂活动的有效探讨[J].情感读本,2019,0(2):13-13.
5赵一安.基于机器学习Xgboost模型解决商店商品销量预测的问题[J].通讯世界,2018,0(11):250-252. 被引量：2
6周涛,吉卫喜,宋承轩.基于决策树C4.5算法的制造过程质量管理[J].组合机床与自动化加工技术,2018(12):134-136. 被引量：13
7王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
8肖晓丽,吴瑶,周锡玲,廖卓凡.基于差分进化的两阶段文本特征选择算法[J].计算机工程,2019,45(2):303-309. 被引量：6
9朱泓臻,陈平华,蔡桂兰.LDA模型在红酒数据关系挖掘中的应用研究[J].计算机工程与应用,2019,55(4):148-153.
10王安瑾.一种基于MinHash的改进新闻文本聚类算法[J].计算机技术与发展,2019,29(2):39-42. 被引量：5

现代计算机

2019年第5期

浏览历史

内容加载中请稍等...

基于LDA模型和文本聚类的水族文献主题挖掘研究被引量：16

参考文献6

二级参考文献65

共引文献369

同被引文献204

引证文献16

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于LDA模型和文本聚类的水族文献主题挖掘研究 被引量：16

参考文献6

二级参考文献65

共引文献369

同被引文献204

引证文献16

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

基于LDA模型和文本聚类的水族文献主题挖掘研究被引量：16