科技文献中作者研究兴趣动态发现被引量：13

Dynamic finding of authors' research interests in scientific literature

下载PDF

导出

摘要针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题-词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题-词项分布与作者-主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。 To solve the problems of mining relationships among topics, authors and time in large scale scientific literature corpora, this paper proposed the Author-Topic over Time （AToT） model according to the intra-features and inter-features of scientific literature. In AToT, a document was represented as a mixture of probabilistic topics and each topic was correspondent with a muhinomial distribution over words and a beta distribution over time. The word-topic distribution was influenced not only by word co-occurrence but also by document timestamps. Each author was also correspondent with a multinomial distribution over topics. The word-topic distribution and author-topic distribution were used to describe the topics evolution and research interests changes of the authors over time respectively. Parameters in AToT could be learned from the documents by employing methods of Gibbs sampling. The experimental results by running in the collections of 1 700 NIPS conference papers show that AToT model can characterize the latent topics evolution, dynamically find authors＇ research interests and predict the authors related to the topics. Meanwhile, AToT model can also lower perplexity compared with the author-topic model.

作者史庆伟李艳妮郭朋亮

机构地区辽宁工程技术大学软件学院

出处《计算机应用》 CSCD 北大核心 2013年第11期3080-3083,共4页 journal of Computer Applications

关键词主题模型时序分析无监督学习文本模型困惑度 topic model temporal analysis unsupervised learning text model perplexity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
2韩红旗,朱东华,汪雪锋.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285. 被引量：24
3BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [ J]. Journal of Machine Learning Research, 2003, 3:993 - 1022.
4ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author- topic model for authors and documents [ C ]// Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. Arlington:AUAI Press, 2004:487-494.
5ROSEN-ZVI M, CHEMUDUGUNTA C, GRIFFITHS T, et al. Learning author-topic models from text corpora [ J]. ACM Transac- tions on Information Systems, 2010, 28(1) : 4.
6STEYVERS M, SMYTH M, ROSEN-ZVI M, et al. Probabilistic author-topic models for information discovery [ C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Dis- covery and Data Mining. New York: ACM Press, 2004:306 -315.
7BLEI D, LAFFERTY J. Dynamic topic models [ C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006:113 - 120.
8WANG C, BLEI D, HECKERMAN D. Continuous time dynamic topic models [ C]// Proceedings of the 23rd Conference on Uncer- tainty in Artificial Intelligence. Arlington: AUAI Press, 2008:579 - 586.
9NALLAPATI R, DITMORE S, LAFFERTY J, et al. Multiscale top- ic tomography [ C] //Proceedings of the 13th ACM SIGKDD Inter- national Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2007: 520-529.
10IWATA T, YAMADA T, SAKURAI Y, et al. Sequential modeling of topic dynamics with multiple timescales [ J]. ACM Transactions on Knowledge Discovery from Data, 2012 5(4) : 19.

二级参考文献87

1冯志伟.科技术语古今谈[J].术语标准化与信息技术,2005(2):4-8. 被引量：12
2何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
3Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
4Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
5Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
6Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
7Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
8Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.
9Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38.
10Bishop C M. Pattern Recognition and Machine Learning. New York, USA: Springer, 2006.

共引文献297

1庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
2刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
3田怀凤.基于多策略的专业术语抽取处理技术的研究[J].计算机与现代化,2008(12):94-96. 被引量：2
4温春,王晓斌,石昭祥.中文领域本体学习中术语的自动抽取[J].计算机应用研究,2009,26(7):2652-2655. 被引量：14
5靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
6傅继彬,樊孝忠,毛金涛,余正涛.基于语言特性的中文领域术语抽取算法[J].北京理工大学学报,2010,30(3):307-310. 被引量：11
7刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报,2010,33(7):1246-1255. 被引量：14
8季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：18
9谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
10王成,吕学强,王弘蔚,王涛.基于信息熵与词语活跃度的领域词抽取[J].北京信息科技大学学报（自然科学版）,2011,26(5):49-52. 被引量：1

同被引文献214

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2龚思婷,孙建军.网络信息生命力评价——基于网络信息的增长与老化模型[J].情报杂志,2012,31(5):75-79. 被引量：9
3姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
4马跃渊,徐勇勇.Gibbs抽样算法及软件设计的初步研究[J].计算机应用与软件,2005,22(2):124-126. 被引量：10
5郭自强.用水溶液电解质的可充锂电池[J].船电技术,1994(4):61-64. 被引量：1
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
7刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
8维基百科.余弦相似性[EB/OL].http://zh.wikipedia.org/wiki/.
9Abramo G,D ’ Angelo C A,Costa F. Identifying interdisciplinarythrough the disciplinary classification of coauthors of scientific pub-lications [J]. Journal of the American Society for Information Sci-ence and Technology, 2012,63.11) :2206 -2222.
10Hoekman J,Frenken K,van Oort F. The geography of collabora-tive knowledge production in Europe [ J]. The Annals of RegionalScience’2009’43(3) :721 -738.

引证文献13

1李纲,李岚凤,毛进,叶光辉.作者合著网络中研究兴趣相似性实证研究[J].图书情报工作,2015,59(2):75-81. 被引量：28
2陈永恒,左万利,林耀进.作者标签主题模型在科技文献中的应用[J].计算机应用,2015,35(4):1001-1005. 被引量：6
3宫小翠,赵迎光,安新颖.研究前沿识别方法探析[J].医学信息学杂志,2015,36(9):47-51. 被引量：5
4史庆伟,从世源.基于mRMR和LDA主题模型的文本分类研究[J].计算机工程与应用,2016,52(5):127-133. 被引量：8
5王燕鹏.国内基于主题模型的科技文献主题发现及演化研究进展[J].图书情报工作,2016,60(3):130-137. 被引量：25
6关鹏,王曰芬.学科领域生命周期中作者研究兴趣演化分析[J].图书情报工作,2016,60(19):116-124. 被引量：20
7史庆伟,刘雨诗,张丰田.基于微博文本的词对主题演化模型[J].计算机应用,2017,37(5):1407-1412. 被引量：3
8余传明,郭亚静,龚雨田,黄漫宇,彭虎锋.基于主题时间模型的农村电商扶贫政策演化及地区差异分析[J].数据分析与知识发现,2018,2(7):34-45. 被引量：22
9余传明,左宇恒,郭亚静,安璐.基于复合主题演化模型的作者研究兴趣动态发现[J].山东大学学报（理学版）,2018,53(9):23-34. 被引量：4
10盛嘉祺,许鑫.融合主题相似度与合著网络的学者标签扩展方法研究[J].数据分析与知识发现,2020,4(8):75-85. 被引量：4

二级引证文献126

1李雅倩,孙玉玲(指导),赵婉雨.基于主题模型和时间序列分析的新兴主题识别与特征关联研究[J].知识管理论坛,2022(3):229-247. 被引量：3
2龙艺璇,伊惠芳.国内外公共政策文本分析中主题模型应用研究进展[J].知识管理论坛,2020(5):305-316. 被引量：3
3苏芳荔,李世豪.基于PMC指数模型的非物质文化遗产政策评价研究[J].情报科学,2023,41(11):151-161. 被引量：15
4何雅娴,韩宇翃.基于文本挖掘的下肢康复训练机设计实践[J].包装工程,2024,45(S01):271-280. 被引量：4
5林佩兰,陈艳,谢崇梅,吕浩宾.科技文献资源融入高中生物教学的应用及意义[J].高考,2023(23):108-110. 被引量：2
6方佩敏.锂—离子电池保护器IC—AIC1811[J].无线电,2000(5):29-30.
7朱晨晞.管理信息系统研究现状及热点分析[J].科技情报开发与经济,2015,28(20):157-160.
8张志常,娄岩.衰老性疾病与肿瘤相关的SCI论文主题词聚类分析[J].医学信息学杂志,2016,37(1):55-58.
9张志常,娄岩.无线网络与医疗相关SCI论文主题词聚类分析[J].医学信息学杂志,2016,37(3):62-65.
10巴志超,李纲,朱世伟.基于语义网络的研究兴趣相似性度量方法[J].现代图书情报技术,2016(4):81-90. 被引量：12

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
3郭蓝天,李扬,慕德俊,杨涛,李哲.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. 被引量：22
4赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
5张楠,于波.基于概念格的Web文本挖掘方法[J].大庆石油学院学报,2009,33(3):108-111.
6曹春萍,崔海船.基于LSA和结构特性的微博话题检测[J].计算机应用研究,2015,32(9):2720-2723. 被引量：3
7刘章,陈小平.联合无监督词聚类的递归神经网络语言模型[J].计算机系统应用,2014,23(5):101-106. 被引量：1
8梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3
9王永贵,张旭,刘宪国.基于AT模型的微博用户兴趣挖掘研究[J].计算机工程与应用,2015,51(13):126-130. 被引量：5
10朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2

计算机应用

2013年第11期

浏览历史

内容加载中请稍等...

科技文献中作者研究兴趣动态发现被引量：13

参考文献14

二级参考文献87

共引文献297

同被引文献214

引证文献13

二级引证文献126

相关作者

相关机构

相关主题

浏览历史

科技文献中作者研究兴趣动态发现 被引量：13

参考文献14

二级参考文献87

共引文献297

同被引文献214

引证文献13

二级引证文献126

相关作者

相关机构

相关主题

浏览历史

科技文献中作者研究兴趣动态发现被引量：13