To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Con...To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision.展开更多
随着锂电池领域论文数量的激增和研究主题的日益丰富,准确监测该领域的发展趋势和把握最新研究动向变得日益复杂。通过运用大数据和机器学习技术,采用BERTopic主题模型对Web of Science数据库中的18万余篇锂电池论文进行文本分析,绘制...随着锂电池领域论文数量的激增和研究主题的日益丰富,准确监测该领域的发展趋势和把握最新研究动向变得日益复杂。通过运用大数据和机器学习技术,采用BERTopic主题模型对Web of Science数据库中的18万余篇锂电池论文进行文本分析,绘制了锂电池领域的主题图,识别了新兴研究主题和高被引主题。结果表明,锂电池研究活动正显著加速,锂硫电池、锂枝晶生长抑制、电池回收和金属回收等新兴主题快速发展,而材料研究如二硫化钼纳米材料、氧化铁电极材料则具有显著的高学术影响力。研究还探讨了《锂电池百篇论文点评系列》对当前锂电池研究主题的监测情况,该系列对多数科学技术主题有良好覆盖。本研究为锂电池领域的主题监测提供了新方法,为政策制定和技术研发提供了情报支持,并为“锂电池百篇论文点评”系列的后续研究提供了参考。展开更多
把握国际开放科学研究热点主题与特点,对于我国在该领域的研究发展具有重要意义。本研究数据来源于Web of Science核心合集,通过BERTopic主题模型得到学术出版开放获取、开放研究数据、开放科学工具、开放科学伦理道德、开放科学政策、...把握国际开放科学研究热点主题与特点,对于我国在该领域的研究发展具有重要意义。本研究数据来源于Web of Science核心合集,通过BERTopic主题模型得到学术出版开放获取、开放研究数据、开放科学工具、开放科学伦理道德、开放科学政策、开放科学教育、同行评审和开放科学评估8个研究热点主题。基于建模结果和文本分析梳理发现,国际开放科学研究呈现出开放获取学科覆盖面广、重视基础设施建设和强调规范框架构建等特征。未来我国研究者需拓展学科覆盖面,增加开放获取研究维度;完善开放工具设施,重视开放意识培养;全面审视开放科学,加速构建规范体系。图7。表1。参考文献74。展开更多
基金The National Natural Science Foundation of China(No60672056)Open Fund of MOE-MS Key Laboratory of Multime-dia Computing and Communication(No06120809)
文摘To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision.
文摘随着锂电池领域论文数量的激增和研究主题的日益丰富,准确监测该领域的发展趋势和把握最新研究动向变得日益复杂。通过运用大数据和机器学习技术,采用BERTopic主题模型对Web of Science数据库中的18万余篇锂电池论文进行文本分析,绘制了锂电池领域的主题图,识别了新兴研究主题和高被引主题。结果表明,锂电池研究活动正显著加速,锂硫电池、锂枝晶生长抑制、电池回收和金属回收等新兴主题快速发展,而材料研究如二硫化钼纳米材料、氧化铁电极材料则具有显著的高学术影响力。研究还探讨了《锂电池百篇论文点评系列》对当前锂电池研究主题的监测情况,该系列对多数科学技术主题有良好覆盖。本研究为锂电池领域的主题监测提供了新方法,为政策制定和技术研发提供了情报支持,并为“锂电池百篇论文点评”系列的后续研究提供了参考。
文摘把握国际开放科学研究热点主题与特点,对于我国在该领域的研究发展具有重要意义。本研究数据来源于Web of Science核心合集,通过BERTopic主题模型得到学术出版开放获取、开放研究数据、开放科学工具、开放科学伦理道德、开放科学政策、开放科学教育、同行评审和开放科学评估8个研究热点主题。基于建模结果和文本分析梳理发现,国际开放科学研究呈现出开放获取学科覆盖面广、重视基础设施建设和强调规范框架构建等特征。未来我国研究者需拓展学科覆盖面,增加开放获取研究维度;完善开放工具设施,重视开放意识培养;全面审视开放科学,加速构建规范体系。图7。表1。参考文献74。