期刊文献+

基于HDP的主题词向量构造——以柬语为例

Construction of topic word embeddings based on HDP:Khmer as an example
在线阅读 下载PDF
导出
摘要 针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。 Aiming at the problem of polysemy in a single word embedding,a topic word embeddings construction method on HDP(Hierarchical Dirichlet Process)is proposed in the case of Khmer.The method integrates the topic information on the basis of a single word embedding.In this way,the word topic tag is obtained through the HDP,and then it is regarded as a pseudo word and the word is input into the Skip-Gram model.Next,the topic word embeddings and the word embeddings are trained.Finally,the topic word embeddings of the text topic information is concatenated with the word embeddings obtained after the word training,and the topic word embedding of each word in the text is obtained.Compared with the word embeddings model that is not integrated into the topic information,this method achieves better results in terms of word similarity and text classification.Therefore,the topic word embeddings obtained in this paper has more semantic information.
作者 李超 严馨 谢俊 徐广义 周枫 莫源源 LI Chao;YAN Xin;XIE Jun;XU Guang-yi;ZHOU Feng;MO Yuan-yuan(.Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650504;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650504;Yunnan Nantian Electronic Information Industry Co., Ltd., Kunming 650400;School of Southeast & South Asia Languages and Culture,Yunnan Minzu University,Kunming 650500;Institute of Linguistics,Shanghai Normal University,Shanghai 200234,China)
出处 《计算机工程与科学》 CSCD 北大核心 2020年第6期1111-1119,共9页 Computer Engineering & Science
基金 国家自然科学基金(61462055,61562049)。
关键词 HDP主题模型 主题词向量 Skip-Gram模型 HDP topic model topic word embeddings Skip-Gram model
  • 相关文献

参考文献1

二级参考文献2

共引文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部