期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Paragraph Vector Representation Based on Word to Vector and CNN Learning 被引量:5
1
作者 Zeyu Xiong Qiangqiang Shen +1 位作者 Yijie Wang Chenyang Zhu 《Computers, Materials & Continua》 SCIE EI 2018年第5期213-227,共15页
Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learn... Document processing in natural language includes retrieval,sentiment analysis,theme extraction,etc.Classical methods for handling these tasks are based on models of probability,semantics and networks for machine learning.The probability model is loss of semantic information in essential,and it influences the processing accuracy.Machine learning approaches include supervised,unsupervised,and semi-supervised approaches,labeled corpora is necessary for semantics model and supervised learning.The method for achieving a reliably labeled corpus is done manually,it is costly and time-consuming because people have to read each document and annotate the label of each document.Recently,the continuous CBOW model is efficient for learning high-quality distributed vector representations,and it can capture a large number of precise syntactic and semantic word relationships,this model can be easily extended to learn paragraph vector,but it is not precise.Towards these problems,this paper is devoted to developing a new model for learning paragraph vector,we combine the CBOW model and CNNs to establish a new deep learning model.Experimental results show that paragraph vector generated by the new model is better than the paragraph vector generated by CBOW model in semantic relativeness and accuracy. 展开更多
关键词 Distributed word vector distributed paragraph vector CNNS CBOW deep learning.
在线阅读 下载PDF
基于Paragraph Vector模型的科研热点发现方法
2
作者 郭佳 罗森林 陈倩柔 《电子设计工程》 2018年第20期105-109,共5页
科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Para... 科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研热点发现方法。该方法对文本集使用Paragraph Vector模型构建文本语义向量表示,并根据语义向量的相似度计算结果进行聚类分析得到主题集,最后基于主题文本引用特征选择前N个主题作为科研热点。实验结果表明,科研热点发现的聚类评价ARI值为0.452、H值为0.532、C值为0.538、V值为0.535,说明Paragraph Vector的低维空间表示法可通过挖掘词之间的关联属性优化向量语义表示,并能缓解维数灾难问题进而提高了话题发现的准确度。 展开更多
关键词 热点发现 文本聚类 自然语言处理 paragraph vector
在线阅读 下载PDF
结合注意力机制的长文本分类方法 被引量:23
3
作者 卢玲 杨武 +2 位作者 王远伦 雷子鉴 李莹 《计算机应用》 CSCD 北大核心 2018年第5期1272-1277,共6页
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意... 新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。 展开更多
关键词 注意力机制 卷积神经网络 段落向量 信息过滤 文本分类
在线阅读 下载PDF
面向短文本分析的分布式表示模型 被引量:7
4
作者 梁吉业 乔洁 +1 位作者 曹付元 刘晓琳 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1631-1640,共10页
短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了... 短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector,BTPV),该模型通过将词对主题模型(biterm topic model,BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势. 展开更多
关键词 分布式表示 短文本 文本分析 句向量 词对主题模型
在线阅读 下载PDF
多文档文摘提取方法的研究 被引量:4
5
作者 张其文 李明 《兰州理工大学学报》 CAS 北大核心 2007年第1期96-99,共4页
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段... 在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法. 展开更多
关键词 自动文摘 文本分段 语义段 向量空间模型 文本模型
在线阅读 下载PDF
自动文摘系统中的段落自适应聚类研究 被引量:6
6
作者 刘海涛 老松杨 韩智广 《微计算机信息》 北大核心 2006年第06X期288-291,共4页
提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,... 提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。 展开更多
关键词 自动文摘 语义段划分 向量空间模型 聚类 K-medoids
在线阅读 下载PDF
基于PV-DM模型的多文档摘要方法 被引量:2
7
作者 刘欣 王波 毛二松 《计算机应用与软件》 CSCD 2016年第10期251-255,278,共6页
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法... 当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。 展开更多
关键词 语义相似度 PV-DM模型 句子向量 多文档摘要 单调亚模函数
在线阅读 下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
8
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
基于段落相似度的论文抄袭判定 被引量:2
9
作者 赵俊杰 谢飞 《电脑与电信》 2008年第8期22-23,35,共3页
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况... 从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。 展开更多
关键词 抄袭判定 段落相似度 向量空间模型 TFIDF
在线阅读 下载PDF
基于加权二部图匹配的中文段落相似度计算 被引量:4
10
作者 张绍阳 曹家波 +1 位作者 王子凡 曲卫东 《计算机工程与应用》 CSCD 北大核心 2017年第18期95-101,共7页
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作... 为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。 展开更多
关键词 段落相似度 句子主干提取 二部图匹配 向量空间模型 中文分词
在线阅读 下载PDF
一种应用于文本分类的段落向量正向激励方法
11
作者 钱亚冠 方科彬 +4 位作者 康明 顾钊铨 潘俊 王滨 Wassim Swaileh 《中文信息学报》 CSCD 北大核心 2023年第7期51-60,共10页
文本分类广泛应用于文档检索、网络搜索等领域,其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时,传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题,以及长段落包... 文本分类广泛应用于文档检索、网络搜索等领域,其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时,传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题,以及长段落包含短段落信息的情况,限制了分类模型准确率的进一步提升。针对该问题,该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先,根据中位数划分长、短段落向量,然后在分类模型输入过程中提升长段落向量的权重,实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明,通过选择适当的激励系数,采用段落向量正向激励的分类模型可以获得更高的分类准确率。 展开更多
关键词 正向激励 段落向量 文本分类
在线阅读 下载PDF
网络异源数据社会风险预估及有效性分析 被引量:3
12
作者 陈进东 唐锡晋 +1 位作者 周晓纪 张健 《系统工程学报》 CSCD 北大核心 2019年第3期312-323,432,共13页
针对互联网中异源数据的风险预估问题,借鉴社会心理学中社会风险研究成果,提出基于深度学习模型Paragraph Vector的风险分类和风险预估方法.选择"天涯社区"的"天涯杂谈"和"百姓声音"子板块为例,通过话题... 针对互联网中异源数据的风险预估问题,借鉴社会心理学中社会风险研究成果,提出基于深度学习模型Paragraph Vector的风险分类和风险预估方法.选择"天涯社区"的"天涯杂谈"和"百姓声音"子板块为例,通过话题分析和相似度比较说明了不同子版块之间社会风险分类的可行性;利用基于Paragraph Vector的K-Nearest Neighbors分类方法(KNN-PV),以"天涯杂谈"标注数据为训练集,实现"百姓声音"相同时间段新发帖的风险分类和风险预估,并通过人工标注结果验证了KNN-PV方法的有效性.研究结果表明,基于机器学习方法能够实现互联网中异源数据的风险分类和风险预估. 展开更多
关键词 天涯社区 社会风险预估 异源数据 多分类 paragraph vector
在线阅读 下载PDF
提高并网电能质量的并网逆变器矢量控制策略
13
作者 李少波 剧孟瑶 《陕西理工学院学报(自然科学版)》 2017年第2期54-59,共6页
并网电能质量对逆变器并网的成功与否有很大影响。为了提高并网质量,通过对并网电感值及开关频率的研究来减少谐波、频率波动等因素的影响,采用五段式SVPWM算法,提出一种改进型矢量控制策略。主要对电流内环控制系统进行了设计,完成了... 并网电能质量对逆变器并网的成功与否有很大影响。为了提高并网质量,通过对并网电感值及开关频率的研究来减少谐波、频率波动等因素的影响,采用五段式SVPWM算法,提出一种改进型矢量控制策略。主要对电流内环控制系统进行了设计,完成了前馈解耦控制、PI控制器及其前馈补偿控制。最后基于电网电压定向的矢量控制系统,在理想电压、加入谐波和频率波动的情况下对系统进行仿真验证,证明了此控制策略的可行性。 展开更多
关键词 并网逆变器 并网质量 五段式空间矢量脉宽调制 矢量控制
在线阅读 下载PDF
一种新的基于段向量的文本自动摘要方法 被引量:5
14
作者 申强强 熊泽宇 熊岳山 《计算机工程与科学》 CSCD 北大核心 2019年第6期1064-1070,共7页
文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技... 文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技术已经应用到文本检索当中,基于该技术提出了一种词向量化的自动文本摘要方法,该方法主要分为4个步骤:词向量生成、基于词向量的段向量生成、关键词提取和主题句抽取,最终实现文本段落的自动摘要。实验结果表明,改进的文本自动摘要方法能够有效提取主题句。 展开更多
关键词 文本自动摘要 词向量 段向量 主题句
在线阅读 下载PDF
面向自动文摘的文本结构划分 被引量:2
15
作者 朱荷香 曲维光 +2 位作者 卢俊之 李素建 邵艳秋 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第2期204-211,共8页
文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,... 文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,该方法能够较有效地反映文章的内容结构,对有子标题组织和无子标题组织的文章均适用;由于考虑了总起段,使得文本结构划分更加合理,为自动文摘系统的后续工作打下坚实的基础. 展开更多
关键词 文本结构 自动文摘 向量空间模型 段落相似度 意义段划分
在线阅读 下载PDF
一种优化的AP-CAPSA中文文本结构分析算法
16
作者 刘亚亮 卢选民 +1 位作者 冯莎 王兴亮 《计算机应用研究》 CSCD 北大核心 2012年第1期137-139,共3页
从段落向量空间模型、特征词权重等多个侧面分析比较了已有的文本结构分析算法,提出了优化的AP-CAPSA算法;给出了算法性能的评价准则,并在不同的语料集合上进行了测试。实验表明该方法能够更有效地反映文本的结构,为中文自动摘要系统奠... 从段落向量空间模型、特征词权重等多个侧面分析比较了已有的文本结构分析算法,提出了优化的AP-CAPSA算法;给出了算法性能的评价准则,并在不同的语料集合上进行了测试。实验表明该方法能够更有效地反映文本的结构,为中文自动摘要系统奠定了重要的理论基础。 展开更多
关键词 文本结构 中文自动摘要 段落向量空间模型 特征词权重 评价准则
在线阅读 下载PDF
一种结合主题模型与段落向量的短文本聚类方法 被引量:6
17
作者 饶毓和 凌志浩 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期419-427,共9页
为了克服短文本的稀疏性和高维度性,同时提升文本聚类质量,提出了一种结合词对主题模型(Biterm Topic Model, BTM)与段落向量(Paragraph Vector, PV)的短文本聚类方法。该方法主要包括两个重要步骤:一是利用由词对主题模型所求出的词-文... 为了克服短文本的稀疏性和高维度性,同时提升文本聚类质量,提出了一种结合词对主题模型(Biterm Topic Model, BTM)与段落向量(Paragraph Vector, PV)的短文本聚类方法。该方法主要包括两个重要步骤:一是利用由词对主题模型所求出的词-文档-主题概率分布,并结合局部离群因子与JS散度对整个文本集合中的词语进行语义拆分;二是将经过词语语义拆分后的文本输入至向量化模型PV-DBOW(Distributed Bag of Words Version of Paragraph Vector)得到段落向量,并将其与对应的文档-主题概率分布拼接起来构成文本特征向量。实验结果表明,本文方法得到的特征向量对短文本具有较强的区分能力,能有效改善短文本的聚类效果,同时也能避免受到短文本的稀疏性影响。 展开更多
关键词 词对主题模型 段落向量 局部离群因子 JS散度 短文本聚类
在线阅读 下载PDF
基于改进向量空间模型的邮件分类 被引量:3
18
作者 廖玲 文敦伟 《计算机与数字工程》 2007年第4期190-193,共4页
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了... 基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。 展开更多
关键词 向量空间模型 邮件分类 段落结构
在线阅读 下载PDF
一种改进的房产档案特征提取与分类方法 被引量:1
19
作者 钱俊霖 余建桥 《计算机工程》 CAS CSCD 2012年第10期266-268,共3页
针对房产电子档案分类与关键信息提取的问题,提出一种改进的特征提取与分类方法。将文档图像的段落特征和局部像素分布值特征作为房产文档图像的综合特征,利用模板训练支持向量机分类器,实现对入库的房产档案图像的自动分类。实验结果表... 针对房产电子档案分类与关键信息提取的问题,提出一种改进的特征提取与分类方法。将文档图像的段落特征和局部像素分布值特征作为房产文档图像的综合特征,利用模板训练支持向量机分类器,实现对入库的房产档案图像的自动分类。实验结果表明,该方法的分类效果和稳定性较好。 展开更多
关键词 房产档案 段落特征 特征提取 档案分类 支持向量机分类器 局部特征
在线阅读 下载PDF
The Distributed Representation for Societal Risk Classification toward BBS Posts 被引量:3
20
作者 CHEN Jindong TANG Xijin 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2017年第3期627-644,共18页
The risk classification of BBS posts is important to the evaluation of societal risk level within a period. Using the posts collected from Tianya forum as the data source, the authors adopted the societal risk indicat... The risk classification of BBS posts is important to the evaluation of societal risk level within a period. Using the posts collected from Tianya forum as the data source, the authors adopted the societal risk indicators from socio psychology, and conduct document-level multiple societal risk classification of BBS posts. To effectively capture the semantics and word order of documents, a shallow neural network as Paragraph Vector is applied to realize the distributed vector representations of the posts in the vector space. Based on the document vectors, the authors apply one classification method KNN to identify the societal risk category of the posts. The experimental results reveal that paragraph vector in document-level societal risk classification achieves much faster training speed and at least 10% improvements of F-measures than Bag-of-Words. Furthermore, the performance of paragraph vector is also superior to edit distance and Lucene-based search method. The present work is the first attempt of combining document embedding method with socio psychology research results to public opinions area. 展开更多
关键词 Distributed representation KNN paragraph vector model societal risk classification Tianya forum.
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部