藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,...藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。展开更多
针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结...针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结合BLSTM和CRF(Conditional Random Fields)对中文简历进行解析(BLSTM-CRF)。为了提高中文简历解析的效率,级联包含字序列信息的词向量和用Word2Vec生成的词向量,融合成一个新的词向量表示;再由BLSTM强大的学习能力融合词的上下文信息,输出所有可能标签序列的分值给CRF层;再由CRF引入标签之间约束关系求解最优序列。利用梯度下降算法训练神经网络,使用预先训练的词向量和Dropout优化神经网络,最终完成对中文简历的解析工作。实验结果表明,所提的特征融合方法优于传统的简历解析方法。展开更多
文摘藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。
文摘针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结合BLSTM和CRF(Conditional Random Fields)对中文简历进行解析(BLSTM-CRF)。为了提高中文简历解析的效率,级联包含字序列信息的词向量和用Word2Vec生成的词向量,融合成一个新的词向量表示;再由BLSTM强大的学习能力融合词的上下文信息,输出所有可能标签序列的分值给CRF层;再由CRF引入标签之间约束关系求解最优序列。利用梯度下降算法训练神经网络,使用预先训练的词向量和Dropout优化神经网络,最终完成对中文简历的解析工作。实验结果表明,所提的特征融合方法优于传统的简历解析方法。