针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。...针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。首先通过改进的XLNet预训练模型生成包含上下文语义信息的动态词向量,使模型能更好地利用边界特征和语义知识;然后将获取的词向量输入BiGRU中进行特征提取,得到每个字符的隐藏状态表示。在BiGRU编码的基础上,引入稀疏多头自注意力机制(Multi-head Self-attention)对每个字符加权表示,提高模型在受限内存预算下细粒度和强长期依赖性的时间序列的预测准确性。最后由CRF(Conditional Random Field)解码相邻标签之间的依赖关系,输出最佳的分词序列。在自建的控制工程语料上进行分词实验。结果表明,该分词模型准确率为94.27%,召回率为93.24%,F 1值为95.52%,证明其在专业领域中文分词任务中的可靠性。展开更多
文摘针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。首先通过改进的XLNet预训练模型生成包含上下文语义信息的动态词向量,使模型能更好地利用边界特征和语义知识;然后将获取的词向量输入BiGRU中进行特征提取,得到每个字符的隐藏状态表示。在BiGRU编码的基础上,引入稀疏多头自注意力机制(Multi-head Self-attention)对每个字符加权表示,提高模型在受限内存预算下细粒度和强长期依赖性的时间序列的预测准确性。最后由CRF(Conditional Random Field)解码相邻标签之间的依赖关系,输出最佳的分词序列。在自建的控制工程语料上进行分词实验。结果表明,该分词模型准确率为94.27%,召回率为93.24%,F 1值为95.52%,证明其在专业领域中文分词任务中的可靠性。