为提升民航应急管理能力,研究基于《中国民用航空应急管理规定》问卷数据,运用轻量级双向编码器表征模型(A Lite Bidirectional Encoder Representations from Transformers,ALBERT)和潜在狄利克雷分配模型(Latent Dirichlet Allocation...为提升民航应急管理能力,研究基于《中国民用航空应急管理规定》问卷数据,运用轻量级双向编码器表征模型(A Lite Bidirectional Encoder Representations from Transformers,ALBERT)和潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)进行文档类别划分,结合K-means和均匀流形逼近与投影方法(Uniform Manifold Approximation and Projection,UMAP)进行文档聚类及可视化,根据复杂网络理论构建关键词共现网络,分析网络特性和节点联系,应用逼近理想解排序法(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)获得节点重要性排序。研究结果显示:网络的平均聚类系数为0.71~0.965,覆盖了不同部门、岗位和环境,代表了民航应急管理的普遍情况;在人员兼职、空管单位、支线机场等应急体系建设存在不足的情况下,建议民航系统通过增设专职应急管理机构、优化资源配置、加强培训支持等方式提升应急管理能力。研究结果可为民航应急体系建设提供数据支持。展开更多
The task of identifying Chinese named entities of Chinese poetry and wine culture is a key step in the construction of a knowledge graph and a question and answer system.Aimed at the characteristics of Chinese poetry ...The task of identifying Chinese named entities of Chinese poetry and wine culture is a key step in the construction of a knowledge graph and a question and answer system.Aimed at the characteristics of Chinese poetry and wine culture entities with different lengths and high training cost of named entity recognition models at the present stage,this study proposes a lite BERT+bi-directional long short-term memory+attentional mechanisms+conditional random field(ALBERT+BILSTM+Att+CRF).The method first obtains the characterlevel semantic information by ALBERT module,then extracts its high-dimensional features by BILSTM module,weights the original word vector and the learned text vector by attention layer,and finally predicts the true label in CRF module(including five types:poem title,author,time,genre,and category).Through experiments on data sets related to Chinese poetry and wine culture,the results show that the method is more effective than existing mainstream models and can efficiently extract important entity information in Chinese poetry and wine culture,which is an effective method for the identification of named entities of varying lengths of poetry.展开更多
园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义...园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建。针对现有Word2vec、ELMo和BERT等语言模型存在无法解决多义词、融合上下文能力差、运行速度慢等缺点,提出了嵌入ALBERT(A Lite BERT)预训练语言模型的实体识别和关系抽取模型。ALBERT预训练的动态词向量能够有效地表示文本特征,将其分别输入到BiGRU-CRF命名实体识别模型和BiGRU-Attention关系抽取模型中进行训练,进一步提升实体识别和关系抽取的效果。在园林植物语料库上进行方法的有效性验证,结果表明ALBERT-BiGRU-CRF命名实体识别模型的F1值为0.9517,ALBERT-BiGRU-Attention关系抽取模型的F1值为0.9161,相较于经典的语言模型(如Word2vec、ELMo和BERT等)性能有较为显著的提升。因此基于ALBERT模型的实体与关系抽取任务能有效提高识别分类效果,可将其应用于植物描述文本的实体关系抽取任务中,为园林植物知识图谱自动构建提供方法。展开更多
实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对...实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案:①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征;②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性;③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。展开更多
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform...中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。展开更多
文摘为提升民航应急管理能力,研究基于《中国民用航空应急管理规定》问卷数据,运用轻量级双向编码器表征模型(A Lite Bidirectional Encoder Representations from Transformers,ALBERT)和潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)进行文档类别划分,结合K-means和均匀流形逼近与投影方法(Uniform Manifold Approximation and Projection,UMAP)进行文档聚类及可视化,根据复杂网络理论构建关键词共现网络,分析网络特性和节点联系,应用逼近理想解排序法(Technique for Order Preference by Similarity to an Ideal Solution,TOPSIS)获得节点重要性排序。研究结果显示:网络的平均聚类系数为0.71~0.965,覆盖了不同部门、岗位和环境,代表了民航应急管理的普遍情况;在人员兼职、空管单位、支线机场等应急体系建设存在不足的情况下,建议民航系统通过增设专职应急管理机构、优化资源配置、加强培训支持等方式提升应急管理能力。研究结果可为民航应急体系建设提供数据支持。
基金the Sichuan Science and Technology Program of China(No.2021YFG0055)the Zigong Science and Technology Program of China(No.2019YYJC15)+1 种基金the Nature Science Foundation of Sichuan University of Science&Engineering(No.2020RC32)the 2022 Graduate Innovation Fund Project of Sichuan University of Science&Engineering(No.Y2022168)。
文摘The task of identifying Chinese named entities of Chinese poetry and wine culture is a key step in the construction of a knowledge graph and a question and answer system.Aimed at the characteristics of Chinese poetry and wine culture entities with different lengths and high training cost of named entity recognition models at the present stage,this study proposes a lite BERT+bi-directional long short-term memory+attentional mechanisms+conditional random field(ALBERT+BILSTM+Att+CRF).The method first obtains the characterlevel semantic information by ALBERT module,then extracts its high-dimensional features by BILSTM module,weights the original word vector and the learned text vector by attention layer,and finally predicts the true label in CRF module(including five types:poem title,author,time,genre,and category).Through experiments on data sets related to Chinese poetry and wine culture,the results show that the method is more effective than existing mainstream models and can efficiently extract important entity information in Chinese poetry and wine culture,which is an effective method for the identification of named entities of varying lengths of poetry.
文摘园林植物知识图谱可为顾及区域适应性、观赏性和生态性等因子的绿化树种的选型提供知识支持。植物描述文本的实体识别及关系抽取是知识图谱构建的关键环节。针对植物领域未有公开的标注数据集,本文阐述了园林植物数据集的构建流程,定义了园林植物的概念体系结构,完成了园林植物语料库的构建。针对现有Word2vec、ELMo和BERT等语言模型存在无法解决多义词、融合上下文能力差、运行速度慢等缺点,提出了嵌入ALBERT(A Lite BERT)预训练语言模型的实体识别和关系抽取模型。ALBERT预训练的动态词向量能够有效地表示文本特征,将其分别输入到BiGRU-CRF命名实体识别模型和BiGRU-Attention关系抽取模型中进行训练,进一步提升实体识别和关系抽取的效果。在园林植物语料库上进行方法的有效性验证,结果表明ALBERT-BiGRU-CRF命名实体识别模型的F1值为0.9517,ALBERT-BiGRU-Attention关系抽取模型的F1值为0.9161,相较于经典的语言模型(如Word2vec、ELMo和BERT等)性能有较为显著的提升。因此基于ALBERT模型的实体与关系抽取任务能有效提高识别分类效果,可将其应用于植物描述文本的实体关系抽取任务中,为园林植物知识图谱自动构建提供方法。
文摘实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation,GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案:①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征;②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性;③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。
文摘中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。