期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于规则的藏文音节纠正算法
1
作者 普尺 吕慧 +2 位作者 李妍 多拉 周庆国 《中文信息学报》 北大核心 2025年第1期28-36,共9页
藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠... 藏文语料库的质量是影响藏文信息处理的重要因素。通过分析藏文音节拼写规则,该文构建了针对藏文规则音节和非规则音节拼写检查的音节规则库和非规则音节字典(包括未登录词音译、本体藏文和梵音转写),并基于此提出基于规则的藏文音节纠正算法。该算法利用音节规则库和非规则音节字典对识别后的藏文音节进行拼写检查,通过规则音节构件组合规则来实现藏文音节纠正。实验结果表明,该文提出的藏文规则音节和非规则音节拼写检查算法的F_(1)值达到100%,而规则音节纠正算法的宏平均准确率达到80.43%。 展开更多
关键词 语料库 藏文音节 拼写检查 音节纠正
在线阅读 下载PDF
融合格序列和多维语义特征的藏语句法成分标注研究
2
作者 尕藏扎西 多拉 冷本扎西 《高原科学研究》 2025年第1期119-128,共10页
深层句法分析是藏语自然语言理解中的关键难题之一。针对现有藏语句法分析模型性能欠佳的问题,文章提出一种融合格序列知识和多维语义特征的藏语句法成分标注方法。该方法以提取藏语格序列对句法成分的约束信息为主要语义特征,进而融合... 深层句法分析是藏语自然语言理解中的关键难题之一。针对现有藏语句法分析模型性能欠佳的问题,文章提出一种融合格序列知识和多维语义特征的藏语句法成分标注方法。该方法以提取藏语格序列对句法成分的约束信息为主要语义特征,进而融合藏文字丁、词、词性等多维语义特征后,用Bi-LSTM+CRF联合预测藏语句法成分标记。实验结果显示,该方法在真实语料中的准确率达90.67%、精确率达87.00%、召回率达87.33%,F1值达87.16%,其F1值高于所有基线模型。此外,通过消融实验验证了融合藏语格序列知识及其他特征的WPCc_BiLSTM+CRF模型可大幅提升藏语句法成分标注性能。 展开更多
关键词 藏语格序列 语义特征 句法成分标注 句法分析
在线阅读 下载PDF
藏文自动排序研究综述
3
作者 才让叁智 仁青东主 +2 位作者 多拉 洛桑嘎登 仁增多杰 《高原科学研究》 CSCD 2024年第2期106-117,共12页
藏文自动排序是藏语自然语言处理领域一项重要的基础研究工作,在词典编纂、信息检索和日常办公等方面具有重要的应用价值。藏文特殊的二维非线性组合方式、词法规则和词典排序规则使得藏文自动排序比其他语种的排序更加复杂。文章对已... 藏文自动排序是藏语自然语言处理领域一项重要的基础研究工作,在词典编纂、信息检索和日常办公等方面具有重要的应用价值。藏文特殊的二维非线性组合方式、词法规则和词典排序规则使得藏文自动排序比其他语种的排序更加复杂。文章对已有研究提出的藏文自动排序方法、规则、算法和模型等进行了较为全面的分析与总结,为研究人员了解藏文自动排序中的构件识别、排序规则和方法以及优化藏文自动排序相关工作提供参考。 展开更多
关键词 藏文自动排序 字符优先级 结构优先级 构件比较顺序
在线阅读 下载PDF
TASSM_BS:基于Bi-LSTM和Self-Attention的藏文自动分句方法 被引量:2
4
作者 才让叁智 多拉 +2 位作者 格桑多吉 洛桑嘎登 仁增多杰 《中文信息学报》 CSCD 北大核心 2023年第5期44-52,共9页
自动分句在自然语言处理中具有重要的应用价值,是机器翻译、句法分析和语义分析等任务的重要前期工作环节。当前藏文自动分句中采用的基于词典的分句方法,以及基于词典和统计模型相结合的分句方法因受句尾词兼类现象和数据稀疏等问题的... 自动分句在自然语言处理中具有重要的应用价值,是机器翻译、句法分析和语义分析等任务的重要前期工作环节。当前藏文自动分句中采用的基于词典的分句方法,以及基于词典和统计模型相结合的分句方法因受句尾词兼类现象和数据稀疏等问题的影响,分句效率较低。对此,该文提出了一种基于Bi-LSTM和Self-Attention的藏文自动分句方法。通过实验对比,该方法的宏准确率、宏召回率和宏F1值分别到达了97.7%、98.06%和97.88%,其结果优于所有对比方法。另外,在实验过程中还发现,当模型使用序列前端截补方式定长的数据时,其性能优于使用后端截补方式定长的数据;当模型使用基于Skip-gram的音节字表示时,其性能优于基于CBOW和随机生成的音节字表示。 展开更多
关键词 藏文句子 分句 TSRM_BS模型
在线阅读 下载PDF
ZHUMO AND HER CRANES──Primitive Ecological Culture in ‘KingGesar’
5
作者 dolha 《China's Tibet》 1999年第4期26-26,共1页
关键词 Primitive Ecological Culture in KingGesar ZHUMO AND HER CRANES
在线阅读 下载PDF
A Tibetan Sentence Boundary Disambiguation Model Considering the Components on Information on Both Sides of Shad 被引量:1
6
作者 Fenfang Li Hui Lv +3 位作者 Yiming Gao dolha Yan Li Qingguo Zhou 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2023年第6期1085-1100,共16页
Sentence Boundary Disambiguation(SBD)is a preprocessing step for natural language processing.Segmenting text into sentences is essential for Deep Learning(DL)and pretraining language models.Tibetan punctuation marks m... Sentence Boundary Disambiguation(SBD)is a preprocessing step for natural language processing.Segmenting text into sentences is essential for Deep Learning(DL)and pretraining language models.Tibetan punctuation marks may involve ambiguity about the sentences’beginnings and endings.Hence,the ambiguous punctuation marks must be distinguished,and the sentence structure must be correctly encoded in language models.This study proposed a component-level Tibetan SBD approach based on the DL model.The models can reduce the error amplification caused by word segmentation and part-of-speech tagging.Although most SBD methods have only considered text on the left side of punctuation marks,this study considers the text on both sides.In this study,465669 Tibetan sentences are adopted,and a Bidirectional Long Short-Term Memory(Bi-LSTM)model is used to perform SBD.The experimental results show that the F1-score of the Bi-LSTM model reached 96%,the most efficient among the six models.Experiments are performed on low-resource languages such as Turkish and Romanian,and high-resource languages such as English and German,to verify the models’generalization. 展开更多
关键词 Sentence Boundary Disambiguation(SBD) punctuation marks ambiguity Bidirectional Long Short-Term Memory(Bi-LSTM)model
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部