期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
Alignment of the Polish-English Parallel Text for a Statistical Machine "Translation
1
作者 Krzysztof Wolk Krzysztof Marasek 《Computer Technology and Application》 2013年第11期575-583,共9页
Text alignment is crucial to the accuracy of MT (Machine Translation) systems, some NLP (Natural Language Processing) tools or any other text processing tasks requiring bilingual data. This research proposes a lan... Text alignment is crucial to the accuracy of MT (Machine Translation) systems, some NLP (Natural Language Processing) tools or any other text processing tasks requiring bilingual data. This research proposes a language independent sentence alignment approach based on Polish (not position-sensitive language) to English experiments. This alignment approach was developed on the TED (Translanguage English Database) talks corpus, but can be used for any text domain or language pair. The proposed approach implements various heuristics for sentence recognition. Some of them value synonyms and semantic text structure analysis as a part of additional information. Minimization of data loss was ensured. The solution is compared to other sentence alignment implementations. Also an improvement in MT system score with text processed with the described tool is shown. 展开更多
关键词 text alignment NLP tools machine learning text corpora processing
在线阅读 下载PDF
汉语历史词汇学的回顾与展望 被引量:6
2
作者 汪维辉 史文磊 《辞书研究》 2022年第3期1-17,I0001,共18页
文章对近几十年来汉语历史词汇学的研究进展做了概览,并对未来的发展做了展望。概览部分述评了汉语历史词汇学领域重要的通论及理论性专著、常用词演变研究、词典编纂以及历史文献语料的整理、选择和分析等方面的研究,着重讨论了常用词... 文章对近几十年来汉语历史词汇学的研究进展做了概览,并对未来的发展做了展望。概览部分述评了汉语历史词汇学领域重要的通论及理论性专著、常用词演变研究、词典编纂以及历史文献语料的整理、选择和分析等方面的研究,着重讨论了常用词演变的研究。展望部分强调了夯实基础和更新观念的重要性,夯实基础主要是加强语料建设,更新观念则提出了语文学和语言学互给的“新语文学”研究理念。在此基础上列出了10项值得期待的研究课题。 展开更多
关键词 汉语历史词汇学 汉语词汇史 常用词 词典 文献语料 新语文学
在线阅读 下载PDF
从互联网上自动获取领域平行语料 被引量:2
3
作者 邵健 章成志 《现代图书情报技术》 CSSCI 北大核心 2014年第12期36-43,共8页
【目的】对获取的双语语料进行分类,对分类后的双语语料进行句子对齐处理,生成领域平行语料。【方法】利用基于SVM算法的文本分类器对获取的中英双语语料进行分类。使用长度法和词汇法相结合的句子对齐工具对分类后的语料进行句子对齐工... 【目的】对获取的双语语料进行分类,对分类后的双语语料进行句子对齐处理,生成领域平行语料。【方法】利用基于SVM算法的文本分类器对获取的中英双语语料进行分类。使用长度法和词汇法相结合的句子对齐工具对分类后的语料进行句子对齐工作,为提高句子对齐的正确率,利用人工对齐的中英平行语料计算中英文句子长度参数,结合中英双语词典,获取高质量的专业领域平行语料。【结果】使用该方法,对每个领域语料进行句子对齐后,取得95.45%的句子对齐正确率。计算得到的句子平均长度比为1.7777,方差为1.2640。【局限】由于双语语料的初始对齐程度比较好,因此句子对齐正确率可能不具有普遍代表性。【结论】从实验结果看,该方法是有效的,能够获取质量令人满意的领域平行语料。 展开更多
关键词 句子对齐 文本分类 平行语料 机器翻译
原文传递
基于双语URL匹配模式可信度的平行网页识别研究 被引量:3
4
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语URL匹配模式 双语文本挖掘
在线阅读 下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:6
5
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元N-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
在线阅读 下载PDF
基于主题词的文本分析——课文Daydream a Little的语料库检索分析
6
作者 刘运锋 《吉林省教育学院学报》 2010年第9期81-83,共3页
以文本为基础,借助现代检索软件进行文本分析是语料库辅助外语教学的一个重要方面。本研究以Eugene Raud-sepp的议论文《做点白日梦》(Daydream a Little)为例,通过语料库辅助手段对比主题词,从量化的角度直观地分析议论文中论点的提出... 以文本为基础,借助现代检索软件进行文本分析是语料库辅助外语教学的一个重要方面。本研究以Eugene Raud-sepp的议论文《做点白日梦》(Daydream a Little)为例,通过语料库辅助手段对比主题词,从量化的角度直观地分析议论文中论点的提出、论据的运用和论证的推理过程以及三者的紧密结合,说明利用语料库辅助方法进行议论文本的量化分析是一种新的尝试。 展开更多
关键词 语料库 文本分析 外语教学
在线阅读 下载PDF
中文文本蕴含气象灾害事件信息多模型融合抽取方法 被引量:8
7
作者 胡段牧 袁武 +2 位作者 牛方曲 袁文 韩嫒嫒 《地球信息科学学报》 CSCD 北大核心 2022年第12期2342-2355,共14页
随着气候变暖加剧,全球极端天气事件频发,重大气象灾害的发生频率与日俱增。研究气候变化与气象灾害发生频率的关系,对于气候变化背景下的防灾减灾具有重要意义。文献资料及泛在网络数据中蕴含了海量的气象灾害时空事件,为此,本文基于... 随着气候变暖加剧,全球极端天气事件频发,重大气象灾害的发生频率与日俱增。研究气候变化与气象灾害发生频率的关系,对于气候变化背景下的防灾减灾具有重要意义。文献资料及泛在网络数据中蕴含了海量的气象灾害时空事件,为此,本文基于自然语言处理技术研发了文本气象灾害时空事件自动抽取方法。(1)提出了基于专业文献的由粗到精的气象灾害标注语料训练库构建方法。首先针对不同文献资料存在的歧义和不兼容等问题,构建了面向文本事件统一的气象灾害知识体系。然后构建了基于章节结构的粗标注方法,分别针对长文本(现代文)和短文本(文言文)研发了基于Labeled LDA模型及基于TF-IDF和N-gram模型的精细标注语料筛选方法,解决了语料库的快速构建问题;(2)基于BERT-CNN模型研发了融合上下文语义特征和多粒度的局部语义特征的、面向长短文本一体化处理的气象灾害时空事件自动分类方法;(3)利用该方法分别从文言文和泛在网络数据中自动抽取了灾害时空事件,其宏F1值分别达到89.09%和80.06%,主要气象灾害时空事件分布与专业统计数据相关性较高;(4)基于以上结果,重建了我国各历史时期灾害时空演变过程,发现各时期灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种。本方法既可实现网络长文本事件的自动发现,也可实现文言文短文本事件的自动检测,为文本数据便捷应用于气象灾害研究和监测提供了新的技术方法。 展开更多
关键词 气象灾害 时空事件 知识体系 语料库 文本分类 BERT-CNN模型 事件抽取
原文传递
基于文本语料的上下位关系识别研究综述 被引量:3
8
作者 邱科达 马建玲 《情报科学》 CSSCI 北大核心 2020年第7期162-172,共11页
【目的/意义】上下位关系描述概念之间的"is-a"关系,是分类法、本体和知识图等的重要基石,且在自然语言处理中也有广泛的应用。本文将对从文本语料中识别上下位关系的研究进展、相关资源及应用情况进行分析,为相关领域人员提... 【目的/意义】上下位关系描述概念之间的"is-a"关系,是分类法、本体和知识图等的重要基石,且在自然语言处理中也有广泛的应用。本文将对从文本语料中识别上下位关系的研究进展、相关资源及应用情况进行分析,为相关领域人员提供参考。【方法/过程】本文采用内容分析法,以Web of science、维普和中国知网为信息源对其中刊载的上下位关系识别相关研究成果进行了梳理与分析。【结果/结论】上下位关系识别取得了一定的成果,但远未解决,对此还需要进一步的探索和研究。最后从研究方法、基准与评估、领域知识、语言以及应用5个方面对上下位关系识别研究给出了建议。 展开更多
关键词 上下位关系 文本语料 知识组织
原文传递
基于语料库的翻译研究 被引量:1
9
作者 韩凌 任培红 《钦州学院学报》 2010年第2期66-69,共4页
基于语料库对英汉翻译特点进行分析,可以使翻译的理论成果更具科学性、可证性。语料库语言学可揭示最典型的语言特征,语料库对促进译者的良好语言意识的养成有非常重要的作用。基于语料库的翻译文本分析特点有:简略化和明朗化,保守化和... 基于语料库对英汉翻译特点进行分析,可以使翻译的理论成果更具科学性、可证性。语料库语言学可揭示最典型的语言特征,语料库对促进译者的良好语言意识的养成有非常重要的作用。基于语料库的翻译文本分析特点有:简略化和明朗化,保守化和平整化。语料库与翻译理论结合具有很大优势。 展开更多
关键词 语料库 翻译文本 翻译方法
在线阅读 下载PDF
基于大规模真实文本的数值知识元挖掘研究 被引量:19
10
作者 肖洪 薛德军 《计算机工程与应用》 CSCD 北大核心 2008年第30期150-152,222,共4页
探讨了从海量文献中挖掘知识元的背景,并详述了从海量年鉴文本中抽取宏观数值知识元的基本流程和各主要环节的算法,并重点对数值知识元主体抽取的效果进行了分析,实验结果表明在特定领域内知识元挖掘要达到实用水平是可行的。
关键词 真实文本 文本挖掘 数值知识元 自动编辑
在线阅读 下载PDF
基于变形图匹配的知识图谱多跳问答
11
作者 李香粤 方全 +2 位作者 胡骏 钱胜胜 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期529-534,共6页
知识图谱问答(KGQA)是给定自然语言问题,对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案的过程。但知识图谱通常是不完整的,链接缺失给多跳问答带来许多挑战。许多方法在利用知识图谱嵌入时忽略了重要的路径信息来... 知识图谱问答(KGQA)是给定自然语言问题,对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案的过程。但知识图谱通常是不完整的,链接缺失给多跳问答带来许多挑战。许多方法在利用知识图谱嵌入时忽略了重要的路径信息来评估路径和多关系问题之间的相关性;且使用文本语料库也会限制文本增强模型的可扩展性。针对这些现有方法的缺陷,提出了基于变形图匹配的知识图谱问答(DGM-KGQA)模型,该模型同时利用问题和主题实体构建语义子图,与知识图谱的局部结构匹配并找到正确答案。在基准数据集MetaQA上的实验结果验证了DGM-KGQA的有效性,该模型在完整知识图谱上检索到的答案准确率分别比PullNet、EmbedKGQA增加了4.2%、0.8%;在完整度仅有一半的知识图谱上检索到的答案准确率分别比PullNet、EmbedKGQA增加了11.1%、0.5%。实验证明提出的变形图匹配模型能够有效地增强知识图谱的关联性及多跳问答的答案准确率。 展开更多
关键词 自然语言问题 链接缺失 文本语料库 多跳问答 变形图匹配
原文传递
儿童汉语口语语料库文本设计
12
作者 王莹莹 黄荷婷 王玮 《汉江师范学院学报》 2023年第1期43-49,共7页
儿童汉语口语语料库分为自然口语语料库和声学语料库两个部分,自然口语语料库设计包括基本信息调查表设计和口语库设计,基本信息调查表的设计包括发音儿童本人的基本信息和社会语言背景信息;口语库设计主要通过个人表述、小羊肖恩故事... 儿童汉语口语语料库分为自然口语语料库和声学语料库两个部分,自然口语语料库设计包括基本信息调查表设计和口语库设计,基本信息调查表的设计包括发音儿童本人的基本信息和社会语言背景信息;口语库设计主要通过个人表述、小羊肖恩故事叙述、互动对话三方面了解被试词汇量的掌握情况;声学语料库主要包括双音节、句子和语篇三个部分,涵盖了音段、声调、调联三音子和停顿、焦点和语调等语音现象,以上内容主要选自人教版小学语文课本。该语料库可为课堂教学提供一定文本资源,为儿童汉语的研究提供原始的口语资料和各种参数。 展开更多
关键词 儿童 汉语口语语料库 文本设计
在线阅读 下载PDF
中文翻译文学(1920-1940)中的类联接结构之考察 被引量:1
13
作者 庞双子 《外语与外语教学》 CSSCI 北大核心 2014年第4期8-14,共7页
本文通过构建英汉平行语料库和类比语料库,考察中文经典译作与非经典译作中受英语影响而发生变化的类联接结构。作者以1920-1940年为考察阶段,对上述语料中语言表现的差异进行量化对比分析。研究发现,非经典译作中既留存了不少文言元素... 本文通过构建英汉平行语料库和类比语料库,考察中文经典译作与非经典译作中受英语影响而发生变化的类联接结构。作者以1920-1940年为考察阶段,对上述语料中语言表现的差异进行量化对比分析。研究发现,非经典译作中既留存了不少文言元素,也较多使用欧化结构。与之相比,经典译作中呈现白话文趋势,但由于语体、政治、复译等多重因素的作用,其欧化表达还受到一定程度的制约。本研究的发现可以为研究汉语语言的变迁提供一定的证据。 展开更多
关键词 类联接 平行 类比语料库 文学翻译 经典 非经典译作
原文传递
基于语料库工具Wmatrix的商务语篇隐喻分析
14
作者 李晓冉 《语言与文化研究》 2024年第1期20-23,共4页
隐喻作为一种认知工具,广泛地存在于商务语篇中,用以解释复杂且抽象的商业现象。本研究以概念隐喻理论为理论框架,以具有语义域赋码功能的Wmatrix5.0为检索工具,并结合MIPVU隐喻识别方法,对2021年《经济学人》中357篇商务专栏报道进行... 隐喻作为一种认知工具,广泛地存在于商务语篇中,用以解释复杂且抽象的商业现象。本研究以概念隐喻理论为理论框架,以具有语义域赋码功能的Wmatrix5.0为检索工具,并结合MIPVU隐喻识别方法,对2021年《经济学人》中357篇商务专栏报道进行隐喻研究,分析商务经济话题中常见的概念隐喻现象。研究发现:商务语篇中最常用的五种隐喻分别为身体隐喻、战争隐喻、旅行隐喻、植物隐喻和建筑隐喻,它们又分别归属于结构隐喻、方位隐喻和本体隐喻。这表明,商务语篇使用的多是常规隐喻,是在人们普遍认知范围内进行的隐喻映射,意在用习以为常的概念来解释高度抽象且复杂的商业现象。 展开更多
关键词 隐喻 商务语篇 语料库 Wmatrix
原文传递
Topic evolution based on the probabilistic topic model: a review 被引量:5
15
作者 Houkui ZHOU Huimin YU Roland HU 《Frontiers of Computer Science》 SCIE EI CSCD 2017年第5期786-802,共17页
Accurately representing the quantity and characteristics of users' interest in certain topics is an important problem facing topic evolution researchers, particularly as it applies to modem online environments. Searc... Accurately representing the quantity and characteristics of users' interest in certain topics is an important problem facing topic evolution researchers, particularly as it applies to modem online environments. Search engines can provide information retrieval for a specified topic from archived data, but fail to reflect changes in interest toward the topic over time in a structured way. This paper reviews notable research on topic evolution based on the probabilistic topic model from multiple aspects over the past decade. First, we introduce notations, terminology, and the basic topic model explored in the survey, then we summarize three categories of topic evolution based on the probabilistic topic model: the discrete time topic evolution model, the continuous time topic evolution model, and the online topic evolution model. Next, we describe applications of the topic evolution model and attempt to summarize model generalization performance evaluation and topic evolution evaluation methods, as well as providing comparative experimental results for different models. To conclude the review, we pose some open questions and discuss possible future research directions. 展开更多
关键词 topic evolution probabilistic topic models text corpora evaluation method
原文传递
基于平行语料库的中国立法语篇情态操作语的英译探析 被引量:16
16
作者 蒋婷 杨炳钧 《外国语》 CSSCI 北大核心 2013年第3期86-93,共8页
立法语篇情态系统翻译的关键在于译者是否准确地揭示了法律条文所承载的权利义务,以及行为人可能承担的责任。本文以系统功能语法为理论视角,利用中国法律法规汉英平行语料库,根据不同的情态赋值,对情态操作语进行人工标注,在实现词对... 立法语篇情态系统翻译的关键在于译者是否准确地揭示了法律条文所承载的权利义务,以及行为人可能承担的责任。本文以系统功能语法为理论视角,利用中国法律法规汉英平行语料库,根据不同的情态赋值,对情态操作语进行人工标注,在实现词对齐的前提下探讨中国立法语篇情态操作语的英译问题。在梳理和透析相关问题的基础上,笔者认为在翻译中国法律法规的过程中,译者应谨慎对待立法语篇的情态操作语,不能一味追求翻译的多样性;应当以法律对等为首要原则,最大程度地传递法律法规的统一性、强制性和授权性。 展开更多
关键词 平行语料库 立法语篇 情态操作语 系统功能语法
在线阅读 下载PDF
基于双语旅游语料库的DDL翻译教学 被引量:50
17
作者 李德超 王克非 《外语电化教学》 CSSCI 2011年第1期20-26,共7页
本文探讨如何根据专门的双语语料库比较和检索的结果,开发出各种数据驱动学习(DDL)的手段来辅助旅游翻译的教学。本文认为,这种学习模式亦能促进旅游翻译教学理念的转变,丰富教学内容及让教学形式更为多样化,亦能鼓励学生进行“... 本文探讨如何根据专门的双语语料库比较和检索的结果,开发出各种数据驱动学习(DDL)的手段来辅助旅游翻译的教学。本文认为,这种学习模式亦能促进旅游翻译教学理念的转变,丰富教学内容及让教学形式更为多样化,亦能鼓励学生进行“归纳式学习”,获得“自主学习”乐趣。 展开更多
关键词 双语旅游语料库 数据驱动学习 旅游翻译
在线阅读 下载PDF
语篇中逻辑联系语And的语料库研究及其对外语教学的启示 被引量:5
18
作者 陈荣歆 《福建外语》 2001年第3期39-43,共5页
基于英语语料库Brown - j,Lob - j① 和Slesson② 的调查 ,And连接两个或两个以上的句子。本文试图就句头And作逻辑联系语所表示的逻辑 语义关系进行分类和概括 ;对句首And在语料库Slesson和97MET③ 之间所表示的逻辑 语义关系进行对... 基于英语语料库Brown - j,Lob - j① 和Slesson② 的调查 ,And连接两个或两个以上的句子。本文试图就句头And作逻辑联系语所表示的逻辑 语义关系进行分类和概括 ;对句首And在语料库Slesson和97MET③ 之间所表示的逻辑 语义关系进行对照 ;目的在于揭示中国学生英语初学者对And充当逻辑联系语并置于句首并不熟练这一事实 ;同时提出它对中学外语教学的启示。 展开更多
关键词 语料库 英语教学 语篇 逻辑联系语 And
原文传递
双语平行语料的预处理 被引量:1
19
作者 张霄军 陈小荷 《外语教育》 2007年第1期145-149,共5页
本文分析和讨论了双语平行语料库建设中的纯文本化、分词处理和文本对齐三个步骤,并认为它们是双语平行语料的预处理过程。探讨了各个步骤之间的关系以及各个步骤目前发展现状和存在的问题,对我国现已建成的汉英双语语料库也作了剖析说明。
关键词 平行语料 预处理 纯文本化 分词处理 文本对齐
原文传递
汉语中介语语音库的文本设计 被引量:8
20
作者 王玮 张劲松 《世界汉语教学》 CSSCI 北大核心 2019年第1期104-116,共13页
中介语语音库的构建面临一个文本设计问题:既要涵盖目的语的基本语音要素,又要严控其大小。因为文本过大,单人收录成本过高,不利于收集更多的话者被试。本文介绍我们面向汉语中介语语音库构建所提出的一套文本方案:在控制文本集大小的... 中介语语音库的构建面临一个文本设计问题:既要涵盖目的语的基本语音要素,又要严控其大小。因为文本过大,单人收录成本过高,不利于收集更多的话者被试。本文介绍我们面向汉语中介语语音库构建所提出的一套文本方案:在控制文本集大小的前提下,最大限度地涵盖更多的语音要素。除了单音节、音韵平衡双音节文本外,该方案还包含一个覆盖音段、声调、调联三音子、焦点语调且文本难度适中的最小句子集合,该句子集合由计算机算法从大语料库中搜索产生。我们认为基于这个录音文本,不仅能够收集到二语习得研究所关注的各种语音现象,还能够比较方便地获得大量的话者数量,从而更好地服务于语音习得及计算机辅助语音教学研究。 展开更多
关键词 汉语中介语语音 语音语料库 文本设计
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部