期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
面向RAG的文本分块语义连贯性检测方法研究
1
作者 曹启航 郑欣 《自动化应用》 2025年第8期124-128,131,共6页
随着检索增强生成(RAG)技术的不断发展,文本分块作为文本预处理的重要环节,对于RAG问答系统中的文本检索和答案生成任务具有关键作用。在实际应用中,如何在保证分块粒度合理的同时,确保分块内部语义高度连续、不同分块之间语义跳跃明显... 随着检索增强生成(RAG)技术的不断发展,文本分块作为文本预处理的重要环节,对于RAG问答系统中的文本检索和答案生成任务具有关键作用。在实际应用中,如何在保证分块粒度合理的同时,确保分块内部语义高度连续、不同分块之间语义跳跃明显,是值得深入研究的问题。因此,基于“内部一致性损失”和“边界连贯性损失”的文本分块语义连贯性检测算法被提出,并通过拒绝采样和微调训练大模型等方法进一步优化文本分块效果。实验结果表明,所提检测算法能有效检测文本分块的语义连贯性,从而改善RAG问答系统的检索效果。 展开更多
关键词 文本分块 语义连贯性 拒绝采样 大语言模型 RAG技术
在线阅读 下载PDF
基于连接文法的双语E-Chunk获取方法 被引量:3
2
作者 吕学强 陈文亮 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第9期829-832,共4页
提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法... 提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语E Chunk的识别技术和双语E Chunk获取方法·双语E Chunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持· 展开更多
关键词 连接文法 E-chunk 获取方法 自然语言处理 连接因子 双语对齐 词义消歧 机器翻译
在线阅读 下载PDF
基于SVM的中文组块分析 被引量:50
3
作者 李珩 朱靖波 姚天顺 《中文信息学报》 CSCD 北大核心 2004年第2期1-7,共7页
基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作... 基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。 展开更多
关键词 计算机应用 中文信息处理 支持向量机 结构风险最小化 文本组块 SVM 分类算法
在线阅读 下载PDF
基于增益的隐马尔科夫模型的文本组块分析 被引量:9
4
作者 李珩 杨峰 +1 位作者 朱靖波 姚天顺 《计算机科学》 CSCD 北大核心 2004年第2期152-154,192,共4页
本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马... 本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程,只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示,该方法在文本组块分析方面是有效的。 展开更多
关键词 中文信息处理 隐马尔科夫模型 文本组块分析 支持向量机 状态转移函数
在线阅读 下载PDF
基于Stacking算法的组合分类器及其应用于中文组块分析 被引量:18
5
作者 李珩 朱靖波 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第5期844-848,共5页
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别... 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果. 展开更多
关键词 叠加式 多分类器 文本组块
在线阅读 下载PDF
基于改进K-均值聚类的汉语语块识别 被引量:4
6
作者 梁颖红 赵铁军 +2 位作者 于浩 姚健民 徐冰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1106-1109,共4页
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导... 为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的. 展开更多
关键词 K-均值聚类 汉语语块识别 数据稀疏
在线阅读 下载PDF
科技文本中的it评价性词块:语料库驱动的短语对等原则与方法 被引量:8
7
作者 张乐 陆军 《外语教学》 CSSCI 北大核心 2015年第5期35-39,共5页
本文在Sinclair"成语原则"理论框架下,采用语料库驱动的翻译对等研究方法,利用平行语料库和可比语料库,探讨英语科技文本中以it为形式主语、表达评价意义的句级词块,并确立其汉语对等语。研究表明:1)英语科技文本中有大量复... 本文在Sinclair"成语原则"理论框架下,采用语料库驱动的翻译对等研究方法,利用平行语料库和可比语料库,探讨英语科技文本中以it为形式主语、表达评价意义的句级词块,并确立其汉语对等语。研究表明:1)英语科技文本中有大量复现it评价性词块,表达态度和评价意义;2)可比语料库和平行语料库的日渐兴起为跨语言短语对等研究开辟新的途径;3)词语共现行为对确立跨语言短语对等有重要作用和影响。 展开更多
关键词 科技文本 it评价性词块 跨语言对等 成语原则 共现
原文传递
文本语块识别典型方法的比较与分析 被引量:2
8
作者 梁颖红 曹军 《计算机技术与发展》 2008年第11期76-79,共4页
文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采... 文本语块识别在自然语言处理领域具有重要作用。以WINNOW、支持向量机和感知器三种典型的语块识别方法为对象,从模型和特征两方面对每种方法进行了剖析,并比较和分析了三种方法与隐马尔科夫模型的优缺点,指出如果为了避免数据稀疏而只采用"词性"特征来识别多种语块,那些对于"词"敏感的短语准确率将会很低。因此针对不同的语块采用不同的特征和策略,不同短语的识别相互借鉴,把不同语块的识别集成在一起,将会起到很好的效果。 展开更多
关键词 文本语块识别 支持向量机 感知器 WINNOW 隐马尔科夫模型
在线阅读 下载PDF
一种基于公共词块的英文短文本相似度算法 被引量:7
9
作者 黄贤英 刘英涛 饶勤菲 《重庆理工大学学报(自然科学)》 CAS 2015年第8期88-93,共6页
短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠... 短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠相似度算法与公共词块间的词序相似度算法相结合,并采用自适应的加权组合方式得到短文本相似度值。实验结果显示:与传统算法相比,该算法在稳定性和F值方面都具有较好的结果。 展开更多
关键词 短文本 词序 公共词块 相似度算法
在线阅读 下载PDF
基于规则的大规模试卷文本语块识别方法的研究 被引量:4
10
作者 郭凯红 李文立 《计算机应用研究》 CSCD 北大核心 2009年第4期1391-1393,1401,共4页
提出了一种基于规则的试卷文本语块识别方法,有效解决了试题库中大规模试题数据的初始化问题。通过定义文本语块识别规则,构建自动机识别模型,在理论上描述了试卷文本的识别过程。实验表明,该模型具有良好的性能,在此基础上,实现了一个... 提出了一种基于规则的试卷文本语块识别方法,有效解决了试题库中大规模试题数据的初始化问题。通过定义文本语块识别规则,构建自动机识别模型,在理论上描述了试卷文本的识别过程。实验表明,该模型具有良好的性能,在此基础上,实现了一个原型系统,通过具体的应用实例验证了该方法的可行性和有效性。 展开更多
关键词 规则 语块 试卷文本 识别模型
在线阅读 下载PDF
文化场域中法律文本的“词块”翻译研究 被引量:1
11
作者 朱雪林 黄巧亮 《齐齐哈尔大学学报(哲学社会科学版)》 2015年第12期113-114,共2页
法律文本的翻译不仅是语言表层的翻译,更是其背后深层的法律文化与法律思想的翻译,在法律文化的场域中,译者可以词块做为翻译的基本单位进行法律文本的翻译,进而达致译文与原文的等效。
关键词 法律文本 词块 文化场域
在线阅读 下载PDF
预制语块与大学英语写作 被引量:109
12
作者 戚焱 《山东外语教学》 2005年第5期64-66,共3页
预制语块是英语学习的重要内容之一,它介于语法和词汇之间,是整体习得并储存在记忆中的范例.这是一种普遍存在于二语习得过程中,却被经常忽略的语言现象.本文从预制语块的定义和分类出发,归纳并探讨预制语块在大学英语写作教学中的地位... 预制语块是英语学习的重要内容之一,它介于语法和词汇之间,是整体习得并储存在记忆中的范例.这是一种普遍存在于二语习得过程中,却被经常忽略的语言现象.本文从预制语块的定义和分类出发,归纳并探讨预制语块在大学英语写作教学中的地位和作用,主要表现在以下三个方面:一是增加写作的流利性;二是提高语言表达的地道性和生动性;三是有利于培养语篇组织能力. 展开更多
关键词 预制语块 写作 流利性 地道性 语篇能力
在线阅读 下载PDF
英语语块与大学英语写作 被引量:14
13
作者 郭晓英 《兰州交通大学学报》 CAS 2008年第2期116-118,共3页
语块是英语学习的重要内容之一,它介于语法和词汇之间,是整体习得并储存在记忆中的范例,是一种普遍存在于英语习得过程中,却被经常忽略的语言现象。本文从语块的定义和分类出发,归纳并探讨语块在大学英语写作中的地位和作用,主要表现在... 语块是英语学习的重要内容之一,它介于语法和词汇之间,是整体习得并储存在记忆中的范例,是一种普遍存在于英语习得过程中,却被经常忽略的语言现象。本文从语块的定义和分类出发,归纳并探讨语块在大学英语写作中的地位和作用,主要表现在:语块将有助于提高语言表达的地道性和生动性;有利于增强选词能力,提高语言表达的准确性;有利于增强语言表达的流利性;提高组篇能力。 展开更多
关键词 语块 写作 流利性 地道性 组篇能力
在线阅读 下载PDF
基于依存结构的语块分析
14
作者 宋守云 李莉 《广东农业科学》 CAS CSCD 北大核心 2010年第7期195-197,共3页
语块分析在自然语言处理研究中占有重要的地位。传统方法将语块分析看作是序列标注任务,但由于受到马尔可夫假设的限制,无法对较长语块进行分析建模。提出了基于依存结构的语块分析方法,通过建立语块的中心词和其他词之间的依存关系,方... 语块分析在自然语言处理研究中占有重要的地位。传统方法将语块分析看作是序列标注任务,但由于受到马尔可夫假设的限制,无法对较长语块进行分析建模。提出了基于依存结构的语块分析方法,通过建立语块的中心词和其他词之间的依存关系,方便了较长语块的分析建模。研究表明,该方法提升了较长语块的分析性能。 展开更多
关键词 嵌套 依存结构 语块分析
在线阅读 下载PDF
排比的篇章特点 被引量:14
15
作者 李胜梅 《南昌大学学报(人文社会科学版)》 北大核心 2005年第5期121-127,共7页
排比各项所构成的一个整体可称为“排比块”,这样的言语板块是语篇中特别醒目的言语片段。处于散句中的排比块是说写者表达用力、表义突出、用情最深的部分,也是听读者感受特别鲜明之处。排比块与上下文有其联系类型、造句功能、谋篇功... 排比各项所构成的一个整体可称为“排比块”,这样的言语板块是语篇中特别醒目的言语片段。处于散句中的排比块是说写者表达用力、表义突出、用情最深的部分,也是听读者感受特别鲜明之处。排比块与上下文有其联系类型、造句功能、谋篇功能、语篇位置、连用情况、表义传情效果等。将排比作为一个整体放在语篇中来考察的思路和视角使我们对排比获得了更为全面、更富有新意的认识。 展开更多
关键词 排比 排比块 排比项 语篇 上下文 造句功能 谋篇功能
在线阅读 下载PDF
词块教学促进大学生英语听力提高的实验研究 被引量:1
16
作者 刘小杏 张旭 《河北软件职业技术学院学报》 2013年第1期37-40,共4页
词块在自然语言中普遍存在,对促进语言习得和语言输出意义重大。鉴于当前大学生英语听说水平发展缓慢的现状,笔者以普通本科院校大一新生为研究对象,进行了为期17周的词块教学课堂实验来验证其对大学生英语听力的影响。数据统计结果显示... 词块在自然语言中普遍存在,对促进语言习得和语言输出意义重大。鉴于当前大学生英语听说水平发展缓慢的现状,笔者以普通本科院校大一新生为研究对象,进行了为期17周的词块教学课堂实验来验证其对大学生英语听力的影响。数据统计结果显示,在交互环境下进行的词块教学不同程度地提高了学生的对话理解、篇章理解、单词拼写和句子听写能力,其教学效果优于交际教学法。 展开更多
关键词 词块教学 对话理解 篇章理解 单词拼写 句子听写
在线阅读 下载PDF
基于语料库的科技汉语语块研究 被引量:2
17
作者 代睿 《辽宁工程技术大学学报(社会科学版)》 2021年第3期232-240,共9页
以语块理论为指导,以科技汉语中的语块为研究对象,采用语料库研究方法,基于自建的汉语科技论文语料库,运用语料库分析软件AntConc,以频率为基础考察科技汉语中的2-6词语块,对其进行定性及定量分析。根据科技汉语的特点,区分术语语块与... 以语块理论为指导,以科技汉语中的语块为研究对象,采用语料库研究方法,基于自建的汉语科技论文语料库,运用语料库分析软件AntConc,以频率为基础考察科技汉语中的2-6词语块,对其进行定性及定量分析。根据科技汉语的特点,区分术语语块与非术语语块,从内部结构、外部功能两个视角对语块进行特征分析,区分了7个结构大类及其各自小类,2个功能大类及其各自小类,并对各类语块的数量及频率进行统计。研究结果对科技汉语教学以及各类专门用途汉语教学具有一定的启示作用。 展开更多
关键词 语块 科技汉语 语料库 结构 功能
原文传递
以语块为核心的科技汉语教学策略研究 被引量:2
18
作者 代睿 《教学研究》 2020年第6期68-75,共8页
语块理论对二语习得具有重要意义。基于对科技汉语语篇中语块的提取和分析,提出应以语块为核心进行科技汉语教学,以提高学生语言理解、记忆和产出的速度、准确性和流畅性。根据科技汉语语块的类型和特点,提出4点教学策略,以提高学生辨... 语块理论对二语习得具有重要意义。基于对科技汉语语篇中语块的提取和分析,提出应以语块为核心进行科技汉语教学,以提高学生语言理解、记忆和产出的速度、准确性和流畅性。根据科技汉语语块的类型和特点,提出4点教学策略,以提高学生辨识、理解、学习、记忆、综合运用语块的能力。 展开更多
关键词 语块 科技汉语 教学策略
在线阅读 下载PDF
研究生英语写作应注意的几个问题 被引量:1
19
作者 向巧云 《吉首大学学报(社会科学版)》 2008年第6期139-141,共3页
研究生英语写作中应该注意词块的应用、语篇衔接手段的使用、克服汉语负迁移的影响等问题。
关键词 词块 衔接 负迁移 语篇 研究生 英语写作能力
在线阅读 下载PDF
EFL学习者内部变量与听力语篇词块附带习得记忆的相关性研究
20
作者 钟志英 《英语研究》 2012年第3期59-63,共5页
对61名两组2010级英语专业本科生,分别使用了笔头和口头合作输出任务,考察了英语新闻听力语篇中词块的附带习得记忆能力(本研究中量化为三次记忆测试的结果:即时习得量或记忆量、一周记忆保持量和六周记忆保持量)与五种与学习者语言水... 对61名两组2010级英语专业本科生,分别使用了笔头和口头合作输出任务,考察了英语新闻听力语篇中词块的附带习得记忆能力(本研究中量化为三次记忆测试的结果:即时习得量或记忆量、一周记忆保持量和六周记忆保持量)与五种与学习者语言水平有关变量(英语总体水平、被动词汇量、主动词汇量、听力水平和阅读水平)的关系。研究结果显示:学习者听力语篇中附带习得词块的记忆能力与主动词汇量、二语听力水平和阅读水平呈显著相关;与高考英语水平与被动词汇量都正相关但并未呈显著性。建议学习者激活3000词频以内高频词和提高二语听力水平和阅读水平以促进听力语篇词块附带习得。 展开更多
关键词 听力语篇 词块 附带习得
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部