期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Improving Classification Performance with Single-category Concept Match
1
作者 尹中航 Wang +4 位作者 Yongcheng Song Juping Cai Wei 《High Technology Letters》 EI CAS 2001年第4期20-22,共3页
Discarding more and more complicated algorithms, this paper presents a new classification algorithm with single category concept match. It also introduces the method to find such concepts, which is important to the al... Discarding more and more complicated algorithms, this paper presents a new classification algorithm with single category concept match. It also introduces the method to find such concepts, which is important to the algorithm. Experiment results show that it can improve classification precision and accelerate classification speed to some extent. 展开更多
关键词 subject concept string match information processing
在线阅读 下载PDF
利用串匹配技术实现网上新闻的主题提取(英文) 被引量:11
2
作者 尹中航 王永成 +1 位作者 蔡巍 韩客松 《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上... 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 展开更多
关键词 网页 信息处理 网上新闻 主题提取 自然语言处理 串匹配技术
在线阅读 下载PDF
快速中文字符串模糊匹配算法 被引量:23
3
作者 陈开渠 赵洁 彭志威 《中文信息学报》 CSCD 北大核心 2004年第2期58-65,共8页
本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将... 本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将会是一个问题。本文改进了位向量方法 ,使其在应用于中文字符串时 ,空间需求降低到约 5 %。本文还利用汉字非常多的特点 ,提出一种新的基于过滤方法的中文字符串模糊匹配算法 ,BPM BM ,其速度比世界上最快的算法至少提高 14 %;在大部分情况下 ,是其速度的 1 5~ 2倍。 展开更多
关键词 计算机应用 中文信息处理 字符串匹配 模糊匹配 中文字符串匹配
在线阅读 下载PDF
一种改进的Wu-Manber多模式匹配算法及应用 被引量:10
4
作者 孙晓山 王强 +1 位作者 关毅 王晓龙 《中文信息学报》 CSCD 北大核心 2006年第2期47-52,共6页
本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manbe... 本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manber算法、使用后缀模式的改进算法、不使用后缀模式的简单改进等三种算法的匹配过程中字符比较的次数。实验结果说明,本文的改进能够比较稳定的减少匹配过程中字符比较的次数,提高匹配的速度和效率。 展开更多
关键词 计算机应用 中文信息处理 多模式匹配 后缀模式 字符串匹配 全文检索 信息检索
在线阅读 下载PDF
基于特征串的大规模中文网页快速去重算法研究 被引量:42
5
作者 吴平博 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第2期28-35,共8页
网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基... 网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。 展开更多
关键词 计算机应用 中文信息处理 特征串 模糊匹配 去重算法 冗余网页
在线阅读 下载PDF
面向信息内容安全的文本过滤和分类系统研究与实现 被引量:2
6
作者 万国根 秦志光 《计算机科学》 CSCD 北大核心 2005年第7期159-161,共3页
本文设计并实现了一个面向信息内容安全应用的文本过滤与自动分类系统。系统采取探测器和分类器两个步骤实现高速网络环境下数据截取、还原、分类的功能。探测器采取简单规则匹配和高速字符串匹配算法来提高数据截取和自身的过滤性能,... 本文设计并实现了一个面向信息内容安全应用的文本过滤与自动分类系统。系统采取探测器和分类器两个步骤实现高速网络环境下数据截取、还原、分类的功能。探测器采取简单规则匹配和高速字符串匹配算法来提高数据截取和自身的过滤性能,分类器采取基于简单向量空间模型设计,采取自动学习和人工干预相结合的方法来提高系统的查准率和查全率。本文给出了探测器和分类器在实际应用时的技术性能。 展开更多
关键词 文本过滤 系统研究 内容安全 面向 自动分类系统 数据截取 网络环境下 分类器 探测器 安全应用 信息内容 过滤性能 匹配算法 规则匹配 模型设计 向量空间 人工干预 自动学习 技术性能 字符串 查全率 查准率 高速
在线阅读 下载PDF
XML内容筛选中的快速串匹配算法 被引量:3
7
作者 刘萍 谭建龙 《中文信息学报》 CSCD 北大核心 2005年第2期20-27,共8页
本文提出了一种对XML文本进行快速串匹配的算法 -XMatch。在对于XML文本的含路径信息的模式串匹配中 ,由于XML文本的结构化特点 ,使得传统的串匹配算法不能直接有效的使用 ;而现有的大部分XML内容筛选方法都是基于SAX分析的事件驱动过... 本文提出了一种对XML文本进行快速串匹配的算法 -XMatch。在对于XML文本的含路径信息的模式串匹配中 ,由于XML文本的结构化特点 ,使得传统的串匹配算法不能直接有效的使用 ;而现有的大部分XML内容筛选方法都是基于SAX分析的事件驱动过程 ,效率普遍较低。XMatch在对XML文本的结构 -schema进行分析的同时 ,结合模式串的路径信息 ,建立一个扫描自动机的有限状态自动机 ;此外 ,算法还支持带循环引用路径信息的模式串匹配。XMatch容易扩展 ,可以支持普通的结构化文本的串匹配。实验结果显示 ,本算法的效率比使用SAX事件驱动的方法有明显的提高。 展开更多
关键词 计算机应用 中文信息处理 XML数据处理 串匹配 多关键词匹配
在线阅读 下载PDF
无词典中英文混合术语抽取及算法研究 被引量:2
8
作者 姜韶华 党延忠 《情报学报》 CSSCI 北大核心 2006年第3期301-305,共5页
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需... 中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。 展开更多
关键词 中英文混合术语 中文信息处理 串频 长串优先 算法 词典
在线阅读 下载PDF
基于概念匹配的中文问答处理模型核心问题探讨 被引量:2
9
作者 吴晨 张全 《中文信息学报》 CSCD 北大核心 2006年第4期49-55,共7页
为了解决问答处理系统中的语义模糊问题,提高问答处理的性能,研究人员尝试采用概念作为系统处理的对象,而不再是语言表层符号,然而,在引入概念进行处理的同时引来了一些新的问题,如概念的抽取、概念关联计算以及特定于问答系统的问题理... 为了解决问答处理系统中的语义模糊问题,提高问答处理的性能,研究人员尝试采用概念作为系统处理的对象,而不再是语言表层符号,然而,在引入概念进行处理的同时引来了一些新的问题,如概念的抽取、概念关联计算以及特定于问答系统的问题理解、问题求解、答案生成等问题。在概念抽取、概念关联计算方面,已有一些比较成功的算法。本文将在此基础上,针对实现这样一个问答处理系统所存在的一些未涉及的核心问题进行一个探讨,同时提出解决以上问题的方法。实验及实际应用表明基于所提出算法的概念问答系统具有较强的性能,系统总体自动处理准确率将近达到40%。在实际应用中也表现出较高的应用价值。 展开更多
关键词 计算机应用 中文信息处理 中文问答系统 语言概念空间 核心问题研究 概念匹配 算法
在线阅读 下载PDF
一种改进的Wu-Manber多关键字匹配算法 被引量:4
10
作者 莫德敏 刘耀军 《中文信息学报》 CSCD 北大核心 2009年第1期30-34,共5页
针对Wu-Manber算法在处理公共子后缀模式情况下的不足,该文提出了一种基于非空公共子后缀模式的处理算法。该算法把有非空公共子后缀的模式汇集在一起,进一步减小了next链表的平均长度。在匹配过程中减少了字符比较的次数,从而提高算法... 针对Wu-Manber算法在处理公共子后缀模式情况下的不足,该文提出了一种基于非空公共子后缀模式的处理算法。该算法把有非空公共子后缀的模式汇集在一起,进一步减小了next链表的平均长度。在匹配过程中减少了字符比较的次数,从而提高算法的运行效率。该文对搜狗实验室给出的相关文档进行全文检索实验,并和原Wu-Manber算法、孙晓山等提出的改进算法进行比较。实验结果表明,该文提出的改进算法有效地减少了匹配过程中字符比较的次数,从而提高匹配的速度和效率。 展开更多
关键词 计算机应用 中文信息处理 Wu—Manber算法 多关键字匹配 模式匹配 字符串匹配
在线阅读 下载PDF
基于标引信息的网络新概念发现算法
11
作者 夏霙 刘功申 李翔 《微型电脑应用》 2007年第1期8-10,66,共3页
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以为网络信息智能处理、网络有效信息识别提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了提高新概念发现的准确率,算法不但采用了传统的... 网络新概念的发现和识别是信息安全领域的一个基础技术,它可以为网络信息智能处理、网络有效信息识别提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了提高新概念发现的准确率,算法不但采用了传统的分词、串频统计技术,而且还采用了字偏旁部首自动组合、网站间串频同现等新技术。实验证明,算法识别的潜在新概念中可接受率完全可以满足当前的应用需求。 展开更多
关键词 新概念 串频统计 信息处理 网络挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部