期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于位串数组的关联规则挖掘算法 被引量:3
1
作者 孟祥萍 钱进 +2 位作者 冯雷 郑文 张维俊 《计算机工程与应用》 CSCD 北大核心 2004年第8期177-178,192,共3页
挖掘关联规则是数据挖掘研究的一个重要方面。然而,目前提出的算法仍存在一些问题,如复杂的数据结构、候选项集生成等等。该文使用更简单的数据结构———位串数组,并提出了一种新的挖掘算法。该方法能通过并行投影和压缩技术扩展到大... 挖掘关联规则是数据挖掘研究的一个重要方面。然而,目前提出的算法仍存在一些问题,如复杂的数据结构、候选项集生成等等。该文使用更简单的数据结构———位串数组,并提出了一种新的挖掘算法。该方法能通过并行投影和压缩技术扩展到大数据库中进行挖掘规则。 展开更多
关键词 数据挖掘 关联规则 频繁项集 位串数组
在线阅读 下载PDF
中文高频词串的抽取及其在语言模型中的应用 被引量:2
2
作者 文娟 王小捷 《北京邮电大学学报》 EI CAS CSCD 北大核心 2009年第5期10-14,共5页
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语... 为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型. 展开更多
关键词 中文高频词串 字区分度 字串切分度 N元模型 音字转换
在线阅读 下载PDF
基于有向图的关联规则算法 被引量:5
3
作者 郑玲霞 李大学 马万里 《重庆邮电学院学报(自然科学版)》 2005年第4期495-498,共4页
提出了一种基于有向图的关联规则挖掘算法,采用了垂直二进制位图映射数据库,根据垂直二进制位图来生成有向图,将频繁项的二进制位串作为有向图的权值,通过分析有向图生成最大频繁项集,并给出了最大频繁项集挖掘算法的优势。
关键词 有向图 关联规则 垂直二进制位图 最大频繁项集 二进制位串
在线阅读 下载PDF
一种基于逐层扫描的频繁字串快速提取算法 被引量:1
4
作者 张宇萌 刘传汉 《计算机科学》 CSCD 北大核心 2008年第5期127-130,共4页
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词 频繁字串 中文抽词 逐层扫描 互信息
在线阅读 下载PDF
一种新的频繁模式挖掘算法 被引量:2
5
作者 叶海琴 廖利 +1 位作者 王意锋 张爱玲 《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第1期29-34,共6页
为了适应由于进行添加、删除、修改操作而频繁变化的数据库以及加速支持度求解过程,该文提出了一种新的频繁模式挖掘算法。该算法将顾客的一次购买行为转化为比特串,通过对比特串的操作,逐渐更新事务集的典型集,从而适应目前数据库的频... 为了适应由于进行添加、删除、修改操作而频繁变化的数据库以及加速支持度求解过程,该文提出了一种新的频繁模式挖掘算法。该算法将顾客的一次购买行为转化为比特串,通过对比特串的操作,逐渐更新事务集的典型集,从而适应目前数据库的频繁变化。典型集中包含了所有模式,根据支持度阈值可以从典型集中快速找到频繁模式。通过实例分析了该算法面对频繁变化数据库的过程,表明了该算法具有很强的适应数据库变化的能力,并能够根据给定的支持度阈值快速求出所需的频繁模式,仿真实验验证了该算法的有效性和可行性。 展开更多
关键词 频繁模式 挖掘算法 比特串 支持度 典型集 事务集
在线阅读 下载PDF
基于位串数组的最大频繁项目集挖掘算法 被引量:1
6
作者 张集祥 李桂杰 《计算机工程与科学》 CSCD 2006年第6期90-91,94,共3页
关联规则挖掘的主要性能由发现频繁项目集决定。频繁项目集是最大频繁项目集的子集,因而找到所有最大频繁项目集是问题的关键。本文使用位串数组的数据结构提出了一种挖掘最大频繁项目集的算法MMFI。该算法通过位串与操作直接得到最大... 关联规则挖掘的主要性能由发现频繁项目集决定。频繁项目集是最大频繁项目集的子集,因而找到所有最大频繁项目集是问题的关键。本文使用位串数组的数据结构提出了一种挖掘最大频繁项目集的算法MMFI。该算法通过位串与操作直接得到最大频繁项目集。 展开更多
关键词 数据挖掘 最大频繁项目集 位串数组
在线阅读 下载PDF
基于大规模语料划分的频繁模式查找算法 被引量:1
7
作者 丁溪源 黄河燕 +1 位作者 张海军 王树梅 《计算机科学》 CSCD 北大核心 2012年第3期149-152,169,共5页
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共... 频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。 展开更多
关键词 频繁模式 重复串 语料划分 子串归并
在线阅读 下载PDF
基于序列数据挖掘的中文网页特征选择方法 被引量:2
8
作者 谷峰 刘晨曦 吴扬扬 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期97-100,共4页
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结... 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. 展开更多
关键词 序列数据挖掘 PAT树 净频率 频繁字串 中文网页分类
在线阅读 下载PDF
一种基于串与运算的关联规则挖掘算法
9
作者 胡蓉 陈文 《东北电力学院学报》 2005年第2期12-15,共4页
提高频繁项集挖掘算法的效率一直是数据挖掘领域中关联规则挖掘研究的一个重点。针对数据挖掘的现状及关联规则算法的瓶颈问题,提出一种基于串与运算的关联规则挖掘算法,对该算法进行了阐述。最后对该算法的特点进行了总结并对关联规则... 提高频繁项集挖掘算法的效率一直是数据挖掘领域中关联规则挖掘研究的一个重点。针对数据挖掘的现状及关联规则算法的瓶颈问题,提出一种基于串与运算的关联规则挖掘算法,对该算法进行了阐述。最后对该算法的特点进行了总结并对关联规则挖掘的未来研究方向进行了展望。 展开更多
关键词 数据挖掘 关联规则 频繁项目 交易串
在线阅读 下载PDF
大规模语料中频繁模式增量发现算法 被引量:2
10
作者 廖豪 陈洁 谭建龙 《计算机工程》 CAS CSCD 北大核心 2011年第23期27-29,32,共4页
提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度,对局部相对低频字符串进行剪枝。利用多模式串匹配算法,统计剪枝后局部相对高频字符串在整个语料中的频度,得到频度大于阈值的频繁模式。实验结果表明,... 提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度,对局部相对低频字符串进行剪枝。利用多模式串匹配算法,统计剪枝后局部相对高频字符串在整个语料中的频度,得到频度大于阈值的频繁模式。实验结果表明,该算法具有较低的空间复杂度和时间复杂度,内存消耗为基于后缀数组的频繁模式发现算法的20%左右。 展开更多
关键词 频繁模式 增量式 多模式串匹配算法 后缀树 后缀数组
在线阅读 下载PDF
章回小说的有意义串发现算法
11
作者 李海涛 马振华 沈文华 《计算机工程与应用》 CSCD 北大核心 2010年第4期129-131,162,共4页
已有有意义串发现算法对于大规模语料中频繁出现的有意义串发现效果较好,而对于语料规模小,或者出现频次较低的有意义串识别效果不够理想。根据章回小说有意义串出现的特点,提出有意义串的局部性原理,并给出了字符串局部性的有效度量方... 已有有意义串发现算法对于大规模语料中频繁出现的有意义串发现效果较好,而对于语料规模小,或者出现频次较低的有意义串识别效果不够理想。根据章回小说有意义串出现的特点,提出有意义串的局部性原理,并给出了字符串局部性的有效度量方式。将字符串的局部性和语用独立性结合起来,使用局部性和独立性共同描述字符串为有意义串的可能性。实验结果表明:该方法对于章回小说有意义串发现的准确率高于已有方法,同时能够更有效地发现较多的低频有意义串。 展开更多
关键词 有意义串 章回小说 局部性度量 局部性约束 低频串
在线阅读 下载PDF
基于语义串抽取及主题相似度度量的维吾尔文文本分类 被引量:4
12
作者 吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2017年第4期100-107,共8页
该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本... 该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。 展开更多
关键词 维吾尔文 n元递增算法 语义串抽取 主题相似度 文本分类
在线阅读 下载PDF
应用软件特征字符串挖掘技术 被引量:1
13
作者 龚艺 胡勇 +2 位作者 方勇 刘亮 蒲伟 《信息安全与通信保密》 2012年第12期76-78,共3页
文章探究了如何利用频繁项挖掘技术寻找应用软件通信数据包中的特征字符串,该特征字符串具有大量重复出现,且在一台固定计算机上的某一应用软件通信中保持不变的特点。文中用几个认可度较高的应用软件为例,验证了用频繁项挖掘技术寻找... 文章探究了如何利用频繁项挖掘技术寻找应用软件通信数据包中的特征字符串,该特征字符串具有大量重复出现,且在一台固定计算机上的某一应用软件通信中保持不变的特点。文中用几个认可度较高的应用软件为例,验证了用频繁项挖掘技术寻找特征字符串的正确性并对实验结果做了对比说明,指出该特征字符串技术可用于识别计算机应用软件,以及计算机的追踪和防盗。 展开更多
关键词 应用软件 频繁项挖掘 特征字符串
原文传递
飞来峡电厂4~#机组桨叶接力器故障原因查找与分析 被引量:1
14
作者 肖南文 《广东水利水电》 2015年第10期60-63,共4页
飞来峡电厂4~#机组调速器油泵频繁泵油的现象,其直接原因是桨叶接力器缸铜套骑缝螺栓脱落至开启腔内,在活塞与缸体间刮擦,引起缸体材料崩裂,导致桨叶接力器开启腔和关闭腔串油。受损的桨叶接力器缸和活塞经过焊接、激光熔复和表面粗车... 飞来峡电厂4~#机组调速器油泵频繁泵油的现象,其直接原因是桨叶接力器缸铜套骑缝螺栓脱落至开启腔内,在活塞与缸体间刮擦,引起缸体材料崩裂,导致桨叶接力器开启腔和关闭腔串油。受损的桨叶接力器缸和活塞经过焊接、激光熔复和表面粗车处理后回装,4~#机组调速器油泵频繁泵油的现象消失,机组运行状况良好。 展开更多
关键词 飞来峡电厂 油泵启动频繁 串油
在线阅读 下载PDF
基于统计和浅层语言分析的维吾尔文语义串快速抽取 被引量:1
15
作者 吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2017年第4期70-79,共10页
该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模... 该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模式串结构完整性从而得到语义串。通过在不同规模的语料上实验发现,该方法可行有效,能够应用到维吾尔文文本挖掘多个领域。 展开更多
关键词 语义串 多层动态索引 词串扩展 可信频繁模式 邻接特征分析
在线阅读 下载PDF
一种工控协议识别中的特征字符串挖掘算法
16
作者 海洋 徐魁 +2 位作者 李晓辉 曾涛 陶军 《计算机技术与发展》 2024年第1期200-205,共6页
对工控协议的识别,是对工控协议开展研究的第一步。而在通信过程中频繁出现的字符串,是对工控协议识别中的重要特征。针对工控协议识别中特征字符串的提取问题,提出了一种自顶向下的频繁字符串挖掘算法,可以直接得到没有冗余的频繁字符... 对工控协议的识别,是对工控协议开展研究的第一步。而在通信过程中频繁出现的字符串,是对工控协议识别中的重要特征。针对工控协议识别中特征字符串的提取问题,提出了一种自顶向下的频繁字符串挖掘算法,可以直接得到没有冗余的频繁字符串集。同时,对于自顶向下方法中原始数据过于庞大、算法迭代次数较多等问题,借鉴了N-gram模型,提出了一种数据划分策略,解决了自顶向下处理时数据过大的问题。此外,在挖掘频繁字符串的过程中,采取了删除重叠项与字符串分裂相结合的方法。实验结果表明,该算法针对多种协议均能识别出其中的特征字符串;同时,利用识别出的字符串作为特征,在协议识别工作中也能取得良好的效果。可以得出结论,该算法能够较好地提取出工控协议中的特征字符串。 展开更多
关键词 频繁字符串 自顶向下 数据划分 特征提取 数据处理
在线阅读 下载PDF
基于位串数组的最大频繁项目集挖掘算法
17
作者 杨旭东 宋余庆 朱玉全 《华东船舶工业学院学报》 北大核心 2005年第1期32-36,共5页
在基于位串数组的数据挖掘算法的基础上,进一步提出了一种快速的基于位串数组的最大频繁项目集挖掘算法(BSA MFIA)。通过两次扫描事务数据库D,生成完全由“0”、“1”构成的位串数组。它非常适合于压缩编码存储,可以有效得减少存储空间... 在基于位串数组的数据挖掘算法的基础上,进一步提出了一种快速的基于位串数组的最大频繁项目集挖掘算法(BSA MFIA)。通过两次扫描事务数据库D,生成完全由“0”、“1”构成的位串数组。它非常适合于压缩编码存储,可以有效得减少存储空间。然后在位串数组的基础上,通过简单的位运算,产生最大频繁项目集,实验结果表明此方法是快速有效的。 展开更多
关键词 数据挖掘 最大频繁项目集 关联规则 位串数组
在线阅读 下载PDF
一种轻量级的服务端防SQL注入攻击方法 被引量:1
18
作者 付熙徐 龚希章 《盐城工学院学报(自然科学版)》 CAS 2019年第2期28-32,共5页
SQL注入攻击是针对基于数据库的网站和信息系统的一种常见攻击。通过非法的输入,攻击者可以绕开验证、非法获取内容甚至篡改系统数据。通常在客户端的验证可以被攻击者用跳过输入界面直接提交非法数据的方法攻击;而服务端的验证又会严... SQL注入攻击是针对基于数据库的网站和信息系统的一种常见攻击。通过非法的输入,攻击者可以绕开验证、非法获取内容甚至篡改系统数据。通常在客户端的验证可以被攻击者用跳过输入界面直接提交非法数据的方法攻击;而服务端的验证又会严重消耗服务器的资源。为了克服上述缺陷,通过对注入语句的分析,提出了一种轻量级的服务端验证方法,用文本挖掘的方法取得最不常见的字符串替换掉输入中的少数字符以阻止SQL注入攻击,同时最小化服务器用于验证输入合法性的资源。 展开更多
关键词 SQL注入 最不频繁字符串 信息安全 文本挖掘
在线阅读 下载PDF
网络协议特征的自动提取方法
19
作者 徐淑斌 《计算机安全》 2012年第4期59-61,共3页
介绍了提取网络协议特征的研究意义和传统方法,提出了自动提取协议特征的方法,提取流量中的频繁字符串作为协议的特征字符串。设计了实验分析方法,并阐述和分析了实验结果。实验结果表明,提出的方法能较准确地自动提取网络流量中的协议... 介绍了提取网络协议特征的研究意义和传统方法,提出了自动提取协议特征的方法,提取流量中的频繁字符串作为协议的特征字符串。设计了实验分析方法,并阐述和分析了实验结果。实验结果表明,提出的方法能较准确地自动提取网络流量中的协议特征字符串。 展开更多
关键词 网络安全 网络协议特征 自动提取 流量识别 频繁字符串
在线阅读 下载PDF
多策略融合的俄语文本词语提取方法研究
20
作者 唐菊香 孙怿晖 +2 位作者 廖晓 刘建国 于娟 《中国科技术语》 2021年第3期59-67,共9页
俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路”倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研... 俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路”倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研究目前还远未成熟,尤其是其关键基础——俄语文本词语提取的性能较低,阻碍着俄语文本建模的准确性。因此,文章提出一种多策略融合的俄语文本词语提取方法,结合俄语词性分析、语法规则和串频统计等多种方法,自动提取包含单词和短语在内的俄语词语。在联合国平行语料库和Taiga Corpus语料库上的实验结果表明,文章提出的方法在保证高召回率的同时,达到了85%以上的高准确率,显著优于常用的n-gram方法,能够为俄语文本主题发现和文本分/聚类等文本挖掘应用提供有效的词库。 展开更多
关键词 俄语文本挖掘 词语提取 词性标注 频繁词串
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部