期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Clustering Text Data Streams 被引量:7
1
作者 刘玉葆 蔡嘉荣 +1 位作者 印鉴 傅蔚慈 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第1期112-128,共17页
Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. Howe... Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. However, most methods are similarity-based approaches and only use the TF,IDF scheme to represent the semantics of text data and often lead to poor clustering quality. Recently, researchers argue that semantic smoothing model is more efficient than the existing TF,IDF scheme for improving text clustering quality. However, the existing semantic smoothing model is not suitable for dynamic text data context. In this paper, we extend the semantic smoothing model into text data streams context firstly. Based on the extended model, we then present two online clustering algorithms OCTS and OCTSM for the clustering of massive text data streams. In both algorithms, we also present a new cluster statistics structure named cluster profile which can capture the semantics of text data streams dynamically and at the same time speed up the clustering process. Some efficient implementations for our algorithms are also given. Finally, we present a series of experimental results illustrating the effectiveness of our technique. 展开更多
关键词 CLUSTERING database applications data mining text data streams
原文传递
基于GBDT和双层漂移检测的用户评论分类算法 被引量:1
2
作者 章涂义 刘三民 《湖北民族大学学报(自然科学版)》 2025年第1期60-66,共7页
为应对用户评论数据流中的概念漂移问题并提高算法的准确率,提出基于梯度提升决策树(gradient boosted decision tree, GBDT)和双层漂移检测(GBDT with double-layer drift detection, GBDT-D3)的用户评论分类算法。首先,通过计算GBDT... 为应对用户评论数据流中的概念漂移问题并提高算法的准确率,提出基于梯度提升决策树(gradient boosted decision tree, GBDT)和双层漂移检测(GBDT with double-layer drift detection, GBDT-D3)的用户评论分类算法。首先,通过计算GBDT算法中的损失改进比率快速检测潜在漂移。接着,在漂移警告基础上监测数据块中样本质心的移动情况,以精确验证漂移。然后,通过双层漂移检测机制降低用户评论数据流中的漂移误报与漏报,同时增强对动态文本数据流的分类。最后,根据双层漂移检测报告更新GBDT算法,提升分类算法的稳定性。在7个真实用户兴趣漂移文本数据集上开展实验,结果表明GBDT-D3算法在分类准确性和性能稳定性方面明显优于传统在线集成学习算法。GBDT-D3算法能够高效识别用户评论数据流中的概念漂移并增强分类精度,为动态文本数据流的分类任务提供了有效解决方案。 展开更多
关键词 文本数据流分类 概念漂移检测 用户评论 梯度提升决策树 数据分布
在线阅读 下载PDF
时态文本数据流特征流行趋势模型及算法 被引量:8
3
作者 孟志青 许微微 《计算机科学》 CSCD 北大核心 2019年第B06期417-422,共6页
当今在电商和社交等平台上每天会产生大量的文本数据流。快速提取文本数据流的特征并将其用于发现一些事物的趋势变化来指导企业运营十分重要,比如服装企业必须尽可能快速而又准确地感知流行信息,服装特征的流行趋势对设计生产与经营起... 当今在电商和社交等平台上每天会产生大量的文本数据流。快速提取文本数据流的特征并将其用于发现一些事物的趋势变化来指导企业运营十分重要,比如服装企业必须尽可能快速而又准确地感知流行信息,服装特征的流行趋势对设计生产与经营起着至关重要的作用。以线上商品的文本数据流为研究对象,结合线上的销售文本实时数据流,定义了商品的时态文本数据流特征趋势模型,然后提出了一种文本数据流特征趋势发现的实时挖掘算法。将该算法应用到服装销售的文本描述以提取流行特征应用,可以获得有效的服装流行趋势,为企业制定生产计划、选择营销策略提供了决策支持。使用电商平台的真实销售数据进行实验,结果证明:该算法提取流行特征的准确率较高、速度较快,具有重要的理论与实际意义。 展开更多
关键词 时态文本模型 文本数据流 特征快速提取 实时挖掘算法
在线阅读 下载PDF
一种新的演化文本流聚类算法
4
作者 邓维维 彭宏 《计算机科学》 CSCD 北大核心 2007年第9期125-127,162,共4页
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它... 数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。 展开更多
关键词 聚类 数据流 文本流
在线阅读 下载PDF
基于Python语言的文本数据流自适应分类方法
5
作者 彭文良 虞燕花 《宁夏师范学院学报》 2022年第1期106-112,共7页
传统数据分析技术无法对动态数据进行分类,造成了分类过程加速较慢的问题.为此,设计基于Python语言的文本数据流自适应分类方法.将网络数据采集过程构建为模型的形式,获取文本数据流信息.将Python语言与网络爬虫技术应用到数据预处理与... 传统数据分析技术无法对动态数据进行分类,造成了分类过程加速较慢的问题.为此,设计基于Python语言的文本数据流自适应分类方法.将网络数据采集过程构建为模型的形式,获取文本数据流信息.将Python语言与网络爬虫技术应用到数据预处理与挖掘过程中,为后续处理提供精准度较高的数据基础.使用半监督学习半聚类分析方法构建分类器,完成文本数据流自适应分类过程.实验结果表明本文方法在提高分类加速度的同时,优化了数据分类结果,具有一定的使用价值. 展开更多
关键词 PYTHON语言 文本数据流 分类器 机器学习算法
在线阅读 下载PDF
基于语义的文本数据流概念漂移检测算法 被引量:5
6
作者 储光 胡学钢 张玉红 《计算机工程》 CAS CSCD 北大核心 2018年第2期24-30,共7页
文本数据流中概念的频繁漂移导致有效信息不足,从而使得漂移检测和数据流分类准确率下降。针对该问题,引入潜在狄利克雷分布模型并考虑文本数据流隐含的语义信息,提出一种新的概念漂移检测算法。计算相邻模块中词和主题特征空间的语义... 文本数据流中概念的频繁漂移导致有效信息不足,从而使得漂移检测和数据流分类准确率下降。针对该问题,引入潜在狄利克雷分布模型并考虑文本数据流隐含的语义信息,提出一种新的概念漂移检测算法。计算相邻模块中词和主题特征空间的语义相似度,其中主题的相似度根据主题-单词概率分布进行评估,当2个特征空间相似度都较低时判断为发生概念漂移。实验结果表明,与DDM、CDRDT、DWCDS、HDDM-W-Test和REDLLA算法相比,该算法对文本数据流中概念漂移的检测性能均有所提升,尤其在概念频繁漂移时可以显著减少漏检数量。 展开更多
关键词 概念漂移 语义 漂移检测 潜在狄利克雷分布模型 文本数据流分类
在线阅读 下载PDF
扩展DPMM模型在短文本主题识别中的应用
7
作者 汪海波 《计算机应用与软件》 CSCD 北大核心 2014年第8期191-195,共5页
近年来,话题检测与追踪(TDT)得到广泛研究。然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题。提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT。介绍DPMM在话题识别中的应用以及讨论两种专门用来解决... 近年来,话题检测与追踪(TDT)得到广泛研究。然而,研究主要基于常规的新闻,扩展到短篇报道依然有问题。提出基于耿氏混合模型(DPMM)的话题识别方法,以统一的模型处理话题切分和TDT。介绍DPMM在话题识别中的应用以及讨论两种专门用来解决短篇报道的稀疏问题的方案。一个是算法流程,将话题识别的处理单元由单个短文本转为会话。另一个是扩展DPMM模型,当估算与已知的话题的关联词时考虑字的依赖。随后,通过同时处理话题切分和TDT来识别自发文本流的话题。DPMM模型的优势在于混合组件的数量不必提前确定,并且不需要话题数量与内容的前期准备,因此它更加适合流文本话题识别。实验结果表明,DPMM模型对处理短文本数据的话题识别是有效的。 展开更多
关键词 话题识别 混合模型 扩展耿氏过程 流数据 静态短文本
在线阅读 下载PDF
基于Spark的快速短文本数据流分类方法 被引量:1
8
作者 胡阳 胡学钢 李培培 《计算机工程与应用》 CSCD 北大核心 2020年第14期138-147,共10页
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提... 微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。 展开更多
关键词 短文本数据流分类 分布式处理 Spark环境 概念漂移
在线阅读 下载PDF
一种基于时间流特性的垃圾邮件过滤方法
9
作者 徐隽 郑佳谦 +1 位作者 姚静 牛军钰 《中文信息学报》 CSCD 北大核心 2009年第1期79-85,111,共8页
垃圾邮件过滤具有处理规模巨大,数据无限递增、动态变化等流数据特征,传统的垃圾邮件过滤方法利用静态的文本特征提取方法,无法体现流数据特征随时间动态变化的特点。该文提出一种基于时间流特性来实时调整有效特征的垃圾邮件过滤方法,... 垃圾邮件过滤具有处理规模巨大,数据无限递增、动态变化等流数据特征,传统的垃圾邮件过滤方法利用静态的文本特征提取方法,无法体现流数据特征随时间动态变化的特点。该文提出一种基于时间流特性来实时调整有效特征的垃圾邮件过滤方法,在TREC Spam Track语料集上的测试结果表明,该方法在保证垃圾邮件过滤高准确率的同时,使垃圾邮件过滤计算的时间性能和空间性能更加优化。 展开更多
关键词 计算机应用 中文信息处理 垃圾邮件 流数据 时间流 文本分类 特征选择
在线阅读 下载PDF
ASP技术在用户登录中的应用
10
作者 龙怡瑄 王晓晨 《电脑知识与技术》 2006年第9期52-52,93,共2页
本文主要介绍如何利用ASP技术在网页中实现登录和认证。通过用户名与密码进行验证,验证通后才能进入网页,从而阻断非法用户对重要网页的访问,并给出一个程序的范例。
关键词 超文本标记语言 动态服务器网页 超文本传输协议 对象 事务 数据流 全局变量
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部