期刊文献+
共找到136篇文章
< 1 2 7 >
每页显示 20 50 100
Big Data Stream Analytics for Near Real-Time Sentiment Analysis 被引量:1
1
作者 Otto K. M. Cheng Raymond Lau 《Journal of Computer and Communications》 2015年第5期189-195,共7页
In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedente... In the era of big data, huge volumes of data are generated from online social networks, sensor networks, mobile devices, and organizations’ enterprise systems. This phenomenon provides organizations with unprecedented opportunities to tap into big data to mine valuable business intelligence. However, traditional business analytics methods may not be able to cope with the flood of big data. The main contribution of this paper is the illustration of the development of a novel big data stream analytics framework named BDSASA that leverages a probabilistic language model to analyze the consumer sentiments embedded in hundreds of millions of online consumer reviews. In particular, an inference model is embedded into the classical language modeling framework to enhance the prediction of consumer sentiments. The practical implication of our research work is that organizations can apply our big data stream analytics framework to analyze consumers’ product preferences, and hence develop more effective marketing and production strategies. 展开更多
关键词 BIG data data stream ANALYTICS SENTIMENT analysis ONLINE Review
暂未订购
Sentiment Analysis on the Social Networks Using Stream Algorithms
2
作者 Nathan Aston Timothy Munson +3 位作者 Jacob Liddle Garrett Hartshaw Dane Livingston Wei Hu 《Journal of Data Analysis and Information Processing》 2014年第2期60-66,共7页
The rising popularity of online social networks (OSNs), such as Twitter, Facebook, MySpace, and LinkedIn, in recent years has sparked great interest in sentiment analysis on their data. While many methods exist for id... The rising popularity of online social networks (OSNs), such as Twitter, Facebook, MySpace, and LinkedIn, in recent years has sparked great interest in sentiment analysis on their data. While many methods exist for identifying sentiment in OSNs such as communication pattern mining and classification based on emoticon and parts of speech, the majority of them utilize a suboptimal batch mode learning approach when analyzing a large amount of real time data. As an alternative we present a stream algorithm using Modified Balanced Winnow for sentiment analysis on OSNs. Tested on three real-world network datasets, the performance of our sentiment predictions is close to that of batch learning with the ability to detect important features dynamically for sentiment analysis in data streams. These top features reveal key words important to the analysis of sentiment. 展开更多
关键词 Modified BALANCED WINNOW SENTIMENT analysis TWITTER Online Social Networks Feature Selection data streamS
在线阅读 下载PDF
Strategy for Data Stream Processing Based on Measurement Metadata: An Outpatient Monitoring Scenario 被引量:1
3
作者 Mario Diván Luis Olsina Silvia Gordillo 《Journal of Software Engineering and Applications》 2011年第12期653-665,共13页
In this work we discuss SDSPbMM, an integrated Strategy for Data Stream Processing based on Measurement Metadata, applied to an outpatient monitoring scenario. The measures associated to the attributes of the patient ... In this work we discuss SDSPbMM, an integrated Strategy for Data Stream Processing based on Measurement Metadata, applied to an outpatient monitoring scenario. The measures associated to the attributes of the patient (entity) under monitoring, come from heterogeneous data sources as data streams, together with metadata associated with the formal definition of a measurement and evaluation project. Such metadata supports the patient analysis and monitoring in a more consistent way, facilitating for instance: i) The early detection of problems typical of data such as missing values, outliers, among others;and ii) The risk anticipation by means of on-line classification models adapted to the patient. We also performed a simulation using a prototype developed for outpatient monitoring, in order to analyze empirically processing times and variable scalability, which shed light on the feasibility of applying the prototype to real situations. In addition, we analyze statistically the results of the simulation, in order to detect the components which incorporate more variability to the system. 展开更多
关键词 MEASUREMENT data stream Processing C-INCAMI STATISTICAL analysis
暂未订购
Twitter Sentiment in Data Streams with Perceptron
4
作者 Nathan Aston Jacob Liddle Wei Hu 《Journal of Computer and Communications》 2014年第3期11-16,共6页
With the huge increase in popularity of Twitter in recent years, the ability to draw information regarding public sentiment from Twitter data has become an area of immense interest. Numerous methods of determining the... With the huge increase in popularity of Twitter in recent years, the ability to draw information regarding public sentiment from Twitter data has become an area of immense interest. Numerous methods of determining the sentiment of tweets, both in general and in regard to a specific topic, have been developed, however most of these functions are in a batch learning environment where instances may be passed over multiple times. Since Twitter data in real world situations are far similar to a stream environment, we proposed several algorithms which classify the sentiment of tweets in a data stream. We were able to determine whether a tweet was subjective or objective with an error rate as low as 0.24 and an F-score as high as 0.85. For the determination of positive or negative sentiment in subjective tweets, an error rate as low as 0.23 and an F-score as high as 0.78 were achieved. 展开更多
关键词 SENTIMENT analysis TWITTER Grams PERCEPTRON data stream
暂未订购
基于Spark Streaming的实时数据分析系统及其应用 被引量:31
5
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 SPARK streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
在线阅读 下载PDF
基于Spark Streaming的实时数据采集分析系统设计 被引量:4
6
作者 党寿江 刘学 +1 位作者 王星凯 刘春梅 《网络新媒体技术》 2017年第5期48-53,共6页
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++... 大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。 展开更多
关键词 基数计算 实时数据分析 Spark流式处理 不重复计数 HyperLogLog++
在线阅读 下载PDF
基于Spark Streaming的电力流式大数据分析架构及应用 被引量:13
7
作者 田璐 齐林海 +3 位作者 李青 王红 田世明 卜凡鹏 《电力信息与通信技术》 2019年第2期23-29,共7页
近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、... 近年来,为了应对许多业务需求的实时性要求,大数据流计算得到了研究。文章通过使用Apache Hadoop、Spark Streaming、Kafka和NoSQL Cassandra等开源资源,提出了一种用于电力流式大数据分析的通用架构。通过高吞吐量发布-订阅消息传递、实时计算和分布式存储系统的结合有效地解决并发访问数据流的收集、存储、实时分析等问题,从而实现电力行业流数据的实时分析。最后构建用电数据实时异常检测系统验证了其性能。 展开更多
关键词 SPARK streamING 电力流式大数据 电力数据分析 异常检测
在线阅读 下载PDF
基于Spark Streaming的海量日志实时处理系统的设计 被引量:7
8
作者 陆世鹏 《电子产品可靠性与环境试验》 2017年第5期71-76,共6页
在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现... 在网络系统日志信息规模不断增长的情况下,结合运维中的实际需求,通过大数据技术,提出了一种基于Spark Streaming的海量日志实时处理系统,并详细地介绍了系统的底层日志数据收集、传输、计算、存储、查询存储等一系列功能的设计与实现。该系统不仅能够准确、实时地解析日志信息,对数据进行统计分析,而且能对历史日志数据进行实时存储和离线计算处理。 展开更多
关键词 大数据 SPARK streamING 日志分析 分布式计算
在线阅读 下载PDF
Impact of Distance Measures on the Performance of AIS Data Clustering
9
作者 Marta Mieczyńska Ireneusz Czarnowski 《Computer Systems Science & Engineering》 SCIE EI 2021年第1期69-82,共14页
Automatic Identification System(AIS)data stream analysis is based on the AIS data of different vessel’s behaviours,including the vessels’routes.When the AIS data consists of outliers,noises,or are incomplete,then th... Automatic Identification System(AIS)data stream analysis is based on the AIS data of different vessel’s behaviours,including the vessels’routes.When the AIS data consists of outliers,noises,or are incomplete,then the analysis of the vessel’s behaviours is not possible or is limited.When the data consists of outliers,it is not possible to automatically assign the AIS data to a particular vessel.In this paper,a clustering method is proposed to support the AIS data analysis,to qualify noises and outliers with respect to their suitability,and finally to aid the reconstruction of the vessel’s trajectory.In this paper,clustering results have been obtained using selected algorithms,including k-means,k-medoids,and fuzzy c-means.Based on the clustering results,it is possible to decide on the qualification of data with outliers and on their usefulness in the reconstruction of the vessel trajectory.The main aim of this paper is to answer how different distance measures during a clustering process can influence AIS data clustering quality.The main core question is whether or not they have an impact on the process of reconstruction of the vessel trajectories when the data are damaged.The research question during the computational experiments asked whether or not distance measure influence AIS data clustering quality.The computational experiments have been carried out using original AIS data.In general,the experiment and the results confirm the usefulness of the cluster-based analysis when the data include outliers that are derived from the natural environment.It is also possible to monitor and to analyse AIS data using clustering when the data include outliers.The computational experiment results confirm that the k-means with Euclidean distance has the best performance. 展开更多
关键词 AIS SAT-AIS AIS data stream CLUSTERING maritime data analysis
在线阅读 下载PDF
直播电商供应链渠道冲突分析及关键因素识别
10
作者 张智超 陈璐 魏玉环 《宜宾学院学报》 2025年第6期15-23,共9页
为解决直播电商供应链中普遍存在的冲突问题,基于冲突分析图模型(GMCR)研究框架,应用大数据技术处理客观数据,通过分析直播电商模式下商品评价信息数据来识别冲突主体、冲突策略及其策略偏好信息,构建多个决策主体参与的冲突分析模型.... 为解决直播电商供应链中普遍存在的冲突问题,基于冲突分析图模型(GMCR)研究框架,应用大数据技术处理客观数据,通过分析直播电商模式下商品评价信息数据来识别冲突主体、冲突策略及其策略偏好信息,构建多个决策主体参与的冲突分析模型.将大数据技术分析得出的结果引入决策主体的偏好声明中,对偏好信息进一步分析,给出决策主体及其策略间的相互关系;基于冲突分析图模型4种稳定性概念,分析冲突的稳定性结果,解析出有利于各个决策主体策略的行为选择;利用构建的模型进一步分析直播电商渠道冲突主体能够达到的均衡解,从而得到适合决策主体在冲突状态下的有效解决方案. 展开更多
关键词 直播电商 渠道冲突 大数据 冲突分析图模型 稳定性分析
在线阅读 下载PDF
数据流中异常模式的提取与趋势监测 被引量:19
11
作者 宋国杰 唐世渭 +1 位作者 杨冬青 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1754-1759,共6页
研究的重点是数据流环境中异常模式的提取与趋势监测 主要贡献包括 :①提出了一个进行异常模式发现的度量框架———强度比率 ,为异常模式挖掘提供了度量标准 ;②在基于异常模式求取的基础上 ,提出了利用回归分析方法———最小二乘法... 研究的重点是数据流环境中异常模式的提取与趋势监测 主要贡献包括 :①提出了一个进行异常模式发现的度量框架———强度比率 ,为异常模式挖掘提供了度量标准 ;②在基于异常模式求取的基础上 ,提出了利用回归分析方法———最小二乘法进行异常模式趋势监测 实验结果表明 ,提出的异常模式度量和求取算法是合理的 ,提出的趋势监测方法是有效的。 展开更多
关键词 数据流 模式挖掘 异常模式 趋势监测 数据流分析
在线阅读 下载PDF
基于低阶近似的多维数据流相关性分析 被引量:12
12
作者 王永利 徐宏炳 +2 位作者 董逸生 钱江波 刘学军 《电子学报》 EI CAS CSCD 北大核心 2006年第2期293-300,共8页
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分... 目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分析算法S treamCCA,针对传统的CCA计算中的性能瓶颈,提出为样本方差阵与协差阵组成的乘积阵降维的高效低价近似方法,在保持分析精度的前提下显著地提高了计算效率.经理论分析和实验证明,S treamCCA能够在线精确地识别两条多维数据流的相关关系,可以作为通用的预报和诊断分析工具广泛应用于数据流挖掘领域. 展开更多
关键词 数据流 典型相关性分析 低阶近似 不等概采样 数据流挖掘
在线阅读 下载PDF
大数据时代的GIS软件技术发展 被引量:17
13
作者 宋关福 钟耳顺 +2 位作者 李绍俊 蔡文文 王少华 《测绘地理信息》 2018年第1期1-7,共7页
空间大数据对GIS软件技术的发展提出了新的要求和挑战。但业界对于空间大数据的认知有待明晰,对于如何挖掘大数据的价值尚存疑虑。首先阐述了空间大数据的内涵,在此基础上,提出了大数据时代的GIS基础软件技术,并分析了其应用前景。大数... 空间大数据对GIS软件技术的发展提出了新的要求和挑战。但业界对于空间大数据的认知有待明晰,对于如何挖掘大数据的价值尚存疑虑。首先阐述了空间大数据的内涵,在此基础上,提出了大数据时代的GIS基础软件技术,并分析了其应用前景。大数据GIS软件技术包括针对空间大数据处理和挖掘的空间大数据技术,也包括针对经典空间数据管理和处理的对传统GIS功能的分布式重构,同时还需要云GIS技术和跨平台GIS技术作为支撑,提供弹性的计算资源和服务以及支撑跨平台的访问和应用。研究表明,大数据GIS软件技术和产品可以有效地降低大数据挖掘的技术门槛,降低空间大数据挖掘的成本。 展开更多
关键词 空间大数据 分布式存储 分布式空间分析 流数据处理 大数据可视化
原文传递
基于概率数据流的有效聚类算法 被引量:15
14
作者 戴东波 赵杠 孙圣力 《软件学报》 EI CSCD 北大核心 2009年第5期1313-1328,共16页
提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,... 提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,以便离线进一步高层聚类和演化分析.最后设计一个"积极"的二层聚类模型来判断现有的第1层聚类模型是否还适应数据流中最近到达的概率元组.实验采用KDD-CUP’98和KDD-CUP’99真实数据集以及变换高斯分布的人工数据集构造概率数据流.实验结果表明,P-Stream具有良好的聚类质量、较快的处理速度,能够有效地适应数据演化情况. 展开更多
关键词 概率数据流 聚类 演化分析
在线阅读 下载PDF
基于数据流的实时网络流量分析系统设计与实现 被引量:14
15
作者 周小勇 胡宁 +1 位作者 向杨蕊 龚正虎 《计算机应用研究》 CSCD 北大核心 2007年第10期295-297,共3页
以建立一个强壮的、实时的网络流量分析系统为目标,设计了一个基于数据流的网络流量管理系统。实现了一个能够准实时监视网络运行状况的网络管理系统。试验和试运行表明该系统取得了较好的效果。
关键词 网络性能分析 网络管理 数据流
在线阅读 下载PDF
高维数据流聚类及其演化分析研究 被引量:9
16
作者 周晓云 孙志挥 +1 位作者 张柏礼 杨宜东 《计算机研究与发展》 EI CSCD 北大核心 2006年第11期2005-2011,共7页
基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行... 基于数据流数据的聚类分析算法已成为研究的热点.提出一种基于子空间的高维数据流聚类及演化分析算法CAStream,该算法对数据空间进行网格化,采用近似的方法记录网格单元的统计信息,并将潜在密集网格单元快照以改进的金字塔时间结构进行存储,最后采用深度优先搜索方法进行聚类及其演化分析.CAStream能够有效处理高维数据流,并能发现任意形状分布的聚类.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 展开更多
关键词 数据流 聚类分析 改进金字塔时间结构 演化分析
在线阅读 下载PDF
基于数据流的异常入侵检测 被引量:11
17
作者 俞研 郭山清 黄皓 《计算机科学》 CSCD 北大核心 2007年第5期66-71,114,共7页
目前,基于机器学习的异常入侵检测算法通常建立在对整个历史数据集进行等同的学习基础之上,学习到的网络行为轮廓过于依赖历史数据,难以准确反映当前网络通信量的行为特征。同时,算法的时间和空间复杂度较高,难以对网络中持续快速到达... 目前,基于机器学习的异常入侵检测算法通常建立在对整个历史数据集进行等同的学习基础之上,学习到的网络行为轮廓过于依赖历史数据,难以准确反映当前网络通信量的行为特征。同时,算法的时间和空间复杂度较高,难以对网络中持续快速到达的大规模数据报文进行存储与维护。本文提出,一种基于数据流聚类的两阶段异常入侵检测方法,首先在线生成网络数据的统计信息,并利用最能反映当前网络行为的统计信息检测入侵行为。实验结果表明,其检测性能优于基于所有历史数据进行入侵检测的结果,并克服了内存等系统资源不足的问题,增加了系统的灵活性与并行性。 展开更多
关键词 入侵检测 数据流处理 聚类分析
在线阅读 下载PDF
面向链路比特流的未知帧关联分析 被引量:10
18
作者 薛开平 柳彬 +2 位作者 王劲松 李威 薛颖杰 《电子与信息学报》 EI CSCD 北大核心 2017年第2期374-380,共7页
在电子对抗中,截获到对方的通信比特流序列之后,当链路协议类型未知时,现有的协议解析工具往往无法分析比特流所承载的有用信息。为了获取比特流承载信息,首先需要切分比特流得到链路帧。该文根据链路帧结构的一般规律,提出一种基于数... 在电子对抗中,截获到对方的通信比特流序列之后,当链路协议类型未知时,现有的协议解析工具往往无法分析比特流所承载的有用信息。为了获取比特流承载信息,首先需要切分比特流得到链路帧。该文根据链路帧结构的一般规律,提出一种基于数据挖掘的比特流切分算法。通过频繁序列统计、关联规则分析以及关联规则整合,识别出比特流中标识帧起始的多重关联规则序列。测试结果表明,该算法能够从未知比特流中提取有效的切分标识,正确实现比特流切分。与同类基于数据挖掘的比特流分析方法相比,该算法复杂度低,输出结果唯一且可信度高。 展开更多
关键词 链路比特流 未知帧 频繁统计 关联分析 切分
在线阅读 下载PDF
高维数据流的在线相关性分析 被引量:9
19
作者 杨雪梅 董逸生 +3 位作者 徐宏炳 刘学军 钱江波 王永利 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1744-1750,共7页
为了解决在资源受限的计算环境下快速检测高维数据流之间相关性的问题,提出一种新颖的在线典型相关性分析(CCA)算法QuickCCA,针对传统CCA计算中的性能瓶颈,首先采用不等概列采样技术约减流元组的数量,形成概要矩阵;然后在概要矩阵的基... 为了解决在资源受限的计算环境下快速检测高维数据流之间相关性的问题,提出一种新颖的在线典型相关性分析(CCA)算法QuickCCA,针对传统CCA计算中的性能瓶颈,首先采用不等概列采样技术约减流元组的数量,形成概要矩阵;然后在概要矩阵的基础上增量地计算多维数据流之间的前k个典型相关系数.经理论分析和实验证明,QuickCCA能够在线精确地识别同步滑动窗口模式下多维数据流之间的相关性.与已有分析多数据流相关性的算法相比,QuickCCA显著地降低了计算复杂度,并且能够在精度和性能之间折中,可以作为通用的分析工具广泛应用于数据流挖掘领域. 展开更多
关键词 数据流 典型相关性分析 不等概采样 近似 资源受限
在线阅读 下载PDF
基于时空分析的复杂交通流数据挖掘算法 被引量:10
20
作者 王涛 王俊峰 +1 位作者 罗积玉 兰时勇 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2011年第5期153-158,共6页
为了建立一种易于计算机实现的线性算法来进行交通流数据挖掘,同时建立更加精确的路段交通流模型,通过分析复杂交通数据所特有的流特征和时空特征提出了一种新的交通流数据挖掘算法。首先采用时空滑动窗口数据模型降低了算法的时空复杂... 为了建立一种易于计算机实现的线性算法来进行交通流数据挖掘,同时建立更加精确的路段交通流模型,通过分析复杂交通数据所特有的流特征和时空特征提出了一种新的交通流数据挖掘算法。首先采用时空滑动窗口数据模型降低了算法的时空复杂度,并实现了动态挖掘;通过对数据流进行聚类分析发现彼此间相似的数据流,并按时段分簇;对每一簇通过主成分分析法剔除非关键变量,最后使用分时段多元线性回归方程构建兴趣模式的表达式,该算法为动态算法,交通实测数据实验证明模型的拟合精度较高,拟合值与真值的平均绝对误差值控制在9秒以内,平均相对误差值控制在5%以内,综合各个时段来看,预测的准确度都在90%以上。 展开更多
关键词 流数据挖掘 时空分析 交通流模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部