期刊文献+
共找到1,072篇文章
< 1 2 54 >
每页显示 20 50 100
Turbo Message Passing Based Burst Interference Cancellation for Data Detection in Massive MIMO-OFDM Systems 被引量:2
1
作者 Wenjun Jiang Zhihao Ou +1 位作者 Xiaojun Yuan Li Wang 《China Communications》 SCIE CSCD 2024年第2期143-154,共12页
This paper investigates the fundamental data detection problem with burst interference in massive multiple-input multiple-output orthogonal frequency division multiplexing(MIMO-OFDM) systems. In particular, burst inte... This paper investigates the fundamental data detection problem with burst interference in massive multiple-input multiple-output orthogonal frequency division multiplexing(MIMO-OFDM) systems. In particular, burst interference may occur only on data symbols but not on pilot symbols, which means that interference information cannot be premeasured. To cancel the burst interference, we first revisit the uplink multi-user system and develop a matrixform system model, where the covariance pattern and the low-rank property of the interference matrix is discussed. Then, we propose a turbo message passing based burst interference cancellation(TMP-BIC) algorithm to solve the data detection problem, where the constellation information of target data is fully exploited to refine its estimate. Furthermore, in the TMP-BIC algorithm, we design one module to cope with the interference matrix by exploiting its lowrank property. Numerical results demonstrate that the proposed algorithm can effectively mitigate the adverse effects of burst interference and approach the interference-free bound. 展开更多
关键词 burst interference cancellation data detection massive multiple-input multiple-output(MIMO) message passing orthogonal frequency division multiplexing(OFDM)
在线阅读 下载PDF
A study on fast post-processing massive data of casting numerical simulation on personal computers 被引量:1
2
作者 Chen Tao Liao Dunming +1 位作者 Pang Shenyong Zhou Jianxin 《China Foundry》 SCIE CAS 2013年第5期321-324,共4页
When castings become complicated and the demands for precision of numerical simulation become higher,the numerical data of casting numerical simulation become more massive.On a general personal computer,these massive ... When castings become complicated and the demands for precision of numerical simulation become higher,the numerical data of casting numerical simulation become more massive.On a general personal computer,these massive numerical data may probably exceed the capacity of available memory,resulting in failure of rendering.Based on the out-of-core technique,this paper proposes a method to effectively utilize external storage and reduce memory usage dramatically,so as to solve the problem of insufficient memory for massive data rendering on general personal computers.Based on this method,a new postprocessor is developed.It is capable to illustrate filling and solidification processes of casting,as well as thermal stess.The new post-processor also provides fast interaction to simulation results.Theoretical analysis as well as several practical examples prove that the memory usage and loading time of the post-processor are independent of the size of the relevant files,but the proportion of the number of cells on surface.Meanwhile,the speed of rendering and fetching of value from the mouse is appreciable,and the demands of real-time and interaction are satisfied. 展开更多
关键词 casting numerical simulation massive data fast post-processing
在线阅读 下载PDF
Research on data load balancing technology of massive storage systems for wearable devices 被引量:1
3
作者 Shujun Liang Jing Cheng Jianwei Zhang 《Digital Communications and Networks》 SCIE CSCD 2022年第2期143-149,共7页
Because of the limited memory of the increasing amount of information in current wearable devices,the processing capacity of the servers in the storage system can not keep up with the speed of information growth,resul... Because of the limited memory of the increasing amount of information in current wearable devices,the processing capacity of the servers in the storage system can not keep up with the speed of information growth,resulting in low load balancing,long load balancing time and data processing delay.Therefore,a data load balancing technology is applied to the massive storage systems of wearable devices in this paper.We first analyze the object-oriented load balancing method,and formally describe the dynamic load balancing issues,taking the load balancing as a mapping problem.Then,the task of assigning each data node and the request of the corresponding data node’s actual processing capacity are completed.Different data is allocated to the corresponding data storage node to complete the calculation of the comprehensive weight of the data storage node.According to the load information of each data storage node collected by the scheduler in the storage system,the load weight of the current data storage node is calculated and distributed.The data load balancing of the massive storage system for wearable devices is realized.The experimental results show that the average time of load balancing using this method is 1.75h,which is much lower than the traditional methods.The results show the data load balancing technology of the massive storage system of wearable devices has the advantages of short data load balancing time,high load balancing,strong data processing capability,short processing time and obvious application. 展开更多
关键词 Wearable device massive data data storage system Load balancing Weigh
在线阅读 下载PDF
Parallelized User Clicks Recognition from Massive HTTP Data Based on Dependency Graph Model 被引量:1
4
作者 FANG Chcng LIU Jun LEI Zhenming 《China Communications》 SCIE CSCD 2014年第12期13-25,共13页
With increasingly complex website structure and continuously advancing web technologies,accurate user clicks recognition from massive HTTP data,which is critical for web usage mining,becomes more difficult.In this pap... With increasingly complex website structure and continuously advancing web technologies,accurate user clicks recognition from massive HTTP data,which is critical for web usage mining,becomes more difficult.In this paper,we propose a dependency graph model to describe the relationships between web requests.Based on this model,we design and implement a heuristic parallel algorithm to distinguish user clicks with the assistance of cloud computing technology.We evaluate the proposed algorithm with real massive data.The size of the dataset collected from a mobile core network is 228.7GB.It covers more than three million users.The experiment results demonstrate that the proposed algorithm can achieve higher accuracy than previous methods. 展开更多
关键词 cloud computing massive data graph model web usage mining
在线阅读 下载PDF
Massive Data Covert Transmission Scheme Based on Shamir Threshold
5
作者 ZHANG Tao WANG Yadi RONG Xing 《Wuhan University Journal of Natural Sciences》 CAS 2010年第3期227-231,共5页
Massive data covert transmission scheme based on Shamir threshold is proposed in this paper. This method applies Shamir threshold scheme to divide data, uses information hiding technology to cover shadows, and realize... Massive data covert transmission scheme based on Shamir threshold is proposed in this paper. This method applies Shamir threshold scheme to divide data, uses information hiding technology to cover shadows, and realizes massive data covert transmission through transmitting stego-covers. Analysis proves that compared with the natural division method, this scheme not only improves the time-efficiency of transmitting but also enhances the security. 展开更多
关键词 information hiding and transmission Shamir threshold scheme massive data time-efficiency SECURITY
原文传递
Study on Massive Vegetation Data Processing of FY-3 Based on RAM (h)
6
作者 Manyun Lin Xiangang Zhao +2 位作者 Cunqun Fan Lizi Xie Lan Wei 《Journal of Geoscience and Environment Protection》 2017年第4期75-83,共9页
The vegetation data of the Fengyun meteorological satellite are segmented according to the latitude and longitude, and can be written into 648 blocks. However, the vegetation data processing efficiency is low because ... The vegetation data of the Fengyun meteorological satellite are segmented according to the latitude and longitude, and can be written into 648 blocks. However, the vegetation data processing efficiency is low because the data belongs to massive data. This paper presents a data processing method based on RAM (h) for Fengyun-3 vegetation data. First of all, we introduce the Locality-Aware model to segment the input data, then locate the data based on geographic location, and finally fuse the independent data based on geographical location. Experimental results show that the proposed method can effectively improve the data processing efficiency. 展开更多
关键词 Meteorological Satellite VEGETATION data RAM (h) massive data Processing
在线阅读 下载PDF
An Unsupervised Method for Short-Text Sentiment Analysis Based on Analysis of Massive Data
7
作者 Zhenhua Huang Zhenrong Zhao +1 位作者 Qiong Liu Zhenyu Wang 《国际计算机前沿大会会议论文集》 2015年第1期49-50,共2页
Common forms of short text are microblogs, Twitter posts, short product reviews, short movie reviews and instant messages. Sentiment analysis of them has been a hot topic. A highly-accurate model is proposed in this p... Common forms of short text are microblogs, Twitter posts, short product reviews, short movie reviews and instant messages. Sentiment analysis of them has been a hot topic. A highly-accurate model is proposed in this paper for short-text sentiment analysis. The researches target microblog, product review and movie reviews. Words, symbols or sentences with emotional tendencies are proved important indicators in short-text sentiment analysis based on massive users’ data. It is an effective method to predict emotional tendencies of short text using these features. The model has noticed the phenomenon of polysemy in single-character emotional word in Chinese and discusses singlecharacter and multi-character emotional word separately. The idea of model can be used to deal with various kinds of short-text data. Experiments show that this model performs well in most cases. 展开更多
关键词 SENTIMENT ANALYSIS SHORT text EMOTIONAL WORDS massive data
在线阅读 下载PDF
基于数据挖掘的5G Massive MIMO天线权值优化方法研究 被引量:4
8
作者 田原 张亚男 +1 位作者 贾磊 李连本 《电信工程技术与标准化》 2021年第11期81-86,共6页
本文基于4G/5G数据挖掘分析,给出了一种NSA组网下5G Massive MIMO天线权值智能优化方法。该方法结合4G MDT和5G MR数据,通过聚类和成形算法分析得到待优化小区理想权值集合,可以在海量权值因子中快速寻优得到最优权值组合,采用基于风险... 本文基于4G/5G数据挖掘分析,给出了一种NSA组网下5G Massive MIMO天线权值智能优化方法。该方法结合4G MDT和5G MR数据,通过聚类和成形算法分析得到待优化小区理想权值集合,可以在海量权值因子中快速寻优得到最优权值组合,采用基于风险控制的调整算法实现Massive MIMO天线权值智能自动化迭代寻优。 展开更多
关键词 4G/5G协同 massive MIMO 天线权值 数据挖掘
在线阅读 下载PDF
基于XGBoost的丢头地震记录自动识别模型
9
作者 李山有 谢博楠 +3 位作者 卢建旗 谢志南 李伟 陈欣 《应用基础与工程科学学报》 北大核心 2025年第2期338-348,共11页
约1/2以上的强震动观测数据面临信号丢头的问题.如何在海量记录中自动剔除丢头的地震记录是地震P波参数相关算法研究的重要需求.基于极限梯度提升树(XGBoost)方法,建立了丢头地震动记录的自动识别模型.采用日本K-NET台网记录的970次地震... 约1/2以上的强震动观测数据面临信号丢头的问题.如何在海量记录中自动剔除丢头的地震记录是地震P波参数相关算法研究的重要需求.基于极限梯度提升树(XGBoost)方法,建立了丢头地震动记录的自动识别模型.采用日本K-NET台网记录的970次地震的83825条竖向分量加速度记录作为XGBoost模型的训练/测试数据集.该模型对正样本(未丢头记录)的识别成功率为92.07%,对负样本(丢头记录)的识别成功率为98.93%.在相同测试数据集下与基于Fisher线性分辨的传统模型相比,XGBoost模型不仅极大地提高了正样本的识别成功率,同时也保证了负样本较高的识别成功率.结果表明,该模型对(未)丢头地震记录有很高的识别精度,当需要从海量强震动观测数据中自动提取P波参数时,可以运用该模型自动剔除丢头地震记录,以避免丢头地震记录对数据质量造成污染. 展开更多
关键词 海量地震数据 丢头地震记录 XGBoost 集成学习 地震P波 数据清洗
原文传递
铁路供电集群监测的VCRS热点缓存替换策略
10
作者 屈志坚 李迪 邓芳明 《铁道工程学报》 北大核心 2025年第9期86-91,112,共7页
研究目的:铁路供电集群监测数据中心数据量急剧增加,容易使得监测系统产生延迟,对铁路供电安全造成巨大威胁。针对海量电力数据的处理问题,行业内普遍采用数据库技术缓存热点数据,但现有的缓存替换策略命中率不高,难以有效应对复杂多变... 研究目的:铁路供电集群监测数据中心数据量急剧增加,容易使得监测系统产生延迟,对铁路供电安全造成巨大威胁。针对海量电力数据的处理问题,行业内普遍采用数据库技术缓存热点数据,但现有的缓存替换策略命中率不高,难以有效应对复杂多变的数据访问模式。本文在现有缓存替换策略的基础上设计一种新的VCRS缓存替换策略,通过与传统缓存算法对比,验证方法的高效性。研究结论:(1)提出的VCRS缓存替换策略,在以“时间”为淘汰指标的LRU算法和以“频率”为淘汰指标的LFU算法的基础上进行改进,可充分利用缓存资源,改善整个系统的访问性能;(2)VCRS缓存替换方法在不同的数据访问场景下,可以获得比LRU算法和LFU算法更高的缓存命中率,且耗时与现有缓存替换方法相当;(3)本研究成果可应用于铁路供电集群监测领域,为提高监控系统的快速响应提供新思路。 展开更多
关键词 缓存替换策略 分布式缓存 数据中心 海量数据 缓存命中率
在线阅读 下载PDF
基于多条件时间序列的海量并行数据清洗算法
11
作者 高祖彦 段昌盛 《微型电脑应用》 2025年第4期21-24,共4页
针对各领域数据海量且存在重复、缺失以及无效数据问题,研究基于多条件时间序列的海量并行数据清洗算法。通过近似符号聚合算法离散化和符号化处理数据多条件时间序列,并利用相似度测量方法求解处理后多条件时间序列的相似度。结合MapRe... 针对各领域数据海量且存在重复、缺失以及无效数据问题,研究基于多条件时间序列的海量并行数据清洗算法。通过近似符号聚合算法离散化和符号化处理数据多条件时间序列,并利用相似度测量方法求解处理后多条件时间序列的相似度。结合MapReduce并行计算平台,在该平台上编写基于时序相似度量的海量数据清洗算法,实现海量数据清洗的并行化处理。实验结果表明,所提算法清洗后的数据时间序列间距离值与真实值更加贴合,可通过清洗得到高质量数据,同时,并行化处理的引入,使数据清洗时间大幅缩短。 展开更多
关键词 多条件时间序列 海量并行数据 数据清洗 MAPREDUCE
在线阅读 下载PDF
基于ICEEMDAN-CNN的斜拉桥损伤识别方法研究
12
作者 刘杰 耿亚飞 +1 位作者 杨俊 王麒麟 《石家庄铁道大学学报(自然科学版)》 2025年第2期23-29,共7页
针对单一模型在斜拉桥海量监测数据中难以实现结构损伤的精准识别且抗噪性能不足的问题,提出了一种改进完全自适应噪声集合经验模态分解(ICEEMDAN)算法与一维卷积神经网络(1D-CNN)融合的斜拉桥损伤识别方法。在完全自适应噪声集合经验... 针对单一模型在斜拉桥海量监测数据中难以实现结构损伤的精准识别且抗噪性能不足的问题,提出了一种改进完全自适应噪声集合经验模态分解(ICEEMDAN)算法与一维卷积神经网络(1D-CNN)融合的斜拉桥损伤识别方法。在完全自适应噪声集合经验模态分解(CEEMDAN)的基础上,依据标准差特性推算合适的噪声源进行迭代更新,动态调整海量数据中的噪声水平并分解得到本征模态函数(IMF)分量;随后对IMF分量逐个进行最小二乘法非线性拟合,计算各个分量的Hurst指数用以筛选最佳IMF分量,为1D-CNN提供高质量的数据输入;细化调整卷积层结构与参数优化1D-CNN,提高模型对海量数据的泛化能力与计算效率,经训练后得到斜拉桥损伤识别模型;利用斜拉桥基准有限元模型提取多种工况数据,对斜拉桥损伤识别模型进行仿真分析。结果表明,ICEEMDAN-CNN模型在仿真分析时损伤定位精度为99.84%,损伤定量的最大误差为2.94%。 展开更多
关键词 斜拉桥 损伤识别方法 海量数据 一维卷积神经网络 改进完全自适应噪声集合经验模态分解
在线阅读 下载PDF
“三道防线”海量预报数据轻量化关键技术研究与应用 被引量:2
13
作者 邹晓涛 孙世友 +3 位作者 杨朴 刘艳民 郭微 邸苏闯 《中国水利》 2025年第7期30-36,共7页
近年来随着极端天气频发、重发,洪水灾害呈现突发性强、偶发性大等新特点和新规律,传统监测体系在面对新时期水旱灾害防御预报、预警、预演、预案“四预”工作要求上短板明显。构建雨水情监测预报“三道防线”成为防灾、减灾、救灾的重... 近年来随着极端天气频发、重发,洪水灾害呈现突发性强、偶发性大等新特点和新规律,传统监测体系在面对新时期水旱灾害防御预报、预警、预演、预案“四预”工作要求上短板明显。构建雨水情监测预报“三道防线”成为防灾、减灾、救灾的重要措施。然而随着“三道防线”建设,海量预报数据的存储、传输和处理面临巨大挑战。开展了“三道防线”海量预报数据轻量化关键技术研究,从预报结果数据轻量化处理环节、预报结果快速调用环节、预报数据存储环节等方面进行了海量预报数据轻量化技术体系设计,运用预报数据解析与转换、抽稀与分级处理、矢量化与要素化处理、降雨数据输入协同适配、分布式对象存储等技术手段,实现海量预报数据的轻量化处理。以北京市为例开展了海量预报数据轻量化关键技术实践。实践证明,海量预报数据轻量化技术运用在保持数据有效性和准确性前提下,可大大减少预报数据的存储和传输负担,降低成本,提升预报结果的应用效能,提高洪水预报的效率。 展开更多
关键词 雨水情监测预报“三道防线” 海量数据 轻量化 分布式对象存储 移动平均算法
在线阅读 下载PDF
海量面板计数数据的分位数回归模型及在社交网络分析中的应用
14
作者 徐璇 傅梦逸 赵晓兵 《数理统计与管理》 北大核心 2025年第3期407-426,共20页
面板计数数据是离散观测的复发事件数据,它在保险精算行业、生物医学等领域有广泛的应用。在大数据环境下基于分位数回归的面板计数数据分析较为少见,本论文主要研究海量面板计数数据的分位数回归分析,并在两种并行计算框架下讨论该模... 面板计数数据是离散观测的复发事件数据,它在保险精算行业、生物医学等领域有广泛的应用。在大数据环境下基于分位数回归的面板计数数据分析较为少见,本论文主要研究海量面板计数数据的分位数回归分析,并在两种并行计算框架下讨论该模型的具体算法设计。最后利用数值模拟验证了模型的有效性,并在实证分析中讨论了在流行病预防和控制中的社交网络数据。 展开更多
关键词 面板计数数据 海量数据 并行计算 分位数回归 社交网络
原文传递
面向海量数据场景的生成对抗网络推荐算法
15
作者 王庆刚 陈华春 张林 《现代电子技术》 北大核心 2025年第10期71-75,共5页
海量数据中往往包含复杂的用户行为模式、物品属性以及它们之间的关系,这些关系通常具有非线性的特点。传统的生成对抗网络(GAN)在处理序列数据时可能面临非线性建模的挑战。为有效捕捉用户的长短期兴趣变化,丰富内容多样性,并提升在海... 海量数据中往往包含复杂的用户行为模式、物品属性以及它们之间的关系,这些关系通常具有非线性的特点。传统的生成对抗网络(GAN)在处理序列数据时可能面临非线性建模的挑战。为有效捕捉用户的长短期兴趣变化,丰富内容多样性,并提升在海量数据场景下的处理能力和稳定性,提出一种面向海量数据场景的生成对抗网络推荐算法。长短期记忆(LSTM)网络以用户对数据场景的行为模式作为输入,输出用户感兴趣的数据场景的长短期动态序列。文中将LSTM与GAN相结合,形成L-GAN推荐模型。在该模型中,LSTM输出的长短期动态序列被输入到生成对抗网络的生成器中,通过优化损失函数生成类似真实数据场景的假样本。将假样本与真实数据场景一同输入到判别器中,通过其目标函数甄别真伪。生成器与判别器经过反复较量与训练,形成精准的推荐网络,最终输出符合用户兴趣的数据场景推荐列表。实验结果表明,所提算法在处理海量数据场景时能够准确捕捉用户的需求,进行高效且全面的个性化推荐。 展开更多
关键词 海量数据场景 生成对抗网络 长短期记忆网络 推荐算法 动态序列 个性化推荐 目标函数
在线阅读 下载PDF
天地图山东实时访问态势监控系统设计与实现
16
作者 谢中凯 李飞 +2 位作者 刘元亮 王金传 张伟 《测绘与空间地理信息》 2025年第5期27-29,36,共4页
随着天地图山东平台数据不断更新,地图服务不断丰富,服务用户不断增长,适时建立了实时可视化的访问态势监控系统进行业务监控,准确掌握业务运行情况。系统将多源业务数据和监控日志数据进行了整合,在常规关系型数据库基础上进行策略优化... 随着天地图山东平台数据不断更新,地图服务不断丰富,服务用户不断增长,适时建立了实时可视化的访问态势监控系统进行业务监控,准确掌握业务运行情况。系统将多源业务数据和监控日志数据进行了整合,在常规关系型数据库基础上进行策略优化,解决了海量日志数据的分析处理,并发挥NoSQL数据库优势进行了日志空间化分析。系统以地图化、图表化的形式展示多维度信息,形成了实时可视化监控大屏,为运维管理天地图平台提供了决策支持。 展开更多
关键词 地图服务 多源数据 海量日志数据 日志空间化 监控系统
在线阅读 下载PDF
哨兵一号全球海量波模式SAR数据的智能应用与科学挑战 被引量:2
17
作者 王臣 李晓明 +2 位作者 李慧敏 訾楠楠 胡清清 《海洋与湖沼》 北大核心 2025年第1期25-41,共17页
合成孔径雷达(synthetic aperture radar, SAR)是卫星遥感对地观测重要传感器之一,随着近年来关键核心技术不断发展,其在海洋科学应用中的表现日益突出。特别是欧洲空间局哨兵一号(Sentinel-1, S-1)卫星波模式在开阔大洋持续获取观测数... 合成孔径雷达(synthetic aperture radar, SAR)是卫星遥感对地观测重要传感器之一,随着近年来关键核心技术不断发展,其在海洋科学应用中的表现日益突出。特别是欧洲空间局哨兵一号(Sentinel-1, S-1)卫星波模式在开阔大洋持续获取观测数据计划的实施,为全球SAR海洋研究带来新的契机和挑战。虽然针对该海量波模式SAR数据发展了基于深度卷积神经网络的分类模型,并利用分类结果进行了降雨和海洋大气边界层等科学问题初步诊断,但这些全球海洋SAR数据的巨大潜力仍有待进一步开发,尤其是考虑到S-1已经业务化运行了近10 a,且还会在未来可见的30 a内继续。不同于传统的个例或区域分析,处理分析全球海洋海量SAR数据具有其独特性,往往需要借助人工智能方法和大模型技术。本文通过梳理作者所在研究团队过去几年在该方向上的不断尝试,包括但不限于全球SAR海面动力参数反演、海洋大气边界层常见现象观测、上层海洋动力过程诊断和极地海冰与冰山监测等,重点展示全球海洋SAR数据的典型应用场景,讨论其解决海洋大气关键科学问题的潜力,进而总结海洋SAR数据的知识转化和科学服务能力,为建立SAR持续观测支撑海洋强国战略体系提供依据,也为我国未来SAR卫星发展和布局提供方向性参考。 展开更多
关键词 合成孔径雷达(SAR) 微波海洋遥感 海洋大气现象 海量数据 科学应用 机器学习
在线阅读 下载PDF
红外焦平面探测器海量数据的UDP高速传输设计
18
作者 陈雅轩 陈仁 白伟 《电工技术》 2025年第2期181-184,共4页
红外探测系统逐渐采用更大面阵、更快频次的焦平面探测器对红外信号进行探测,因此系统数据量呈指数式增加。为此,设计了万兆以太网高速数据传输方案,以FPGA为主控核心芯片,对数据传输链路进行了搭建,采用UDP协议实现数据的高速传输,传... 红外探测系统逐渐采用更大面阵、更快频次的焦平面探测器对红外信号进行探测,因此系统数据量呈指数式增加。为此,设计了万兆以太网高速数据传输方案,以FPGA为主控核心芯片,对数据传输链路进行了搭建,采用UDP协议实现数据的高速传输,传输模块采用AXI4-Stream协议进行通信。在红外探测系统中对传输方案进行了测试与验证,系统数据传输速度可达9.7 Gbps,满足系统数据传输需求。对大数据量传输验证,无数据丢点出错的情况出现,表明传输方案的可靠性,具有实际的工程应用价值。 展开更多
关键词 红外焦平面探测器 高速传输 UDP协议 海量数据
在线阅读 下载PDF
Optimal decorrelated score subsampling for generalized linear models with massive data 被引量:1
19
作者 Junzhuo Gao Lei Wang Heng Lian 《Science China Mathematics》 SCIE CSCD 2024年第2期405-430,共26页
In this paper, we consider the unified optimal subsampling estimation and inference on the lowdimensional parameter of main interest in the presence of the nuisance parameter for low/high-dimensionalgeneralized linear... In this paper, we consider the unified optimal subsampling estimation and inference on the lowdimensional parameter of main interest in the presence of the nuisance parameter for low/high-dimensionalgeneralized linear models (GLMs) with massive data. We first present a general subsampling decorrelated scorefunction to reduce the influence of the less accurate nuisance parameter estimation with the slow convergencerate. The consistency and asymptotic normality of the resultant subsample estimator from a general decorrelatedscore subsampling algorithm are established, and two optimal subsampling probabilities are derived under theA- and L-optimality criteria to downsize the data volume and reduce the computational burden. The proposedoptimal subsampling probabilities provably improve the asymptotic efficiency of the subsampling schemes in thelow-dimensional GLMs and perform better than the uniform subsampling scheme in the high-dimensional GLMs.A two-step algorithm is further proposed to implement, and the asymptotic properties of the correspondingestimators are also given. Simulations show satisfactory performance of the proposed estimators, and twoapplications to census income and Fashion-MNIST datasets also demonstrate its practical applicability. 展开更多
关键词 A-OPTIMALITY decorrelated score subsampling high-dimensional inference L-optimality massive data
原文传递
基于HBase和WEB的企业绩效海量数据关联存储系统设计 被引量:1
20
作者 高静 李星 《电子设计工程》 2025年第20期177-181,共5页
为确保数据的安全性和可靠性,该文设计基于HBase和WEB的企业绩效海量数据关联存储系统。使用爬虫技术采集企业绩效海量数据,采用MapReduce并行计算技术将企业绩效海量数据输入到支持向量机内,经过模型特征学习并分类,输出不同主题类型... 为确保数据的安全性和可靠性,该文设计基于HBase和WEB的企业绩效海量数据关联存储系统。使用爬虫技术采集企业绩效海量数据,采用MapReduce并行计算技术将企业绩效海量数据输入到支持向量机内,经过模型特征学习并分类,输出不同主题类型的企业绩效海量数据,使用K-means聚类算法对企业绩效海量数据进行聚类处理,并利用HBase建立属性数据存储模型,按照属性序列号存储企业绩效海量数据,设计二级索引结构实现企业绩效海量数据关联存储。实验结果表明,该系统存储企业绩效海量数据安全性较强,且存储空间占用较小,应用效果较佳。 展开更多
关键词 HBASE 海量数据 关联存储 聚类算法 索引结构
在线阅读 下载PDF
上一页 1 2 54 下一页 到第
使用帮助 返回顶部