期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
Optimizing Healthcare Big Data Processing with Containerized PySpark and Parallel Computing: A Study on ETL Pipeline Efficiency
1
作者 Ehsan Soltanmohammadi Neset Hikmet 《Journal of Data Analysis and Information Processing》 2024年第4期544-565,共22页
In this study, we delve into the realm of efficient Big Data Engineering and Extract, Transform, Load (ETL) processes within the healthcare sector, leveraging the robust foundation provided by the MIMIC-III Clinical D... In this study, we delve into the realm of efficient Big Data Engineering and Extract, Transform, Load (ETL) processes within the healthcare sector, leveraging the robust foundation provided by the MIMIC-III Clinical Database. Our investigation entails a comprehensive exploration of various methodologies aimed at enhancing the efficiency of ETL processes, with a primary emphasis on optimizing time and resource utilization. Through meticulous experimentation utilizing a representative dataset, we shed light on the advantages associated with the incorporation of PySpark and Docker containerized applications. Our research illuminates significant advancements in time efficiency, process streamlining, and resource optimization attained through the utilization of PySpark for distributed computing within Big Data Engineering workflows. Additionally, we underscore the strategic integration of Docker containers, delineating their pivotal role in augmenting scalability and reproducibility within the ETL pipeline. This paper encapsulates the pivotal insights gleaned from our experimental journey, accentuating the practical implications and benefits entailed in the adoption of PySpark and Docker. By streamlining Big Data Engineering and ETL processes in the context of clinical big data, our study contributes to the ongoing discourse on optimizing data processing efficiency in healthcare applications. The source code is available on request. 展开更多
关键词 Big Data Engineering etl Healthcare Sector Containerized Applications Distributed Computing Resource Optimization Data processing Efficiency
在线阅读 下载PDF
基于Hadoop离线分析技术的高校学生画像平台设计 被引量:1
2
作者 张春燕 谢鸿稳 《软件》 2025年第5期8-11,37,共5页
本研究旨在设计基于Hadoop离线分析技术的高校学生画像平台,以解决当前高校教育信息化建设中存在的问题。本次研究在了解平台功能需求的基础上,采用Hadoop生态技术以及数据挖掘方法构建学生画像,分析学生的学习与行为特征。研究结果表明... 本研究旨在设计基于Hadoop离线分析技术的高校学生画像平台,以解决当前高校教育信息化建设中存在的问题。本次研究在了解平台功能需求的基础上,采用Hadoop生态技术以及数据挖掘方法构建学生画像,分析学生的学习与行为特征。研究结果表明,基于Hadoop的学生画像平台能够有效整合学校内部的异构数据资源,通过数据分析提供精准的决策支持,帮助高校实现个性化教育与管理,为高校教育管理提供全新的视角,推动教育智能化发展。 展开更多
关键词 HADOOP etl流程 K-MEANS聚类算法
在线阅读 下载PDF
数据ETL工具通用框架设计 被引量:27
3
作者 周宏广 周继承 +1 位作者 彭银桥 龙思锐 《计算机应用》 CSCD 北大核心 2003年第12期96-98,共3页
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提... 异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。 展开更多
关键词 数据etl 数据集成 数据清洗
在线阅读 下载PDF
支持探索式研判分析的动态ETL流程服务 被引量:3
4
作者 张硕 赵卓峰 +1 位作者 王桂玲 刘杰 《小型微型计算机系统》 CSCD 北大核心 2019年第1期176-180,共5页
ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往... ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往需要面对大量动态、突发的数据抽取、转换及加载需求,传统预定义式的ETL方式难以快速实现.为此,提出一种支持探索式研判分析的动态ETL流程服务,包括探索式研判分析的基本思路、动态ETL流程服务的实现及ETL处理并发性能优化方法,并结合某公安联合作战指挥应用案例对动态ETL流程服务进行了验证,实际应用表明该服务能够支持以"边构造边执行"的方式实现用于研判分析的ETL流程. 展开更多
关键词 探索式研判分析 动态etl流程 服务 并发性能优化
在线阅读 下载PDF
基于Spark的并行ETL 被引量:7
5
作者 丁祥武 解书亮 李继云 《计算机工程与设计》 北大核心 2017年第9期2580-2585,共6页
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管... 针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。 展开更多
关键词 大数据 数据仓库 抽取、转换、加载 转换处理 分布式 火花大数据平台
在线阅读 下载PDF
ETL过程的调度控制管理研究 被引量:3
6
作者 雷培莉 孟丽 《计算机工程与设计》 CSCD 北大核心 2006年第21期4046-4048,共3页
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这... 对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。 展开更多
关键词 元数据 抽取转换加载 调度控制 数据仓库 过程
在线阅读 下载PDF
基于数据质量控制的ETL 被引量:4
7
作者 孙水华 刘建华 林志强 《福建工程学院学报》 CAS 2011年第4期363-366,共4页
提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工... 提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工作流程,提高了进入数据挖掘中数据的质量。 展开更多
关键词 etl过程 脏数据处理 数据预处理 数据质量评估
在线阅读 下载PDF
基于Flink的智慧社区数据分析系统设计与实现
8
作者 董隶鋆 卿粼波 +2 位作者 冯田 毛建国 赵炜 《智能计算机与应用》 2025年第2期52-58,共7页
本文设计了一种基于Apache Flink的智慧社区数据分析系统,该系统涵盖数据集成、存储、处理及应用四大层次,以满足智慧社区对多源数据高效处理的需求。该系统充分发挥Flink的分布式处理与流处理优势,对接并高效处理来自社区的多样化数据... 本文设计了一种基于Apache Flink的智慧社区数据分析系统,该系统涵盖数据集成、存储、处理及应用四大层次,以满足智慧社区对多源数据高效处理的需求。该系统充分发挥Flink的分布式处理与流处理优势,对接并高效处理来自社区的多样化数据,包括结构化、半结构化及非结构化数据,实现数据的实时转换与加载,确保了数据的时效性与准确性;数据处理核心环节,系统深度融合Flink的ETL(Extract, Transform, Load)处理方法,不仅为社区管理者构建了一套闭环式的数据处理过程,还提供了一套完整的实时数据分析解决方案。实验验证了该系统在处理复杂数据任务中的可靠性与实用性,为智慧社区的管理和服务提供了有力支持。 展开更多
关键词 Apache Flink 数据分析 智慧社区 etl处理
在线阅读 下载PDF
面向ETL数据处理过程的优化研究 被引量:3
9
作者 张晓冉 舒昝 《自动化与仪器仪表》 2016年第7期109-110,共2页
针对ETL数据处理的数据转换阶段进行研究与优化,为了进一步提高数据处理的效率,对数据处理的规则进行优化合并,减少了相关进程的数目以及存储空间的消耗。另外引入了Map TrimReduce编程模型对ETL的大量数据进行分布式处理,规则上的优化... 针对ETL数据处理的数据转换阶段进行研究与优化,为了进一步提高数据处理的效率,对数据处理的规则进行优化合并,减少了相关进程的数目以及存储空间的消耗。另外引入了Map TrimReduce编程模型对ETL的大量数据进行分布式处理,规则上的优化处理也进一步缩短了MTR三个部分的执行次数,达到提高整体ETL数据处理效率的目的。 展开更多
关键词 etl 数据处理规则 Map-Trim-Reduce
原文传递
基于大数据处理的ETL框架的研究与设计 被引量:20
10
作者 沈琦 陈博 《电子设计工程》 2016年第2期25-27,34,共4页
针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、... 针对传统抽取、转换、装载(ETL)架构在数据处理过程控制方面和数据产品开发效率方面的不足,提出一种基于大数据处理的ETL架构。通过分析主流的ETL工具--Datastage的工作原理和ETL过程的特点,设计ETL元数据描述模块、ETL任务描述模块、配置解析模块和数据任务调度模块等。使用该框架处理数据任务时,以配置文件的方式开发,使工作效率得到了极大的提升。基于该设计思想开发一款基于大数据处理的ETL工具,在对数据处理过程(E、T、L)的控制方面得到了改进,同时也可以使数据开发人员从大量重复的操作中解脱出来,将更多的精力放在数据的逻辑处理方面。 展开更多
关键词 大数据处理 数据抽取 数据转换 数据加载 etl框架
在线阅读 下载PDF
数据ETL过程中的实体识别方法 被引量:2
11
作者 彭银桥 甘元驹 +1 位作者 彭凌西 邓锐 《现代电子技术》 2005年第7期44-46,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、 96.5%,能够满足工程应用的要求。 展开更多
关键词 数据etl 相似重复记录 实体识别算法 实体识别过程框架
在线阅读 下载PDF
数据ETL过程中的实体识别方法 被引量:3
12
作者 彭银桥 甘元驹 +1 位作者 邓锐 彭凌西 《信息技术》 2005年第2期22-24,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。 展开更多
关键词 数据etl 相似重复记录 实体识别算法 实体识别过程框架
在线阅读 下载PDF
ArcGIS Spatial ETL工具在基础地理信息数据库建设中的应用 被引量:11
13
作者 林璐 王永红 苟建雄 《北京测绘》 2017年第5期127-129,共3页
在基础地理信息数据库建设生产过程中,多个工序涉及数据的转换、重构、合并等操作。利用ArcGIS提供的Spatial ETL工具可以实现这些操作的自动化与批量化执行,同时它基于FME的空间语义映射原则,可以确保数据在转换过程中高效、可靠。因此... 在基础地理信息数据库建设生产过程中,多个工序涉及数据的转换、重构、合并等操作。利用ArcGIS提供的Spatial ETL工具可以实现这些操作的自动化与批量化执行,同时它基于FME的空间语义映射原则,可以确保数据在转换过程中高效、可靠。因此,在测绘实际生产中应用Spatial ETL工具,可以提高生产效率,降低人工粗差,进而提升产品质量。 展开更多
关键词 SPATIAL etl 基础地理信息数据库 FME 批量化处理
在线阅读 下载PDF
An Overview of ETL Techniques,Tools,Processes and Evaluations in Data Warehousing
14
作者 Bilal Khan Saifullah Jan +1 位作者 Wahab Khan Muhammad Imran Chughtai 《Journal on Big Data》 2024年第1期1-20,共20页
The extraction,transformation,and loading(ETL)process is a crucial and intricate area of study that lies deep within the broad field of data warehousing.This specific,yet crucial,aspect of data management fills the kn... The extraction,transformation,and loading(ETL)process is a crucial and intricate area of study that lies deep within the broad field of data warehousing.This specific,yet crucial,aspect of data management fills the knowledge gap between unprocessed data and useful insights.Starting with basic information unique to this complex field,this study thoroughly examines the many issues that practitioners encounter.These issues include the complexities of ETL procedures,the rigorous pursuit of data quality,and the increasing amounts and variety of data sources present in the modern data environment.The study examines ETL methods,resources,and the crucial standards that guide their assessment in the midst of this investigation.These components form the foundation of data warehousing and act as a safety net to guarantee the dependability,accuracy,and usefulness of data assets.This publication takes on the function of a useful guide for academics,professionals,and students,despite the fact that it does not give empirical data.It gives students a thorough grasp of the ETL paradigm in the context of data warehousing and equips them with the necessary skills to negotiate the complex world of data management.This program equips people to lead effective data warehousing initiatives,promoting a culture of informed decision-making and data-driven excellence in a world where data-driven decision-making is becoming more and more important. 展开更多
关键词 etl etl process etl techniques etl tools etl evaluation
在线阅读 下载PDF
并行ETL流程的回环检测和执行控制
15
作者 连仁包 《福建金融管理干部学院学报》 2008年第2期46-49,共4页
ETL工具必须能够并行执行ETL流程才能提高服务器的性能,据此,提出了用有向图解决数据集成中并行ETL流程的运行顺序问题,并根据ETL流程的特点提出用邻接表来存储一个有向图的信息。在流程的执行顺序上,采用基于有向图邻接表的深度优先遍... ETL工具必须能够并行执行ETL流程才能提高服务器的性能,据此,提出了用有向图解决数据集成中并行ETL流程的运行顺序问题,并根据ETL流程的特点提出用邻接表来存储一个有向图的信息。在流程的执行顺序上,采用基于有向图邻接表的深度优先遍历,并给出了具体算法流程;提出用有向图的回路检测解决流程的回环检测问题,并根据ETL工作中流程数少的特点改进了检测算法,降低了算法的实现复杂性,并给出了算法流程。 展开更多
关键词 etl流程 回环检测 执行顺序
在线阅读 下载PDF
基于商务智能的流程评估系统中ETL的研究 被引量:8
16
作者 陈玉东 姚青 《计算机工程与设计》 CSCD 北大核心 2014年第8期2752-2756,共5页
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ET... 为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ETL解决方案以及流程数据的特点,制定应用于业务流程数据的转换规则,确保流程日志中的数据能够快速准确地转换成评估系统需要的标准数据;设计流程数据转换算法。通过某保险公司的流程数据进行了仿真分析,分析结果表明了该模型的可行性和算法的有效性。 展开更多
关键词 商务智能 流程评估 抽取 转换 加载 数据转换 转换规则
在线阅读 下载PDF
并行处理技术在ETL计算环境中的应用研究 被引量:3
17
作者 薛娟 苏厚勤 《计算机应用与软件》 CSCD 2011年第8期216-218,共3页
以基金行业项目为背景,针对ETL(Extraction Transformation Loading)执行过程中的性能问题,提出一种结合并行处理和集群负载均衡实现技术提高ETL处理性能的解决方案。实践证明该技术解决方案是可靠和有效的。
关键词 etl 集群 负载均衡 并行处理
在线阅读 下载PDF
ETL技术在船舶制造海量异构数据处理中的应用 被引量:5
18
作者 张怡敏 卜佳 +2 位作者 李杨梅 周清 侯星 《造船技术》 2020年第5期77-82,共6页
以船舶制造海量异构数据为对象,研究ETL技术及其执行工具,建立船舶制造海量异构数据处理架构,构建统一的数据仓库系统,符合船舶数据结构特性,能够可靠、有效、快速地实现船舶制造各种数据间的抽取、清洗、转换及装载,解决船舶数据源无... 以船舶制造海量异构数据为对象,研究ETL技术及其执行工具,建立船舶制造海量异构数据处理架构,构建统一的数据仓库系统,符合船舶数据结构特性,能够可靠、有效、快速地实现船舶制造各种数据间的抽取、清洗、转换及装载,解决船舶数据源无法相互关联及汇总的问题,实现数据整合、展示、分析的快速响应,提高智能管控执行效率。 展开更多
关键词 船舶制造 海量异构数据 etl技术 数据处理
在线阅读 下载PDF
烟草企业数据中心项目中ETL的分析和设计 被引量:1
19
作者 蔡永长 《信息技术》 2010年第9期83-85,共3页
根据烟草商业企业数据中心项目建设的目标,结合湖南烟草信息化系统现状,对数据中心项目中数据集成部分的ETL过程进行详细分析和设计,解决了烟草数据中心项目中ETL过程的瓶颈问题。
关键词 etl过程 烟草数据中心 数据库
在线阅读 下载PDF
基于大数据平台化的ETL可复用框架设计 被引量:2
20
作者 何壮 苏瑀 《无线互联科技》 2021年第18期66-67,共2页
为了在大数据处理下提高ETL开发效率、任务维护及监控能力、减少人工操作、在多种相似数据存储过程中共享ETL过程,文章提出一种基于大数据平台化的ETL可复用框架。根据ETL工作原理、数据存储过程以及任务特点,在任务调度开发、数据存储... 为了在大数据处理下提高ETL开发效率、任务维护及监控能力、减少人工操作、在多种相似数据存储过程中共享ETL过程,文章提出一种基于大数据平台化的ETL可复用框架。根据ETL工作原理、数据存储过程以及任务特点,在任务调度开发、数据存储过程方面进行了改进,以配置文件方式进行自动化开发模式,从而构建基于大数据平台化ETL可复用框架。 展开更多
关键词 大数据处理 etl框架 平台配置化 可复用
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部