期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
An Overview of ETL Techniques,Tools,Processes and Evaluations in Data Warehousing
1
作者 Bilal Khan Saifullah Jan +1 位作者 Wahab Khan Muhammad Imran Chughtai 《Journal on Big Data》 2024年第1期1-20,共20页
The extraction,transformation,and loading(ETL)process is a crucial and intricate area of study that lies deep within the broad field of data warehousing.This specific,yet crucial,aspect of data management fills the kn... The extraction,transformation,and loading(ETL)process is a crucial and intricate area of study that lies deep within the broad field of data warehousing.This specific,yet crucial,aspect of data management fills the knowledge gap between unprocessed data and useful insights.Starting with basic information unique to this complex field,this study thoroughly examines the many issues that practitioners encounter.These issues include the complexities of ETL procedures,the rigorous pursuit of data quality,and the increasing amounts and variety of data sources present in the modern data environment.The study examines ETL methods,resources,and the crucial standards that guide their assessment in the midst of this investigation.These components form the foundation of data warehousing and act as a safety net to guarantee the dependability,accuracy,and usefulness of data assets.This publication takes on the function of a useful guide for academics,professionals,and students,despite the fact that it does not give empirical data.It gives students a thorough grasp of the ETL paradigm in the context of data warehousing and equips them with the necessary skills to negotiate the complex world of data management.This program equips people to lead effective data warehousing initiatives,promoting a culture of informed decision-making and data-driven excellence in a world where data-driven decision-making is becoming more and more important. 展开更多
关键词 etl etl process etl techniques etl tools etl evaluation
在线阅读 下载PDF
一种金融系统专用ETL工具的研究与实现 被引量:2
2
作者 屈志毅 张延堂 王戈 《计算机工程》 CAS CSCD 北大核心 2008年第20期80-81,85,共3页
实现了一种基于Spring框架的商业银行专用ETL程序。该程序利用Spring框架的控制反转技术,基于Ibatis的数据访问对象技术和Spring JDBC,以及Spring对Timer的支持,解决了ETL过程中的数据转换、数据载入、生命周期管理、任务调度等关键问... 实现了一种基于Spring框架的商业银行专用ETL程序。该程序利用Spring框架的控制反转技术,基于Ibatis的数据访问对象技术和Spring JDBC,以及Spring对Timer的支持,解决了ETL过程中的数据转换、数据载入、生命周期管理、任务调度等关键问题。该程序在IBM System x3850(8864I02)上运行,载入数据的平均速度达到每秒900条记录。 展开更多
关键词 etl工具 SPRING框架 数据转换 任务调度
在线阅读 下载PDF
基于SOA的银行非现场稽核系统中ETL设计与实现 被引量:1
3
作者 王珊 《微电子学与计算机》 CSCD 北大核心 2010年第8期261-264,268,共5页
本文基于SOA设计思想,采用XML技术实现异构数据源的通用接口访问方式,提出一种采用配置文件来增强系统灵活性的方法,该方法提高了系统的可扩展性,稳定地完成ETL功能.DCT系统也可方便扩展用于其他行业数据仓库的ETL任务.
关键词 SOA etl DCT 非现场稽核
在线阅读 下载PDF
ETL的符号化模型检验
4
作者 刘万伟 王戟 王昭飞 《软件学报》 EI CSCD 北大核心 2009年第8期2015-2025,共11页
为使符号化模型检验技术适用于全部ω-正规性质,研究了ETL(extended temporal logic)的符号化模型检验方法.首先,扩展了LTL(linear temporal logic)的Tableau方法,给出了ETL的Tableau构造方法,进而给出了该方法基于BDD(binary decision ... 为使符号化模型检验技术适用于全部ω-正规性质,研究了ETL(extended temporal logic)的符号化模型检验方法.首先,扩展了LTL(linear temporal logic)的Tableau方法,给出了ETL的Tableau构造方法,进而给出了该方法基于BDD(binary decision diagram)的符号化实现.同时,在NuSMV的基础上实现了支持ETL符号化验证的模型检验工具ENuSMV.该工具允许用户自定义时序连接子,从而可以检验全部ω-正规性质.实验结果表明,ETL性质能够被高效地采用符号化技术加以检验. 展开更多
关键词 符号化模型检验 扩展时序逻辑 TABLEAU方法 验证工具 ENusMV
在线阅读 下载PDF
基于数据库网关技术的ETL工具设计 被引量:2
5
作者 张友军 卫增权 梁华金 《现代计算机》 2005年第4期23-26,共4页
数据仓库面对的是一个分布的数据环境,在这种环境中,存在多结点、异构的数据源。针对这一问题,本文介绍了使用数据库网关技术、元数据驱动的ETL(抽取、转换、装载)工具设计,实现多结点、异构数据访问以及异构数据之间的转换。
关键词 数据库网关 工具设计 etl 技术 数据环境 数据仓库 数据驱动 异构数据 数据访问 数据源 结点 抽取
在线阅读 下载PDF
Teradata数据仓库的ETL在电信行业中的设计与实施 被引量:2
6
作者 张琴和 李民 《机械设计与制造工程》 2012年第A07期10-13,17,共5页
介绍了Teradata数据仓库和ETL的相关概念,结合电信行业中对数据仓库的ETL流程的要求和特点,对Teradata数据仓库的ETL工具进行模型设计与研究,设计了一套普遍适合电信行业数据仓库的ETL框架模型,并对该模型进行实施,实施结果证明该模型... 介绍了Teradata数据仓库和ETL的相关概念,结合电信行业中对数据仓库的ETL流程的要求和特点,对Teradata数据仓库的ETL工具进行模型设计与研究,设计了一套普遍适合电信行业数据仓库的ETL框架模型,并对该模型进行实施,实施结果证明该模型可行。 展开更多
关键词 数据仓库 TERADATA etl etl工具
在线阅读 下载PDF
流程化的GIS空间大数据ETL处理实践
7
作者 刘小丽 王志勇 +1 位作者 房效亮 马晓娜 《新一代信息技术》 2020年第12期41-44,共4页
近年来,全国各地大中城市开始建设智慧城市,而智慧城市应用中基础的数据支撑就是空间大数据。为了切实提高空间大数据的处理效率,使用流程化的数据ETL手段成为主流选择。本文通过对比美国ESRI公司的ArcGIS软件Model Builder模块、加拿大... 近年来,全国各地大中城市开始建设智慧城市,而智慧城市应用中基础的数据支撑就是空间大数据。为了切实提高空间大数据的处理效率,使用流程化的数据ETL手段成为主流选择。本文通过对比美国ESRI公司的ArcGIS软件Model Builder模块、加拿大SAFE公司的FME软件和近期非常流行的开源ETL工具Kettle软件,对同一份百万级空间线划数据处理的效率,来说明这三种工具在处理大量空间数据过程中的优缺点。 展开更多
关键词 GIS空间大数据 etl 流程化处理工具
在线阅读 下载PDF
医疗机构软件接口方式分析
8
作者 马应贵 《中国科技纵横》 2025年第7期48-50,共3页
在信息化建设过程中,医疗机构需要做各种接口,常见的接口方式包括视图方式、WebService+XML方式、ETL工具方式三种。为了保障数据库系统的健壮性,面对不同的使用场景,合理选择接口方式并做好接口设计实施工作至关重要。基于此,本文介绍... 在信息化建设过程中,医疗机构需要做各种接口,常见的接口方式包括视图方式、WebService+XML方式、ETL工具方式三种。为了保障数据库系统的健壮性,面对不同的使用场景,合理选择接口方式并做好接口设计实施工作至关重要。基于此,本文介绍三种接口类型的原理及开发流程,根据接口设计准则分析其优劣性,并提出选用建议,以期为实际操作中公众选择接口方式提供有用参考。 展开更多
关键词 软件接口 视图 WebService接口 etl工具
在线阅读 下载PDF
基于ArcGIS的基础测绘成果DLG数据入库 被引量:7
9
作者 杨小梅 朱光兴 《林业调查规划》 2016年第6期14-18,共5页
为了解决DWG格式数据不能在空间地理信息数据库中发挥作用的问题,利用ArcGIS的Spatial ETL Tool工具实现DWG到SHP的数据格式转换,按照国家技术规范和招标文件要求,实现了DWG数据生产到数据入库,解决了由地形数据到空间地理信息数据的转... 为了解决DWG格式数据不能在空间地理信息数据库中发挥作用的问题,利用ArcGIS的Spatial ETL Tool工具实现DWG到SHP的数据格式转换,按照国家技术规范和招标文件要求,实现了DWG数据生产到数据入库,解决了由地形数据到空间地理信息数据的转换,扩展了DLG数据在数字城市等领域的作用。对数据库结构设计,数据库预处理,数据格式转换、入库、质量控制、融合等技术环节进行了阐述。 展开更多
关键词 DLG数据 ARCGIS Spatial etl tool 数据格式转换 数据入库 数据融合
在线阅读 下载PDF
基于SOA技术的南方电网数据交换平台设计 被引量:3
10
作者 张诗军 《现代计算机》 2009年第5期65-68,共4页
提出中国南方电网公司数据交换平台的设计方案,该方案基于SOA技术架构,为公司提供统一的数据交换标准和数据交换接口,满足全公司纵向的数据贯通和横向的应用交互需求。
关键词 数据交换平台 面向服务架构 数据交换接口 etl工具
在线阅读 下载PDF
半结构化数据装载到数据仓库的设计与实现 被引量:1
11
作者 王静婷 王艳丽 王振辉 《计算机与数字工程》 2014年第11期2198-2201,共4页
通过分析半结构化数据的特点,以实际的采购退货数据(BokeDataInfo.xml)为例,利用DOM对象对基于XML的半结构化的数据进行抽取,设计并实现了一个基于半结构数据的数据仓库ETL工具,解决了商用ETL工具不能直接加载抽取XML文件进行数据仓库... 通过分析半结构化数据的特点,以实际的采购退货数据(BokeDataInfo.xml)为例,利用DOM对象对基于XML的半结构化的数据进行抽取,设计并实现了一个基于半结构数据的数据仓库ETL工具,解决了商用ETL工具不能直接加载抽取XML文件进行数据仓库数据加载的弊端,为XML半结构化数据的抽取并装载到数据仓库当前细节级中的这一问题的解决进行了有益的探索。 展开更多
关键词 XML数据 DOM对象 半结构化数据 抽取 装载 etl工具 数据仓库
在线阅读 下载PDF
一种矢量数据预处理工具制作的探讨
12
作者 全茂林 《科技与创新》 2022年第12期26-28,共3页
随着科技进步,测绘行业不断发展,现代测绘应用到的数据量也将变得更加庞大。常规人工处理已经不能满足生产的需求,因此大多数数据的处理需借助相应的工具。常规的ArcGIS工具制作方法有Python语言编译、ArcObjects平台开发、ArcGIS模型... 随着科技进步,测绘行业不断发展,现代测绘应用到的数据量也将变得更加庞大。常规人工处理已经不能满足生产的需求,因此大多数数据的处理需借助相应的工具。常规的ArcGIS工具制作方法有Python语言编译、ArcObjects平台开发、ArcGIS模型编辑等,这些方法较为复杂,有的还需要一定的编程基础,不能满足基础多样化的生产需求。以处理矢量数据中存在缝隙、毛刺、伪结点、悬挂线等问题为例另提一种方法,其通过FME软件和ArcGIS数据互操作(ArcGIS Data Interoperability)扩展模块来制作矢量数据预处理工具,并对其进行探讨。 展开更多
关键词 FME Workbench 矢量数据 互操作 ArcGIS etl tools
在线阅读 下载PDF
智慧校园背景下高校数据中心的研究 被引量:9
13
作者 刘宝妹 陈美玲 白兴瑞 《龙岩学院学报》 2020年第2期29-32,共4页
建设智慧校园共享数据中心,运用云计算、Hadoop大数据等技术解决“烟囱式”系统建设、“信息孤岛”、海量异构数据存储问题,从而集成整合高校资源,实现海量数据的高效存储及管理。通过研究共享数据中心的建设框架,提出部署在VMware虚拟... 建设智慧校园共享数据中心,运用云计算、Hadoop大数据等技术解决“烟囱式”系统建设、“信息孤岛”、海量异构数据存储问题,从而集成整合高校资源,实现海量数据的高效存储及管理。通过研究共享数据中心的建设框架,提出部署在VMware虚拟化平台上来保障数据中心的高可用性和业务连续性,提出基于oracle和HBase混合模式实现海量异构数据存储及管理。同时,重点阐述了异构数据的集成思路,利用Kettle ETL工具,通过创建的中间数据库以中间表或视图的方式实现数据的整合。 展开更多
关键词 智慧校园 共享数据中心 虚拟化技术 KETTLE etl工具 混合存储
在线阅读 下载PDF
基于正则表达式的海量数据清洗系统 被引量:16
14
作者 常征 吕勇 《计算机应用》 CSCD 北大核心 2019年第10期2942-2947,共6页
针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文... 针对目前主流的数据提取、变形、加载(ETL)工具和受限环境下一些应用的不足之处,结合受限应用场景下的特殊要求,提出一种基于正则表达式的海量数据清洗系统(REMCS)。REMCS首先针对超长错误数据问题、批量数据源文件融合问题、数据源文件自动分拣问题等典型的6个问题找到数据的特点,其次根据数据的特点设置合适的正则表达式和预处理算法,然后使用算法模型去除数据中的错误完成数据预处理工作。同时详细阐述了REMCS的系统逻辑结构、常见问题、对应的解决算法和代码实现方案。最后通过对兼容的数据源文件格式、能够处理的问题种类、问题处理时间、处理数据极限值等4个方面进行对比,从几组常见的数据处理问题的对比实验可知,相较于传统的ETL工具,REMCS支持csv格式、json格式、dump格式等典型的9种文件格式,能够处理全部的6种常见问题,处理时间更短,能够支持的数据极限值更大。实验结果验证了针对受限应用场景下常见的数据处理问题,REMCS具有很好的适用性和准确性。 展开更多
关键词 正则表达式 数据清洗 大数据 提取、变形、加载工具
在线阅读 下载PDF
系统数据迁移常见问题及案例分析 被引量:14
15
作者 陆叶杉 《计算机科学》 CSCD 北大核心 2019年第B06期412-416,共5页
社会发展日趋进步,技术框架日新月异,日常系统以新换旧已经成为趋势,新系统代替旧系统势必会涉及到新旧系统的数据对接问题。在某市某组织的系统建设中,项目需要将旧系统的所有业务数据迁移到新系统。由于新旧系统使用的表空间、表结构... 社会发展日趋进步,技术框架日新月异,日常系统以新换旧已经成为趋势,新系统代替旧系统势必会涉及到新旧系统的数据对接问题。在某市某组织的系统建设中,项目需要将旧系统的所有业务数据迁移到新系统。由于新旧系统使用的表空间、表结构及表字段都不一致,为了保证数据的一致性与完整性、迁移前后的数据没有漏误、不迁入脏数据来影响新系统的运行,在项目中如何在新旧系统之间进行数据迁移成为了重要课题。为了解决数据迁移的问题,文中设计了一套基于ETL工具的数据迁移流程,并通过组合和串联得到了完整的数据迁移流程线,从而实现了数据迁移,完成了新旧系统的数据对接。文中阐述了以下几个数据在迁移中出现的问题及其解决方法:1)数据流转中出现的常见错误及解决方法;2)数据类型不一致的数据迁移问题及解决方法;3)数据迁移目标数据库字段长度不一致的问题及解决方法;4)数据迁移完成后,原数据出现新变动将如何重新调整迁移测量的问题及解决方法。基于此,文中对数据迁移过程中出现的问题与解决这些问题的方法进行了简要的分析与总结。 展开更多
关键词 数据迁移 etl工具 SQL语句 数据流转
在线阅读 下载PDF
基于工作流引擎的数据仓库工具的构建 被引量:1
16
作者 钟焰涛 常致全 《现代计算机》 2005年第4期19-22,38,共5页
本文首先分析数据仓库的概念、特点及体系架构,指出了构建数据仓库ETL工具的必要性,接着对工作流和元数据技术进行介绍和分析,并在对数据仓库ETL工具分析的基础上,提出了构建基于工作流引擎和元数据驱动的数据仓库ETL工具的解决方案。
关键词 数据仓库 工作流引擎 工具 构建 etl 体系架构 数据技术 解决方案 数据驱动 建基
在线阅读 下载PDF
水库综合信息管理平台关键技术研究与应用 被引量:4
17
作者 林艳燕 陈季 金有杰 《水利信息化》 2021年第6期77-81,共5页
通过对大中型水库水利信息化系统应用现状的分析,针对数据分散、交互能力差、可视化能力低、权限管理缺乏等系统研发及应用难题,开展水库综合信息管理平台相关技术研究。管理平台关键技术包括:利用ETL工具对库区多专业整合形成平台专业... 通过对大中型水库水利信息化系统应用现状的分析,针对数据分散、交互能力差、可视化能力低、权限管理缺乏等系统研发及应用难题,开展水库综合信息管理平台相关技术研究。管理平台关键技术包括:利用ETL工具对库区多专业整合形成平台专业业务数据库,实现基于海量数据的监测资料分析;灵活配置数据源向访问层提供屏蔽数据库厂商差异性的统一数据接口,实现基于JWT鉴权和RBAC模型的用户权限与接口访问控制;利用工程CAD制图转换成SHP格式,提高水库综合信息可视化表达能力。基于关键技术开发的水库综合信息管理平台在多个水库得以应用,可有效提高水库运行效率,减轻运行管理人员的工作量,为其他大中型水库信息化建设提供参考。 展开更多
关键词 信息管理平台 综合信息 软件 关键技术 水库管理 etl工具 信息融合 RBAC模型
在线阅读 下载PDF
基于数据挖掘的集成信令存储和应用平台研究 被引量:7
18
作者 吴良 《电子科技》 2019年第8期75-78,共4页
针对现有信令数据存储与分析应用模块的独立式架构不利于信令数据的保存与分析的问题,文中设计了一种基于数据挖掘的集成信令存储和应用平台架构。通过设计并行数据挖掘信令分析模块架构,面向数据挖掘的信令存储技术和信令数据集成应用... 针对现有信令数据存储与分析应用模块的独立式架构不利于信令数据的保存与分析的问题,文中设计了一种基于数据挖掘的集成信令存储和应用平台架构。通过设计并行数据挖掘信令分析模块架构,面向数据挖掘的信令存储技术和信令数据集成应用平台,重新定义了基于数据挖掘的信令监测平台架构。利用信令数据仓库中的ETL工具,实现信令数据存储以及应用的一体化设计。所设计的集成信令存储和应用平台通过数据挖掘可以有效分析信令数据特性,提高信令数据存储和应用的效率,对于大规模信令监测具有一定的意义。 展开更多
关键词 数据挖掘 信令监测 数据仓库 etl工具
在线阅读 下载PDF
基于大数据的元模型及数据保障研究 被引量:3
19
作者 张月圆 《粘接》 CAS 2021年第3期96-100,共5页
针对海量的数据资源管理效率与质量问题,提出一种基于Hadoop的元数据管理模型。在该模型中,采用Hadoop对元模型进行搭建,从而完成对整个元数据的储存;然后通过ETL工具,通过分布式抽取的方式,实现对不同服务集群中化工类数据库数据的抽取... 针对海量的数据资源管理效率与质量问题,提出一种基于Hadoop的元数据管理模型。在该模型中,采用Hadoop对元模型进行搭建,从而完成对整个元数据的储存;然后通过ETL工具,通过分布式抽取的方式,实现对不同服务集群中化工类数据库数据的抽取,并通过ETL抽取、转换、加载和映射,建立映射规则,进而将不同的数据存储到对应的数据库中。最后,以某化工类数据库中的元数据抽取为例,通过对比数据集成率和数据可用性,看出本研究方案可提升海量数据下的数据有用率和集成率,对保障元数据的抽取质量具有借鉴价值。 展开更多
关键词 Hadoop架构 元模型 数据质量 etl工具 映射规则
在线阅读 下载PDF
肝细胞癌自动化BCLC分期模型研究 被引量:2
20
作者 张冰 许庆祎 《中国卫生标准管理》 2024年第5期92-96,共5页
目的借助大数据平台,构建肝细胞癌(hepatocellular carcinoma,HCC)自动化巴塞罗那分期(Barcelona clinic liver cancer,BCLC)模型,以服务于临床诊疗及学术研究工作。方法选取福建医科大学孟超肝胆医院2020年1月—2022年12月收治的HCC患... 目的借助大数据平台,构建肝细胞癌(hepatocellular carcinoma,HCC)自动化巴塞罗那分期(Barcelona clinic liver cancer,BCLC)模型,以服务于临床诊疗及学术研究工作。方法选取福建医科大学孟超肝胆医院2020年1月—2022年12月收治的HCC患者的临床资料,通过数据仓库技术(extract-transform-load,ETL)工具构建患者的标准化全维度数据集(每个病例含700个维度)。选取2020年1月—2022年12月收治的1076例HCC患者,根据2016年BCLC分期标准,在数据集中提取肝性脑病、腹水、总胆红素、白蛋白、凝血酶原时间、肿瘤个数、肿瘤直径、门静脉癌栓情况、肝外转移情况、患者体力情况等12个相关维度,采用基于机器学习的自然语言处理和基于Python语言的XGBoost(eXtreme gradient boosting)模块等方法构建自动化BCLC分期模型。随机抽取2020年1月—2022年12月收治的HCC患者191例,进行既往病例测试。选择2020年1月—2022年12月收治的180例HCC患者,进行新增病例测试。由2名肝胆外科主治医师对测试病例进行人工分期审核,获得标准分期用于校正。比较模型自动化分期、病例记录分期及标准分期三者间差异,以观察模型的准确性和实用性。结果基于大数据方法学成功构建HCC自动化BCLC分期模型,通过含150个病例的验证集进行验证,准确率为93.33%,提示建模成功。既往病例测试结果提示,经标准分期校正,自动化分期准确率为98.43%,错误3例,其中0期1例、A期2例;记录分期准确率为96.33%,错误7例,其中0期2例,A期5例。新增病例测试结果提示,经标准分期校正,自动化分期准确率为95.56%,错误8例,其中0期1例,A期1例,B期4例,C期2例,D期0例;记录分期准确率为96.11%,错误7例,其中0期2例,A期1例,B期2例,C期2例,D期0例。结论HCC自动化BCLC分期模型高效、准确,在数据标准化方面尚有改进空间,值得向临床推广。 展开更多
关键词 肝细胞癌 BCLC分期 大数据 etl工具 机器学习 自然语言处理 XGBOOST
暂未订购
上一页 1 2 下一页 到第
使用帮助 返回顶部