首页 > 科研成果 > ETL增量数据智能监测与更新技术的研究与应用

ETL增量数据智能监测与更新技术的研究与应用

现有的ETL工具在遇到业务系统历史数据发生变化时,大多数都无法做到及时更新数仓数据,并且采用全覆盖方式处理无时间戳的数据更新场景,无法识别数据中的增量更新,需要对历史数据进行重新采集,效率低下。针对上述问题,虽然可以通过数据库binlog(该形式只是适用MySQL并且对服务器配置要求较高)变化实现,但需要考虑兼容大多数数据库,且涉及权限问题,处理过程复杂。本研究采用基于查询和数据变更摘要的数据更新方法,重点解决数据变化监测和数据更新定位两个关键问题。

系统架构:

ETL架构.png

系统优势:

基于查询和数据变更摘要的数据更新方法与技术,主要涉及增量数据变化监测、定位和更新优化三个方面的内容,综合运用机器学习技术、索引构建技术和最优化理论与技术,实现增量数据智能监测与更新方法与技术的基础上,提供ETL增量数据智能监测与更新一体化解决方案。

技术参数:

支持的数据库种类。同时支持MySQL、HBase、SQL Server、Oracle等多种类型的数据库产品。

数据处理任务并行度。系统中同时处理任务的并行度不少于20,并可以在运行时扩展系统的并行度。

处理能力。系统中数据监测与更新任务的吞吐量不少于100个/秒。

监测时间延迟。在硬件配置和网络带宽允许的情况下,源数据库发生变化到工具感知到变化的时间延迟不大于2秒。

更新时间延迟。在硬件配置和网络带宽允许的情况下,10万条数据的更新延迟不大于5秒。


留言

150

提示

请您填写验证码,再提交哦~
太行智能研究院