一款开源的数据采集同步ETL工具

给大家介绍一款开源的数据采集同步ETL工具(bboss-datatran),它提供数据采集、数据清洗转换处理和数据入库功能。

bboss-datatran 数据同步作业直接采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用一起运行;提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(resume)、停止控制机制,可轻松定制一款属于自己的ETL管理工具,一起来看看吧!

如果您还在:

那么 bboss-datatran 将是一个不错的选择。

系统架构图


采用标准的输入输出异步管道来处理数据


功能清单:

1)数据导入的方式

2)支持各种主流数据库、各种es版本以及本地/Ftp日志文件数据采集和同步、加工处理

支持在Elasticsearch、关系数据库、Mongodb、HBase、Hive、Kafka、文本文件、excel文件、SFTP/FTP、http/https多种数据源之间进行海量数据采集同步;支持数据实时增量采集和全量采集;支持根据字段进行数据记录切割;支持多级文件路径(本地和FTP/SFTP)下不同文件数据采集写入不同的数据库表和其他数据源。

支持各种数据库: mysql,maridb,postgress,oracle ,sqlserver,db2,tidb,hive,mongodb、HBase等

支持各种Elasticsearch版本: 1.x,2.x,5.x,6.x,7.x,8.x,+

3)提供自定义处理采集数据功能,可以按照自己的要求将采集的数据处理到目的地,如需定制化将数据保存到特定的地方,可自行实现CustomOutPut接口处理即可。

4)支持从kafka接收数据;经过加工处理的数据亦可以发送到kafka;

5)支持将单条记录切割为多条记录;

6)可以将加工后的数据写入File并上传到ftp/sftp服务器;

7)支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件;

8)支持自动清理下载完毕后ftp服务器上的文件;

9)支持excel、csv文件采集(本地和ftp/sftp)

10)支持导出数据到excel和csv文件,并支持上传到ftp/sftp服务器

11)支持海量PB级数据同步导入功能

12)支持将ip转换为对应的运营商和城市地理坐标位置信息

13)支持设置数据bulk导入任务结果处理回调函数,对每次bulk任务的结果进行成功和失败反馈,然后针对失败的bulk任务通过error和exception方法进行相应处理

14)支持以下三种作业调度机制:

15) 提供灵活的作业启动、暂停(pause)、继续(resume)、停止控制机制

附:gitee地址--- https://gitee.com/bboss/bboss-elastic-tran

展开阅读全文

页面更新:2024-04-29

标签:作业   数据源   增量   海量   机制   加工   功能   数据库   文件   工具   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top