DataX-离线数据同步工具


这个仓库是阿里云开源的离线数据同步工具DataX,其主要功能是实现各种异构数据源之间高效的数据同步。以下是对该仓库的详细介绍:

项目概述

DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行6年之久,目前每天完成同步8w多道作业,每日传输数据量超过300TB。

主要功能

  • 数据同步:实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS、databend等各种异构数据源之间高效的数据同步功能。
  • 插件体系:将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上可以支持任意数据源类型的数据同步工作。每接入一套新数据源,该新加入的数据源即可实现和现有的数据源互通。

商业版本

阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,以及繁杂业务背景下的数据同步解决方案。目前已经支持云上近3000家客户,单日同步数据超过3万亿条。

支持的数据通道

DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,支持的数据通道包括但不限于: - RDBMS关系型数据库:MySQL、Oracle、OceanBase、SQLServer、PostgreSQL、DRDS、Kingbase、通用RDBMS等。 - 阿里云数仓数据存储:ODPS、ADB、ADS、OSS、OCS、Hologres、AnalyticDB For PostgreSQL等。 - 阿里云中间件:datahub、SLS等。 - 图数据库:阿里云GDB、Neo4j等。 - NoSQL数据存储:OTS、Hbase0.94、Hbase1.1、Phoenix4.x、Phoenix5.x、MongoDB、Cassandra等。 - 数仓数据存储:StarRocks、ApacheDoris、ClickHouse、Databend、Hive、kudu、selectdb等。 - 无结构化数据存储:TxtFile、FTP、HDFS、Elasticsearch等。 - 时间序列数据库:OpenTSDB、TSDB、TDengine等。

快速开始

插件开发

如果需要开发新的插件,请参考DataX插件开发宝典。每个插件都必须在DataX官方wiki中有一篇文档,文档需要包括快速介绍、实现原理、配置说明、类型转换、性能报告、约束限制、FAQ等内容。

项目结构

仓库的主要目录和文件结构如下:

.gitignore
NOTICE
README.md
core/
clickhousereader/
common/
datax-opensource-dingding.png
dataxPluginDev.md
databendwriter/
adbpgwriter/
adswriter/
cassandrawriter/
adbmysqlwriter/
cassandrareader/
clickhousewriter/
datahubwriter/
datahubreader/
doriswriter/
elasticsearchwriter/
drdsreader/
datax-example/
ftpwriter/
drdswriter/
ftpreader/
...
dorisreader/
gaussdbwriter/
hbase094xreader/
gdbreader/
gdbwriter/
hbase11xreader/
gaussdbreader/
hbase094xwriter/
hbase11xsqlreader/
hbase11xsqlwriter/

问题反馈

如果在使用过程中遇到问题,请及时提出issue给我们,前往:DataxIssue

Github