gay 推选一款超好用的开源异构数据库同步器用

发布日期：2024-12-06 13:28 点击次数：115

图片gaygaygay

银色网有个相貌的数据量高达五千万，关联词因为报表那块数据不太准确，业务库和报表库又是跨库操作，是以并弗成使用 SQL 来进行同步。其时的盘算是通过 mysqldump 大略存储的模式来进行同步，关联词尝试后发现这些有计划齐不切内容：mysqldump：不仅备份需要期间，同步也需要期间，况且在备份的经由，可能还会特别据产出（也等于说同步等于没同步）存储模式：这个成果太慢了，若是数据量少还好，咱们使用这个模式的时候，三个小时才同步两千条数据…常见数据异构的几款中间件的区别如下：

图片

今天先容一款可以的中间件：DataXDataX 简介DataX（https://github.com/alibaba/DataX）是阿里云 DataWorks 数据集成的开源版块，主要等于用于达成数据间的离线同步。 DataX 奋勉于达成包括相关型数据库（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等多样异构数据源（即不同的数据库）间幽静高效的数据同步功能。

图片

为了照应异构数据源同步问题，DataX 将复杂的网状同步链路酿成了星型数据链路，DataX 当作中间传输载体证明连气儿多样数据源；当需要接入一个新的数据源时，只需要将此数据源对接到 DataX，便能跟已有的数据源当作无缝数据同步。接待神色公众号：SpringForAll社区（spring4all.com），专注共享对于Spring的一切！回话“加群”还可加入Spring工夫相易群！DataX3.0 框架联想DataX 聘任 Framework + Plugin 架构，将数据源读取和写入空洞称为 Reader/Writer 插件，纳入到系数这个词同步框架中。

图片

脚色作用Reader（网罗模块）证明网罗数据源的数据，将数据发送给 Framework。Writer（写入模块）证明束缚向 Framework 中取数据，并将数据写入到认识端。Framework（中间商）证明连气儿 Reader 和 Writer，当作两者的数据传输通谈，并处理缓冲，流控，并发，数据转念等核心工夫问题。DataX3.0 核心架构DataX 完成单个数据同步的功课，咱们称为 Job，DataX 摄取到一个 Job 后，将启动一个进度来完成系数这个词功课同步经由。神色公众号：码猿工夫专栏，回话要害词：1111 取得阿里里面Java性能调优手册！DataX Job 模块是单个功课的核心照应节点，承担了数据计帐、子任务切分、TaskGroup 照应等功能。

图片

DataX Job 启动后，会字据不同源端的切分战术，将 Job 切分红多个小的 Task (子任务)，以便于并发试验。接着 DataX Job 会调用 Scheduler 模块，字据树立的并发数目，将拆分红的 Task 再行组合，拼装成 TaskGroup（任务组）每一个 Task 齐由 TaskGroup 证明启动，Task 启动后，会固定启动 Reader --> Channel --> Writer 线程来完成任务同步职责。DataX 功课运行启动后，Job 会对 TaskGroup 进行监控操作，恭候系数 TaskGroup 完成后，Job 便会顺利退出（极端退出时值非 0 ）DataX 和解经由：最初 DataX Job 模块会字据分库分表切分红若干个 Task，然后字据用户树立并发数，来狡计需要分派些许个 TaskGroup；狡计经由：Task / Channel = TaskGroup，终末由 TaskGroup 字据分派好的并发数来运行 Task（任务）使用 DataX 达成数据同步准备职责：JDK（1.8 以上，推选 1.8）Python（2，3 版块齐可以）Apache Maven 3.x（Compile DataX）（手动打包使用，使用 tar 包模式不需要装配）主机名操作系统IP 地址软件包MySQL-1CentOS 7.4192.168.1.1jdk-8u181-linux-x64.tar.gz datax.tar.gzMySQL-2CentOS 7.4192.168.1.2装配 JDK：下载地址：https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html（需要创建 Oracle 账号）[root@MySQL-1 ~]# lsanaconda-ks.cfg jdk-8u181-linux-x64.tar.gz[root@MySQL-1 ~]# tar zxf jdk-8u181-linux-x64.tar.gz[root@DataX ~]# lsanaconda-ks.cfg jdk1.8.0_181 jdk-8u181-linux-x64.tar.gz[root@MySQL-1 ~]# mv jdk1.8.0_181 /usr/local/java[root@MySQL-1 ~]# cat <<END >> /etc/profileexport JAVA_HOME=/usr/local/javaexport PATH=$PATH:"$JAVA_HOME/bin"END[root@MySQL-1 ~]# source /etc/profile[root@MySQL-1 ~]# java -version因为 CentOS 7 上自带 Python 2.7 的软件包，是以不需要进行装配。Linux 上装配 DataX 软件[root@MySQL-1 ~]# wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz[root@MySQL-1 ~]# tar zxf datax.tar.gz -C /usr/local/[root@MySQL-1 ~]# rm -rf /usr/local/datax/plugin/*/._* # 需要删除避讳文献 (弥留)当未删除时，可能会输出：[/usr/local/datax/plugin/reader/._drdsreader/plugin.json] 不存在. 请查验您的树立文献.考据：[root@MySQL-1 ~]# cd /usr/local/datax/bin[root@MySQL-1 ~]# python datax.py ../job/job.json # 用来考据是否装配顺利输出：2021-12-13 19:26:28.828 [job-0] INFO JobContainer - PerfTrace not enable!2021-12-13 19:26:28.829 [job-0] INFO StandAloneJobContainerCommunicator - Total 100000 records， 2600000 bytes | Speed 253.91KB/s， 10000 records/s | Error 0 records，人妖 0 bytes | All Task WaitWriterTime 0.060s | All Task WaitReaderTime 0.068s | Percentage 100.00 21-12-13 19:26:28.829 [job-0] INFO JobContainer -任务启动时刻 : 2021-12-13 19:26:18任务终端时刻 : 2021-12-13 19:26:28任务共计耗时 : 10s任务平均流量 : 253.91KB/s记载写入速率 : 10000rec/s读出记载总和 : 100000读写失败总和 : 0DataX 基本使用稽查 streamreader \--> streamwriter 的模板：[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py -r streamreader -w streamwriter输出：DataX (DATAX-OPENSOURCE-3.0)， From Alibaba !Copyright (C) 2010-2017， Alibaba Group. All Rights Reserved.Please refer to the streamreader document:https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.mdPlease refer to the streamwriter document:https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.mdPlease save the following configuration as a json file and usepython {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.jsonto run the job.{"job": {"content": [{"reader": {"name": "streamreader"，"parameter": {"column": []，"sliceRecordCount": ""}}，"writer": {"name": "streamwriter"，"parameter": {"encoding": ""，"print": true}}}]，"setting": {"speed": {"channel": ""}}}}字据模板编写 json 文献[root@MySQL-1 ~]# cat <<END > test.json{"job": {"content": [{"reader": {"name": "streamreader"，"parameter": {"column": [ # 同步的列名 (* 默示系数){"type":"string"，"value":"Hello."}，{"type":"string"，"value":"河北彭于晏"}，]，"sliceRecordCount": "3" # 打印数目}}，"writer": {"name": "streamwriter"，"parameter": {"encoding": "utf-8"， # 编码"print": true}}}]，"setting": {"speed": {"channel": "2" # 并发 (即 sliceRecordCount * channel = 戒指)}}}}输出：（若是复制我上头的话，需要把 # 带的内容去掉）

图片

装配 MySQL 数据库分辩在两台主机上装配：[root@MySQL-1 ~]# yum -y install mariadb mariadb-server mariadb-libs mariadb-devel[root@MySQL-1 ~]# systemctl start mariadb # 装配 MariaDB 数据库[root@MySQL-1 ~]# mysql_secure_installation # 启动化NOTE: RUNNING ALL PARTS OF THIS SCRIPT IS RECOMMENDED FOR ALL MariaDBSERVERS IN PRODUCTION USE! PLEASE READ EACH STEP CAREFULLY!Enter current password for root (enter for none): # 径直回车OK， successfully used password， moving on...Set root password? [Y/n] y # 树立 root 密码New password:Re-enter new password:Password updated successfully!Reloading privilege tables..... Success!Remove anonymous users? [Y/n] y # 移除匿名用户... skipping.Disallow root login remotely? [Y/n] n # 允许 root 辛苦登录... skipping.Remove test database and access to it? [Y/n] y # 移除测试数据库... skipping.Reload privilege tables now? [Y/n] y # 再行加载表... Success!1）准备同步数据（要同步的两台主机齐要有这个表）MariaDB [(none)]> create database `course-study`;Query OK， 1 row affected (0.00 sec)MariaDB [(none)]> create table `course-study`.t_member(ID int，Name varchar(20)，Email varchar(30));Query OK， 0 rows affected (0.00 sec)

图片

因为是使用 DataX 武艺进行同步的，是以需要在两边的数据库上绽放权限：grant all privileges on *.* to root@'%' identified by '123123';flush privileges;2）创建存储经由：DELIMITER $$CREATE PROCEDURE test()BEGINdeclare A int default 1;while (A < 3000000)doinsert into `course-study`.t_member values(A，concat("LiSa"，A)，concat("LiSa"，A，"@163.com"));set A = A + 1;END while;END $$DELIMITER ;

图片

3）调用存储经由（在数据源树立，考据同步使用)：call test();通过 DataX 实 MySQL 数据同步1）生成 MySQL 到 MySQL 同步的模板：[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py -r mysqlreader -w mysqlwriter{"job": {"content": [{"reader": {"name": "mysqlreader"， # 读取端"parameter": {"column": []， # 需要同步的列 (* 默示系数的列)"connection": [{"jdbcUrl": []， # 连气儿信息"table": [] # 连气儿表}]，"password": ""， # 连气儿用户"username": ""， # 连气儿密码"where": "" # 描写筛选条目}}，"writer": {"name": "mysqlwriter"， # 写入端"parameter": {"column": []， # 需要同步的列"connection": [{"jdbcUrl": ""， # 连气儿信息"table": [] # 连气儿表}]，"password": ""， # 连气儿密码"preSql": []， # 同步前. 要作念的事"session": []，"username": ""， # 连气儿用户"writeMode": "" # 操作类型}}}]，"setting": {"speed": {"channel": "" # 指定并发数}}}}2）编写 json 文献：[root@MySQL-1 ~]# vim install.json{"job": {"content": [{"reader": {"name": "mysqlreader"，"parameter": {"username": "root"，"password": "123123"，"column": ["*"]，"splitPk": "ID"，"connection": [{"jdbcUrl": ["jdbc:mysql://192.168.1.1:3306/course-study?useUnicode=true&characterEncoding=utf8"]，"table": ["t_member"]}]}}，"writer": {"name": "mysqlwriter"，"parameter": {"column": ["*"]，"connection": [{"jdbcUrl": "jdbc:mysql://192.168.1.2:3306/course-study?useUnicode=true&characterEncoding=utf8"，"table": ["t_member"]}]，"password": "123123"，"preSql": ["truncate t_member"]，"session": ["set session sql_mode='ANSI'"]，"username": "root"，"writeMode": "insert"}}}]，"setting": {"speed": {"channel": "5"}}}}3）考据[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py install.json输出：2021-12-15 16:45:15.120 [job-0] INFO JobContainer - PerfTrace not enable!2021-12-15 16:45:15.120 [job-0] INFO StandAloneJobContainerCommunicator - Total 2999999 records， 107666651 bytes | Speed 2.57MB/s， 74999 records/s | Error 0 records， 0 bytes | All Task WaitWriterTime 82.173s | All Task WaitReaderTime 75.722s | Percentage 100.00 21-12-15 16:45:15.124 [job-0] INFO JobContainer -任务启动时刻 : 2021-12-15 16:44:32任务终端时刻 : 2021-12-15 16:45:15任务共计耗时 : 42s任务平均流量 : 2.57MB/s记载写入速率 : 74999rec/s读出记载总和 : 2999999读写失败总和 : 0你们可以在认识数据库进行稽查，是否同步完成。

图片

上头的模式十分于是敷裕同步，关联词当数据量较大时，同步的时候被中断，是件很祸害的事情；是以在有些情况下，增量同步依然蛮弥留的。使用 DataX 进行增量同步使用 DataX 进行全量同步和增量同步的惟一区别等于：增量同步需要使用 where 进行条目筛选。神色公众号：码猿工夫专栏，回话要害词：1111 取得阿里里面Java性能调优手册！（即，同步筛选后的 SQL）1）编写 json 文献：[root@MySQL-1 ~]# vim where.json{"job": {"content": [{"reader": {"name": "mysqlreader"，"parameter": {"username": "root"，"password": "123123"，"column": ["*"]，"splitPk": "ID"，"where": "ID <= 1888"，"connection": [{"jdbcUrl": ["jdbc:mysql://192.168.1.1:3306/course-study?useUnicode=true&characterEncoding=utf8"]，"table": ["t_member"]}]}}，"writer": {"name": "mysqlwriter"，"parameter": {"column": ["*"]，"connection": [{"jdbcUrl": "jdbc:mysql://192.168.1.2:3306/course-study?useUnicode=true&characterEncoding=utf8"，"table": ["t_member"]}]，"password": "123123"，"preSql": ["truncate t_member"]，"session": ["set session sql_mode='ANSI'"]，"username": "root"，"writeMode": "insert"}}}]，"setting": {"speed": {"channel": "5"}}}}需要正经的部分等于：where（条目筛选）和 preSql（同步前，要作念的事）参数。2）考据：[root@MySQL-1 ~]# python /usr/local/data/bin/data.py where.json输出：2021-12-16 17:34:38.534 [job-0] INFO JobContainer - PerfTrace not enable!2021-12-16 17:34:38.534 [job-0] INFO StandAloneJobContainerCommunicator - Total 1888 records， 49543 bytes | Speed 1.61KB/s， 62 records/s | Error 0 records， 0 bytes | All Task WaitWriterTime 0.002s | All Task WaitReaderTime 100.570s | Percentage 100.00 21-12-16 17:34:38.537 [job-0] INFO JobContainer -任务启动时刻 : 2021-12-16 17:34:06任务终端时刻 : 2021-12-16 17:34:38任务共计耗时 : 32s任务平均流量 : 1.61KB/s记载写入速率 : 62rec/s读出记载总和 : 1888读写失败总和 : 0计划数据库上稽查：

图片

3)基于上头数据，再次进行增量同步：主若是 where 树立："where": "ID > 1888 AND ID <= 2888" # 通过条目筛选来进行增量同步同期需要将我上头的 preSql 删除(因为我上头作念的操作时 truncate 表)

图片

起头：blog.csdn.net/weixin_46902396/article/details/121904705.给全球推选咱们团队建立的Chrome插件：YouTube华文配音。如果您跟咱们雷同，爱顺眼外洋的视频学习前沿学问大略其他内容，该插件可以很好的匡助您讲外语视频一键弯曲为华文视频，官网：https://www.youtube-dubbing.com/

图片

本站仅提供存储工作，系数内容均由用户发布，如发现存害或侵权内容，请点击举报。