【转帖】Mysql replication相关

BY CHINAUNIX  双眼皮的猪

    因为本来是用word写的,我是直接复制过来,所以可能会比较难看... 过一段时间找到服务器,再给大家下载....

贴上来的目的:share,顺便请高人纠错,万分感谢,或者不完善的地方,请大家多多提出...

因为我觉得也不是太熟悉,所以大家多看看,帮我指指错误就最好啦icon_smile.gif

实现MySQL的Replication
在MySQL 3.23.15版本之后,MySQL提供了数据库复制的功能,可以实现两个数据库实时同步,增强了MySQL数据库的稳定性,而且可以在企业级应用的数据库层实现Cluster…

条件:
1 Redhat 9
2 Mysql 4.0.20
3 两台机器ip为192.168.37.188 192.168.37.189,分别安装mysql
目标:
1. 数据库的双向复制
2. 在master与slave网络不通但过后再次恢复正常,master上的数据在slave上也可以得到更新,反之亦然.

本文主要分为以下几个部分:

第一部分 安装MySQL
第二部分 配置/etc/my.cnf(要查看/etc/init.d/mysql脚本判断是/etc/my.cnf)
第三部分 给权限
第四部分 查看工作状态,测试并验证是否可以真正同步
第五部分 Troubleshooting


第一部分 安装MySQL
1. 得到MySQL的RPM安装包,列表如下:
MySQL-server-4.0.20-0
MySQL-client-4.0.20-0
MySQL-shared-4.0.20-0
2. 使用root身份安装
#rpm ?ivh MySQL-*-4.0.20-0
会有进度条提示安装进度;

安装完毕后,MySQL的数据库配置文件在/var/lib/mysql/中,而默认的几个配置文件在/usr/share/mysql/中,有以下几个文件:
My-hug.cnf
My-large.cnf
My-medium.cnf
My-small.cnf
顾名思义,是为了针对不同的应用来设计的,主要是对数据库的一些参数作了优化,具体优化请见my.cnf内的[mysqld]中语句.


第二部分 配置/etc/my.cnf
通过RPM包安装的mysql在/etc/init.d下会生成一个mysql的shell脚本文件,而在Redhat下我们一般用service mysql start的时候,其实就是传给该脚本start参数并执行,那么需要查看该文件,究竟是调用的哪个配置文件,在其中我们找到这么一行…
conf=/etc/my.cnf
那么可以判断配置文件是/etc/my.cnf
假设我们的是中型应用:
#copy /usr/share/mysql/my-medium.cnf /etc/my.cnf
拷贝到/etc/my.cnf之后,就可以对其进行配置,MySQL在每次启动的时候读取该配置文件并按其配置方式启动,因为数据库需要双向复制,则每台机器都需要同时是master和slave,
1、 首先在192.168.37.188的/etc/my.cnf下在[mysqld]中修改,以下配置该机为master:
server-id=1
log-bin
binlog-do-db=backup

解释:
1) server-id=1表示是本机的序号为1,一般来讲就是master的意思.
2) log-bin表示打开binlog,打开该选项才可以通过I/O写到Slave的relay-log,也是可以进行replication的前提;
3) binlog-do-db=backup 表示需要备份的数据库是backup这个数据库,
4) 如果需要备份多个数据库,那么应该写多行,如下所示:
binlog-do-db=backup1
binlog-do-db=backup2
binlog-do-db=backup3

2、 其次仍然在该区域修改,以下配置为该机为slave
master-host=192.168.37.189
master-user=backup
master-password=1234
master-port=3306

3、 然后配置192.168.37.189上的my.cnf
在/etc/my.cnf下在[mysqld]中修改:
server-id=2
master-host=192.168.37.188
master-user=username
master-password=password
master-port=3306 #主服务器端口
master-connect-retry=60 #同步时间间隔为60秒
replicate-do-db=backup
log-bin
binlog-do-db=backup

解释:
1) server-id=2表示本机器的序号;
2) master-host=192.168.37.188 表示本机做slave时的master为192.168.37.188;
3) master-user=username 这里表示master上开放的一个有权限的用户,使其可以从slave连接到master并进行复制;
4) master-password=password 表示授权用户的密码;
5) master-port=3306 master上MySQL服务Listen3306端口;
6) master-connect-retry=60 同步间隔时间;
7) replicate-do-db=backup 表示同步backup数据库;
icon_cool.gif log-bin 打开logbin选项以能写到slave的 I/O线程;
9) binlog-do-db=backup 表示别的机器可以同步本机的backup数据库.
最后重新启动192.168.37.188和192.168.37.189两台机器的mysql.
第三部分 分配权限
在192.168.37.188上使用mysql登陆,操作如下:
(1)Mysql>grant all privileges on backup.* to ‘backup’@’192.168.37.189’ identified by ‘1234’;
给使用192.168.37.189连接的backup用户以replication的权限…
(2)Mysql>flush privileges;
刷新权限设置;

在slave上使用mysql登陆
(1)Mysql> grant all privileges on backup.* to ‘backup’@’192.168.37.188’ identified by ‘1234’;
(2)Mysql>flush privileges;
刷新权限设置;

说明:上面的all privileges在4.0版上应该为replication slave,也就是grant replication slave on ........在3.23上是file,也就是grant file on ........但是我怕有别的麻烦,干脆权限全给好啦.
在进行如上设置之后,可以看出在192.168.37.189设定好并重启mysql以后,mysql会在数据目录 (/var/lib/mysql)下生成一个master.info文件和relay-log.info,relay-log.index文件.如果要更改master服务器,则要删除掉这个文件,(即在更改了/etc/my.cnf中master相关信息)在my.cnf文件中重新配置,重新启动 mysql,更改才会生效.

第四部分 查看工作状态
1) 在master上新建一个backup数据库
Mysql>create database backup;
2) 新建一个表:
Mysql>create table jintao (id int(10),name varchar(20));
3) 查看192.168.37.189上的mysql;
Mysql>use backup;
Mysql>show tables;
Mysql>desc jintao;
Mysql>select * from jintao;
如果看到与master相同的信息,则可以证明是成功的.
同时可以改动已有的数据库来判断是否已经达到同步,都差不多的…只要证明数据库同步就可以啦…这时不分master/slave,在master上改动slave上会更新,而在slave上改动,master上也可以得到更新.
第五部分 troubleshooting

在master上,其实不需要做什么设置,只需要打开log-bin,写上server-id=1,写上要备份的数据库,则自动是master模式,于是问题主要集中在slave上.那么slave上是如何工作的呢?
Slave上Mysql的Replication工作有两个线程,I/O thread和SQL thread,I/O 的作用是从master 3306端口上把它的binlog取过来(master在被修改了任何内容之后,就会把修改了什么写到自己的binlog等待slave更新),然后写到本地的relay-log,而SQL thread则是去读本地的relay-log,再把它转换成本Mysql所能理解的东西,于是同步就这样一步一步的完成.决定I/O thread的是/var/lib/mysql/master.info,而决定SQL thread的是/var/lib/mysql/relay-log.info.
请注意,因为上边提到了binlog里的内容是改了什么东东,而不是改了以后是什么东东,所以在进行同步之前必须保证两个数据库是完全相同的, 不然可能出错.打个比方来说.A机上有一个表里的元组为2,而操作是减一,则binlog只会记录减一这个操作,如果B机上没有,那么则无法得到同步,因为B机没有这个字段,就不知道减一是什么操作.
对于故障诊断,我的方法是都在slave(master/slave是相对的)的mysql(指客户端)里完成.

方法一:show slave status;
正确情况下应该同如下类似:
复制内容到剪贴板
代码:
mysql> show slave status;
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
| Master_Host | Master_User | Master_Port | Connect_retry | Master_Log_File | Read_Master_Log_Pos | Relay_Log_File | Relay_Log_Pos | Relay_Master_Log_File | Slave_IO_Running | Slave_SQL_Running | Replicate_do_db | Replicate_ignore_db | Last_errno | Last_error | Skip_counter | Exec_master_log_pos | Relay_log_space |
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
| 192.168.37.188 | backup | 3306 | 5 | Server-bin.020 | 79 | Jintao-relay-bin.001 | 45 | Server-bin.020 | Yes | Yes | backup | | 0 | | 0 | 79 | 45 |
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
1 row in set (0.00 sec)
上边的Jintao和Server是两台机器的主机名,所以真实情况应该有所分别,注意其中的YES|YES,这个是本地I/O线程及SQL线程的工作状态,要确保都为YES,如果不是YES,请检查mysql是否正常运行.

方法二:show processlist;
如果正确,则应该如下所示:
Mysql>show processlist;
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| Id | User | Host | db | Command | Time | State | Info |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| 4 | system user | | NULL | Connect | 398 | Waiting for master to send event | NULL |
| 5 | system user | | NULL | Connect | 398 | Has read all relay log; waiting for the I/O slave thread to update it | NULL |
| 6 | root | localhost | NULL | Query | 0 | NULL | show processlist |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
3 rows in set (0.00 sec)

注意同标记过的字符类似,则是正确的,错误情况下应该是这个样子:
mysql> show processlist;
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| Id | User | Host | db | Command | Time | State | Info |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| 4 | system user | | NULL | Connect | 454 | Reconnecting after a failed master event read | NULL |
| 5 | system user | | NULL | Connect | 454 | Has read all relay log; waiting for the I/O slave thread to update it | NULL |
| 7 | root | localhost | NULL | Query | 0 | NULL | show processlist |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
3 rows in set (0.00 sec)
当然如果这里的Reconnecting只是错误的一种,有可能是connecting,则表示正在连接,那么请检查:
1 master上的mysql daemon是否正常运行
2 master与slave的网络连接是否正常
3 my.cnf是否配置正确
4 在修改配置后是否删除过master.info?(删掉以后会自动再生成一个,别担心删掉),因为如果不删掉的话,那么则还是使用原来的配置
5 修改配置后有没有重新启动mysql daemon,重新启动过程后必须证实mysql已经正常启动
6 master上给slave及slave给master上分配的replication用户权限是否正确,master的主机名和dns设置
7 当前状况两台数据库是否完全相同.

方法三:show master status;
mysql> show master status;
+----------------+----------+--------------+------------------+
| File | Position | Binlog_do_db | Binlog_ignore_db |
+----------------+----------+--------------+------------------+
| Server-bin.021 | 79 | backup | |
+----------------+----------+--------------+------------------+
1 row in set (0.00 sec)
注意上边的这条,position不能为0,如果为0则表示有问题,请检查/etc/my.cnf中的server-id及是否打开log-bin
mysql> show processlist;
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
| Id | User | Host | db | Command | Time | State | Info |
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
| 1 | backup | 192.168.37.189:1067 | NULL | Binlog Dump | 284 | Has sent all binlog to slave; waiting for binlog to be updated | NULL |
| 3 | root | localhost | NULL | Query | 0 | NULL | show processlist |
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
2 rows in set (0.00 sec)
如果master上不是这样,那么就应该是master的配置有问题啦.


方法四 查看错误日志
在/var/lib/mysql下有个hostname.err文件,所有的错误都在其中被记录,如下所示:
041210 12:54:51 mysqld started
041210 12:54:51 Warning: Asked for 196608 thread stack, but got 126976
InnoDB: The first specified data file ./ibdata1 did not exist:
InnoDB: a new database to be created!
041210 12:54:51 InnoDB: Setting file ./ibdata1 size to 10 MB
InnoDB: Database physically writes the file full: wait...
041210 12:54:54 InnoDB: Log file ./ib_logfile0 did not exist: new to be created
InnoDB: Setting log file ./ib_logfile0 size to 5 MB
InnoDB: Database physically writes the file full: wait...
041210 12:54:55 InnoDB: Log file ./ib_logfile1 did not exist: new to be created
InnoDB: Setting log file ./ib_logfile1 size to 5 MB
InnoDB: Database physically writes the file full: wait...
InnoDB: Doublewrite buffer not found: creating new
InnoDB: Doublewrite buffer created
InnoDB: Creating foreign key constraint system tables
InnoDB: Foreign key constraint system tables created
041210 12:54:58 InnoDB: Started
/usr/sbin/mysqld: ready for connections.
Version: '4.0.20-standard-log' socket: '/var/lib/mysql/mysql.sock' port: 3306
041210 12:54:58 Slave SQL thread initialized, starting replication in log 'FIRST' at position 0, relay log './Jintao-relay-bin.001' position: 4
041210 12:54:58 Slave I/O thread: connected to master 'backup@192.168.37.188:3306', replication started in log 'FIRST' at position 4
以上日志没有错误,只是一个例子,但是假如数据库同步失败出现错误时,两个数据库不同,binlog中的记录将不能被slave所理解,所以会出错. /var/lib/mysql/下会不停的生成hostname-bin.001及hostname-relay-bin.001之类的文件,这样每次在重新启动master/slave的时候都会用一个新的relay-log来取代原来的.所以该目录会不停的生成类似文件,而hostname- relay-bin.index来控制哪个是当前所使用的relay-log.整体的同步过程上面第五部分开头已经说清楚了,这里不再详述.
Btw:假如不知道本机的hostname,可以在终端下输入
#hostname