MySQL架构之MHA架构实战

2020-03-10

一、MHA原理

1、简介：

MHA（Master High Availability）目前在MySQL高可用方面是一个相对成熟的解决方案，它由日本DeNA公司youshimaton（现就职于Facebook公司）开发，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到在0~30秒之内自动完成数据库的故障切换操作，并且在进行故障切换的过程中，MHA能在最大程度上保证数据的一致性，以达到真正意义上的高可用。

该软件由两部分组成：MHA Manager（管理节点）和MHA Node（数据节点）。MHA Manager可以单独部署在一台独立的机器上管理多个master-slave集群，也可以部署在一台slave节点上。MHA Node运行在每台MySQL服务器上，MHA Manager会定时探测集群中的master节点，当master出现故障时，它可以自动将最新数据的slave提升为新的master，然后将所有其他的slave重新指向新的master。整个故障转移过程对应用程序完全透明。

在MHA自动故障切换过程中，MHA试图从宕机的主服务器上保存二进制日志，最大程度的保证数据的不丢失，但这并不总是可行的。例如，如果主服务器硬件故障或无法通过ssh访问，MHA没法保存二进制日志，只进行故障转移而丢失了最新的数据。使用MySQL 5.5的半同步复制，可以大大降低数据丢失的风险。MHA可以与半同步复制结合起来。如果只有一个slave已经收到了最新的二进制日志，MHA可以将最新的二进制日志应用于其他所有的slave服务器上，因此可以保证所有节点的数据一致性。

目前MHA主要支持一主多从的架构，要搭建MHA,要求一个复制集群中必须最少有三台数据库服务器，一主二从，即一台充当master，一台充当备用master，另外一台充当从库，因为至少需要三台服务器，出于机器成本的考虑，淘宝也在该基础上进行了改造，目前淘宝TMHA已经支持一主一从。

我们自己使用其实也可以使用1主1从，但是master主机宕机后无法切换，以及无法补全binlog。master的mysqld进程crash后，还是可以切换成功，以及补全binlog的。

（1）从宕机崩溃的master保存二进制日志事件（binlog events）;

（2）识别含有最新更新的slave；

（3）应用差异的中继日志（relay log）到其他的slave；

（4）应用从master保存的二进制日志事件（binlog events）；

（5）提升一个slave为新的master；

（6）使其他的slave连接新的master进行复制；

2、MHA组成

Manager工具包主要包括以下几个工具：

masterha_check_ssh              检查MHA的SSH配置状况
masterha_check_repl             检查MySQL复制状况
masterha_manger                 启动MHA
masterha_check_status           检测当前MHA运行状态
masterha_master_monitor         检测master是否宕机
masterha_master_switch          控制故障转移（自动或者手动）
masterha_conf_host              添加或删除配置的server信息

Node工具包（这些工具通常由MHA Manager的脚本触发，无需人为操作）主要包括以下几个工具：

save_binary_logs                保存和复制master的二进制日志
Apply_diff_relay_logs           识别差异的中继日志事件并将其差异的事件应用于其他的slave
filter_mysqlbinlog              去除不必要的ROLLBACK事件（MHA已不再使用这个工具）
purge_relay_logs                清除中继日志（不会阻塞SQL线程）

由于mha的软件包需要FQ，找到了一个大神百度云盘提供的下载链接：https://pan.baidu.com/s/1pJ0VkSz#list/path=%2F

二、环境准备

主机ip描述系统linux-node1192.168.56.11master以及MHA管理节点centos 7.4linux-node2192.168.56.12slave节点centos 7.4linux-node3192.168.56.13slave节点centos 7.4

三、MHA部署实战

1、安装依赖

[root@linux-node1 ~]# yum install -y perl-DBD-MySQL
[root@linux-node1 ~]#  yum install -y perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager
[root@linux-node2 ~]# yum install -y perl-DBD-MySQL
[root@linux-node3 ~]# yum install -y perl-DBD-MySQL
#如果无法安装，需要安装epel源：yum install -y epel-release

2、安装软件

[root@linux-node1 ~]# rpm -ivh mha4mysql-node-0.56-0.el6.noarch.rpm 
准备中...                          ################################# [100%]
正在升级/安装...
   1:mha4mysql-node-0.56-0.el6        ################################# [100%]
[root@linux-node2 ~]# rpm -ivh mha4mysql-node-0.56-0.el6.noarch.rpm 
准备中...                          ################################# [100%]
正在升级/安装...
   1:mha4mysql-node-0.56-0.el6        ################################# [100%]

[root@linux-node3 ~]# rpm -ivh mha4mysql-node-0.56-0.el6.noarch.rpm 
Preparing...                          ################################# [100%]
Updating / installing...
   1:mha4mysql-node-0.56-0.el6        ################################# [100%]

3、修改/etc/my.cnf

修改服务节点my.cnf，这里做临时配置，最终生效要配置到my.cnf
MySQL [(none)]> set global relay_log_purge=0;
Query OK, 0 rows affected (0.04 sec)

MySQL [(none)]> grant all privileges on *.* to mha@'192.168.56.%' identified by '123456';
Query OK, 0 rows affected, 1 warning (0.04 sec)

MySQL [(none)]> flush privileges;
Query OK, 0 rows affected (0.03 sec)

配置如下：
[client]    
port        = 3306     
socket      = /data/mysql/mysql.sock

[mysql]
no-auto-rehash

[mysqld]    
user = mysql
port        = 3306     
socket      = /data/mysql/mysql.sock     
datadir     = /data/mysql/data
log-bin = /data/mysql/mysql-bin
server-id = 6
#skip-grant-tables
relay_log_purge=0

4、管理节点配置MHA

[root@linux-node1 ~]# mkdir /etc/mha
[root@linux-node1 ~]# mkdir /var/log/mha/app1 -p
[root@linux-node1 ~]# vim /etc/mha/app1.cnf
[server default]
manager_log=/var/log/mha/app1/manager.log   #设置manager的日志
manager_workdir=/var/log/mha/app1.log       #设置manager的工作目录
master_binlog_dir=/data/mysql/data          #设置master 保存binlog的位置，以便MHA可以找到master的日志
user=mha                                    #设置监控用户mha
password=123456     #设置mysql中root用户的密码，这个密码是前文中创建监控用户的那个密码
ping_interval=2         #设置监控主库，发送ping包的时间间隔，默认是3秒，尝试三次没有回应的时候自动进行railover
repl_password=123456    #设置复制用户的密码
repl_user=rep                   #设置复制环境中的复制用户名
ssh_user=root                  #设置ssh的登录用户名

[server1]
hostname=192.168.56.11
port=3306

[server2]
candidate_master=1   #设置为候选master，如果设置该参数以后，发生主从切换以后将会将此从库提升为主库，即使这个主库不是集群中事件最新的slave
check_repl_delay=0   #默认情况下如果一个slave落后master 100M的relay logs的话，MHA将不会选择该slave作为一个新的master，因为对于这个slave的恢复需要花费很长时间，通过设置check_repl_delay=0,MHA触发切换在选择一个新的master的时候将会忽略复制延时，这个参数对于设置了candidate_master=1的主机非常有用，因为这个候选主在切换的过程中一定是新的master
hostname=192.168.56.12
port=3306

[server3]
hostname=192.168.56.13
port=3306

5、配置SSH登录

[root@linux-node1 ~]# ssh-keygen -t rsa

ssh-copy-id -i .ssh/id_rsa.pub root@192.168.56.11
ssh-copy-id -i .ssh/id_rsa.pub root@192.168.56.12
ssh-copy-id -i .ssh/id_rsa.pub root@192.168.56.13

[root@linux-node1 ~]# ssh 192.168.56.12
Last login: Tue Jan  9 17:03:24 2018 from 192.168.56.1
[root@linux-node2 ~]# logout
Connection to 192.168.56.12 closed.
[root@linux-node1 ~]# ssh 192.168.56.13
Last login: Tue Jan  9 21:25:59 2018 from 192.168.56.1
[root@linux-node3 ~]# logout
Connection to 192.168.56.13 closed.
[root@linux-node1 ~]# ssh 192.168.56.11
Last failed login: Wed Jan 10 17:08:07 CST 2018 from linux-node2 on ssh:notty
There were 3 failed login attempts since the last successful login.
Last login: Sat Jan  6 08:52:06 2018 from 192.168.56.1
[root@linux-node1 ~]# logout
Connection to 192.168.56.11 closed.

6、检查SSH登录

[root@linux-node1 ~]# masterha_check_ssh --conf=/etc/mha/app1.cnf 
Wed Jan 10 17:11:00 2018 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
Wed Jan 10 17:11:00 2018 - [info] Reading application default configuration from /etc/mha/app1.cnf..
Wed Jan 10 17:11:00 2018 - [info] Reading server configuration from /etc/mha/app1.cnf..
Wed Jan 10 17:11:00 2018 - [info] Starting SSH connection tests..
Wed Jan 10 17:11:03 2018 - [debug] 
Wed Jan 10 17:11:00 2018 - [debug]  Connecting via SSH from root@192.168.56.11(192.168.56.11:22) to root@192.168.56.12(192.168.56.12:22)..
Wed Jan 10 17:11:01 2018 - [debug]   ok.
Wed Jan 10 17:11:01 2018 - [debug]  Connecting via SSH from root@192.168.56.11(192.168.56.11:22) to root@192.168.56.13(192.168.56.13:22)..
Wed Jan 10 17:11:02 2018 - [debug]   ok.
Wed Jan 10 17:11:03 2018 - [debug] 
Wed Jan 10 17:11:01 2018 - [debug]  Connecting via SSH from root@192.168.56.12(192.168.56.12:22) to root@192.168.56.11(192.168.56.11:22)..
Wed Jan 10 17:11:02 2018 - [debug]   ok.
Wed Jan 10 17:11:02 2018 - [debug]  Connecting via SSH from root@192.168.56.12(192.168.56.12:22) to root@192.168.56.13(192.168.56.13:22)..
Wed Jan 10 17:11:02 2018 - [debug]   ok.
Wed Jan 10 17:11:03 2018 - [debug] 
Wed Jan 10 17:11:02 2018 - [debug]  Connecting via SSH from root@192.168.56.13(192.168.56.13:22) to root@192.168.56.11(192.168.56.11:22)..
Wed Jan 10 17:11:02 2018 - [debug]   ok.
Wed Jan 10 17:11:02 2018 - [debug]  Connecting via SSH from root@192.168.56.13(192.168.56.13:22) to root@192.168.56.12(192.168.56.12:22)..
Wed Jan 10 17:11:03 2018 - [debug]   ok.
Wed Jan 10 17:11:03 2018 - [info] All SSH connection tests passed successfully.

7、检查mysql replication是否配置成功

[root@linux-node1 ~]# ln -s /usr/local/mysql/bin/mysql /usr/bin/mysql
[root@linux-node1 ~]# ln -s /usr/local/mysql/bin/mysqlbinlog /usr/bin/mysqlbinlog
#必须要做软连接，或者添加到PATH环境变量，否则会报错
ot@linux-node1 ~]# masterha_check_repl --conf=/etc/mha/app1.cnf 
MySQL Replication Health is OK.

8、启动监控

[root@linux-node1 ~]# nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master < /dev/null > /var/log/mha/app1/manager.log 2>&1 &
[1] 20640
[root@linux-node1 ~]# masterha_check_status --conf=/etc/mha/app1.cnf 
app1 monitoring program is now on initialization phase(10:INITIALIZING_MONITOR). Wait for a while and try checking again.

9、测试

（1）停止主库
[root@linux-node1 ~]# /etc/init.d/mysqld stop
Shutting down MySQL............ SUCCESS! 

（2）登录从库查看，node2变成了主库，node3的主库ip变成了192.168.56.12
[root@linux-node2 ~]# mysql -uroot -p123456
Welcome to the MariaDB monitor.  Commands end with ; or g.
Your MySQL connection id is 24
Server version: 5.7.18-log MySQL Community Server (GPL)

Copyright (c) 2000, 2017, Oracle, MariaDB Corporation Ab and others.

Type 'help;' or 'h' for help. Type 'c' to clear the current input statement.

MySQL [(none)]> show master status;
+------------------+----------+--------------+------------------+-------------------+
| File             | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
+------------------+----------+--------------+------------------+-------------------+
| mysql-bin.000005 |      154 |              |                  |                   |
+------------------+----------+--------------+------------------+-------------------+
1 row in set (0.00 sec)

[root@linux-node3 ~]# mysql -uroot -p123456
mysql> show slave statusG
*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event
                  Master_Host: 192.168.56.12
                  Master_User: rep
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: mysql-bin.000005
          Read_Master_Log_Pos: 154
               Relay_Log_File: linux-node3-relay-bin.000002
                Relay_Log_Pos: 320
        Relay_Master_Log_File: mysql-bin.000005
             Slave_IO_Running: Yes
            Slave_SQL_Running: Yes