1 高可用集群

1.1 集群类型

  • LB:Load Balance 负载均衡
    LVS/HAProxy/nginx (http/upstream, stream/upstream)
  • HA:High Availability 高可用集群
    数据库、Zookeeper、Redis
    SPoF:Single Point of Failure,解决单点故障
  • HPC:High Performance Computing 高性能集群
    https://www.top500.org

1.2 系统可用性

SLA:Service-Level Agreement 服务等级协议(提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约)

A = MTBF / (MTBF+MTTR)

99.95%:(60*24*30)*(1-0.9995)=21.6分钟 # 一般按一个月停机时间统计

指标:99.9%, 99.99%, 99.999%, 99.9999%

1.3 系统故障

硬件故障:设计缺陷、wear out(损耗)、自然灾害…...

软件故障:设计缺陷 bug

1.4 实现高可用

提升系统高用性的解决方案:降低MTTR-Mean Time To Repair(平均故障时间)

解决方案:建立冗余机制

  • active/passive 主/备
  • active/active 双主
  • active --> HEARTBEAT --> passive
  • active <--> HEARTBEAT <--> active

1.5 高可用相关技术

1.5.1 HA service

资源:组成一个高可用服务的"组件”,比如:vip, service process, shared storage

(1) passive node的数量

(2) 资源切换

1.5.2 shared storage

  • NAS(Network Attached Storage):网络附加存储,基于网络的共享文件系统。
  • SAN(Storage Area Network):存储区域网络,基于网络的块级别的共享

1.5.3 Network partition 网络分区

1.5.3.1 quorum 法定人数,仲裁

with quorum:> total/2
without quorum:<= total/2

1.5.3.2 隔离设备 fence

node:STONITH = Shooting The Other Node ln The Head(强制下线/断电)

参考资料:

https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/7/html/high_availability_add-on_reference/s1-unfence-haar

1.5.4 双节点集群(TWO nodes Cluster)

辅助设备:仲裁设备,ping node, quorum disk

  • Failover:故障切换,即某资源的主节点故障时,将资源转移至其它节点的操作
  • Failback:故障移回,即某资源的主节点故障后重新修改上线后,将之前已转移至其它节点的资源重新切回的过程

1.5.5 HA Cluster 实现方案:

1.5.5.1 AlS:Application lnterface Specification 应用程序接口规范

  • heartbeat:基于心跳监测实现服务高可用
  • pacemaker+corosync:资源管理与故障转移

1.5.5.2 VRRP:Virtual Router Redundancy Protocol

虚拟路由冗余协议,解决静态网关单点风险

  • 物理层:路由器、三层交换机
  • 软件层:keepalived

1.5.6 VRRP

1.5.6.1 VRRP 网络层硬件实现

参考链接:
https://support.huawei.com/enterprise/zh/doc/EDOC1000141382/19258d72/basic-concepts-of-vrrp

https://wenku.baidu.com/view/dc0afaa6f524ccbff1218416.html

https://wenku.baidu.com/view/281ae109ba1aa8114431d9d0.html

1.5.6.2 VRRP相关术语

  • 虚拟路由器:Virtual Router
  • 虚拟路由器标识:VRID(0-255),唯—标识虚拟路由器
  • VIP:Virtual lP
  • VMAC:Virutal MAC(00-00-5e-00-01-VRID)
  • 物理路由器:
    master:主设备
    backup:备用设备
    priority:优先级

1.5.6.3 VRRP相关技术

通告:心跳,优先级等;周期性

工作方式:抢占式,非抢占式

安全认证:

  • 无认证
  • 简单字符认证:预共享密钥
  • MD5

工作模式:

  • 主/备:单虚拟路径器
  • 主/主:主/备(虚拟路由器1),备/主(虚拟路由器2)