1 高可用集群
1.1 集群类型
- LB:Load Balance 负载均衡
LVS/HAProxy/nginx (http/upstream, stream/upstream) - HA:High Availability 高可用集群
数据库、Zookeeper、Redis
SPoF:Single Point of Failure,解决单点故障 - HPC:High Performance Computing 高性能集群
https://www.top500.org
1.2 系统可用性
SLA:Service-Level Agreement 服务等级协议(提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约)
A = MTBF / (MTBF+MTTR)
99.95%:(60*24*30)*(1-0.9995)=21.6分钟 # 一般按一个月停机时间统计
指标:99.9%, 99.99%, 99.999%, 99.9999%
1.3 系统故障
硬件故障:设计缺陷、wear out(损耗)、自然灾害…...
软件故障:设计缺陷 bug
1.4 实现高可用
提升系统高用性的解决方案:降低MTTR-Mean Time To Repair(平均故障时间)
解决方案:建立冗余机制
- active/passive 主/备
- active/active 双主
- active --> HEARTBEAT --> passive
- active <--> HEARTBEAT <--> active
1.5 高可用相关技术
1.5.1 HA service
资源:组成一个高可用服务的"组件”,比如:vip, service process, shared storage
(1) passive node的数量
(2) 资源切换
1.5.2 shared storage
- NAS(Network Attached Storage):网络附加存储,基于网络的共享文件系统。
- SAN(Storage Area Network):存储区域网络,基于网络的块级别的共享
1.5.3 Network partition 网络分区
1.5.3.1 quorum 法定人数,仲裁
with quorum:> total/2
without quorum:<= total/2
1.5.3.2 隔离设备 fence
node:STONITH = Shooting The Other Node ln The Head(强制下线/断电)
参考资料:
1.5.4 双节点集群(TWO nodes Cluster)
辅助设备:仲裁设备,ping node, quorum disk
- Failover:故障切换,即某资源的主节点故障时,将资源转移至其它节点的操作
- Failback:故障移回,即某资源的主节点故障后重新修改上线后,将之前已转移至其它节点的资源重新切回的过程
1.5.5 HA Cluster 实现方案:
1.5.5.1 AlS:Application lnterface Specification 应用程序接口规范
- RHCS:Red Hat Cluster Suite 红帽集群套件
参考资料:https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/5/html/cluster_suite_overview/ch.gfscs.cluster-overview-cso

- heartbeat:基于心跳监测实现服务高可用
- pacemaker+corosync:资源管理与故障转移
1.5.5.2 VRRP:Virtual Router Redundancy Protocol
虚拟路由冗余协议,解决静态网关单点风险
- 物理层:路由器、三层交换机
- 软件层:keepalived
1.5.6 VRRP
1.5.6.1 VRRP 网络层硬件实现
参考链接:
https://support.huawei.com/enterprise/zh/doc/EDOC1000141382/19258d72/basic-concepts-of-vrrp
https://wenku.baidu.com/view/dc0afaa6f524ccbff1218416.html
https://wenku.baidu.com/view/281ae109ba1aa8114431d9d0.html

1.5.6.2 VRRP相关术语
- 虚拟路由器:Virtual Router
- 虚拟路由器标识:VRID(0-255),唯—标识虚拟路由器
- VIP:Virtual lP
- VMAC:Virutal MAC(00-00-5e-00-01-VRID)
- 物理路由器:
master:主设备
backup:备用设备
priority:优先级
1.5.6.3 VRRP相关技术
通告:心跳,优先级等;周期性
工作方式:抢占式,非抢占式
安全认证:
- 无认证
- 简单字符认证:预共享密钥
- MD5
工作模式:
- 主/备:单虚拟路径器
- 主/主:主/备(虚拟路由器1),备/主(虚拟路由器2)







Comments | NOTHING