文章目录环境症状问题原因解决方案环境系统平台Linux x86-64 Red Hat Enterprise Linux 7,UOS海光,银河麒麟svsX86_64版本4.5,6.0症状应用无法连接数据库无法对外提供服务。问题原因检查操作系统日志记录发现故障时间段内etcd集群各节点间出现长时间的网络故障导致etcd集群不可用。 etcd集群是存储集群主备切换仲裁信息的分组件导致数据集群无法维持正常的运行状态首先降级为只读集群。解决方案整体处理思路为停止hghac服务首先恢复etcd集群之后选择合适的主节点启动hghac服务最后恢复整个hac集群的服务详细步骤如下1、按照先备后主的顺序停止整个集群的hghac服务#确定集群主备状态hghactl-c/usr/local/hghac/hghac.yml list#按照先备后主的顺序关闭hghac服务systemctl stop hghac.service2、恢复etcd服务#停止所有节点上的etcd服务systemctl stop etcd.service#所有节点备份原来的etcd data目录cp/usr/local/hghac/etcd/data/usr/local/hghac/etcd/data.bak#清空所有节点的data目录cd/usr/local/hghac/etcd/datarm-rf*#启动所有节点的etcd服务,各节点启动服务时间不要超过5秒systemcltstatusetcd.service#检查etcd集群状态etcdctl V2版本 etcdctl cluster-health etcdctl V3版本 etcdctl endpoint health--write-outtable3、按照先主后备的顺序启动hac集群#启动主节点hghac服务systemctlstarthghac.service#检查hghac服务状态systemctlstatushghac.service#启动备节点hghac服务systemctlstarthghac.service#确定集群主备状态hghactl-c/usr/local/hghac/hghac.yml list