2019年12月6日 星期五

vCD100,測試 vCD DB HA Cluster 停掉 primary

我像要測試一下
畢竟production環境後狀況會更多



現在
我有cell-1和cell-2這兩個vCD Appliance
cell-1 為 primary
cell-2 為 standby


現在
我把角色為primary的cell-1的VM給關機
然後去連cell-1和cell-2的UI portal
結果,兩個都連不上

再到cell-2的底層去看
cell-1的狀態已經 unreachable了
sudo -i -u postgres /opt/vmware/vpostgres/current/bin/repmgr cluster show
sudo -i -u postgres repmgr cluster show

看起來...
standby 的 cell-2 沒有自動接手
現在我再把cell-1的VM給開啟來
再連一次兩個 appliance portal

也再連一次UI portal
都正常了

再到底層看
狀態也恢復了
sudo -i -u postgres /opt/vmware/vpostgres/current/bin/repmgr cluster show
sudo -i -u postgres repmgr cluster show


結論:
目前不確定
為何cell-2不會自動去接手cell-1 primary的角色
我這邊也先註記一下

番外篇:
一樣的測試情境
把cell-1的VM給關機
可是從cell-2觀察到的是
cell-2成為 primary,把cell-1開機後,cell-1也是 primary
兩個primary 腦裂了

經過搶救,恢復正常
我是這樣處理的
先到cell-2把DB停掉
systemctl stop vpostgres.service

刪除舊的 DB 資料
rm -rf /var/vmware/vpostgres/current/pgdata

透過192.168.99.101
將cell-1的DB資料複製到 cell-2

再重啟服務

systemctl start vpostgres.service

觀察一下
狀態又恢復正常了
sudo -i -u postgres /opt/vmware/vpostgres/current/bin/repmgr cluster show
sudo -i -u postgres repmgr cluster show

沒有留言:

張貼留言