Kubernetes Cluster 에서 Node 가 예기치 않게 죽었을 때, Node Status 는 NotReady 상태가 되고, 해당 Node 에 물린 Pod 들은 일정 시간이 지난 이후 다른 노드로 Re-schedule 되어 자동적으로 복구 될 수 있다.
하지만 rook-ceph 을 통해 PV 가 물린 Pod 는 이야기가 달라진다.
Node 가 그냥 죽은 상태는 큰 문제가 되지 않지만,
Split-brain 이나 Node suspend 상태 등으로 인해 NotReady 가 되었지만 이후에 다시 살아나서 Volume Write 가 이루어지는 경우에는 다른 파드가 떠있다면 충돌이 일어나 Volume 이 손상되게 된다.
이러한 것을 막기 위해 Volume 이 Unmount 되지 않았다면 다른 Pod 에서의 연결도 막게 된다.
이러한 문제는 쉽사리 해결하기가 어렵다.
이에 대한 Issue 이다.
https://github.com/rook/rook/issues/1507
2018 년 부터 지금까지 이어진 이슈로써 아직까지 완전한 해결책은 없어 보인다..
반응형
'개발 및 운영 > Kubernetes' 카테고리의 다른 글
rook-ceph external cluster 사용 시 rook-ceph-mgr-external 생성 실패시 (0) | 2023.11.22 |
---|---|
kubernetes sysctl (0) | 2023.05.24 |
RKE2 의 API 서버 접속 방법 (왜 127.0.0.1:6443 인가?) (0) | 2022.10.26 |
EJBCA-CE Docker with HSM on Kubernetes (1) | 2022.10.03 |
rook-ceph 에서 Proxmox ceph 을 external cluster 으로 사용할 때 문제 (0) | 2022.08.10 |
댓글