본문 바로가기
개발 및 운영/Kubernetes

Kubernetes 에서 Node 죽었을 때 PV가 있는 파드가 스케쥴링 되지 않는 현상

by Joseph.Lee 2022. 12. 27.

 Kubernetes Cluster 에서 Node 가 예기치 않게 죽었을 때, Node Status 는 NotReady 상태가 되고, 해당 Node 에 물린 Pod 들은 일정 시간이 지난 이후 다른 노드로 Re-schedule 되어 자동적으로 복구 될 수 있다.

 

하지만 rook-ceph 을 통해 PV 가 물린 Pod 는 이야기가 달라진다.

Node 가 그냥 죽은 상태는 큰 문제가 되지 않지만,

Split-brain 이나 Node suspend 상태 등으로 인해 NotReady 가 되었지만 이후에 다시 살아나서 Volume Write 가 이루어지는 경우에는 다른 파드가 떠있다면 충돌이 일어나 Volume 이 손상되게 된다.

이러한 것을 막기 위해 Volume 이 Unmount 되지 않았다면 다른 Pod 에서의 연결도 막게 된다.

이러한 문제는 쉽사리 해결하기가 어렵다.

 

이에 대한 Issue 이다.

https://github.com/rook/rook/issues/1507

 

2018 년 부터 지금까지 이어진 이슈로써 아직까지 완전한 해결책은 없어 보인다..

반응형

댓글