본문 바로가기
네트워크 장애처리(트러블슈팅) 사례

정부 행정망 장애원인 1번 (L4 스위치)에 대하여

by 우진아빠의 네트워크 실무 2023. 11. 23.
728x90
반응형
SMALL

정부 행정망 장애원인 1번 (L4 스위치)에 대하여

필자도 이번에 정부 행정망에 장애가 발생하면서 조금 귀찮아진 일이 발생하였다.

이미지 출처: 구글

은행에 서류를 제출해야하는데 서류가 발급이 안되니 뭐 어쩔수가 없다. 같이 전산을 하는 직종인지라 정부 행정망 담당자의 고충을 100번 이해한다. 너무 뭐라고 하지 마시라. 담당자도 충분히 힘들다. 아마 휴일내내 출근하고 정신적으로 힘들었들테니 더 이상 비난하지 마시라.

이번에 뉴스에 보니 정부 행정망의 장애원인이 L4  스위치라고 뉴스가 났다.

그럼 L4 스위치에 대해서 알아보자. 

L4스위치가 뭐하는 역할을 하는지를 이해를 해볼 필요가 있다. L4 스위치의 역할은 로드밸런싱(서버 부하분산)이라고 보시면되겠다. 외부에서 들어오는 모든 요청은 서버에 직접가는 것이 아니라 L4 스위치를 거쳐서 적절하게 서버에게 트래픽을 배분하는 역할이라고 이해하시면 되겠다. 또한 L4 스위치의 역할은 부하분산 뿐만이 아니라  출발지 IP 또는 목적지 IP를 NAT화 시켜서 보낼 수 있는 추가적인 기능이 존재한다. (NAT 기능은 다음에 설명해드리겠다)

음....이해가 잘 안가시는 분들을 위해서 필자가 그림을 한번 그려보았다. 아주 대략 그렸고 추정치일뿐이다.

L4 스위치의 역할을 필자나름대로 그림을 그려보았다

이번에 장애가 발생한 L4 스위치는 아마 인증서버의 부하분산을 위한 L4 스위치가 장애를 일으켰을 확률이 아주 높다고 생각한다. 각 지자체에서 아예 인증을 위한 Login 자체가 되지 않는다고 했다. 아마 개인정보를 담고 있는 DB 서버앞단에 설치된 L4 스위치는 별 문제가 없었을 것이라 추측된다.

그럼 L4 스위치가 왜 필요한지 알아보자. L4 스위치의 핵심적인 역할이다.

서버가 1대만 존재한다고 가정을 해자. 그럼 이 서버는 당연히 서비스를 한다. 서버의 공인IP주소가 100.100.100.101번이라고 가정하면 모든 트래픽이100.100.100.101번으로 당연히 접속할꺼고 사용자가 점점 늘어난다면 서버의 수량을 늘릴 수밖에 없다. 

이렇게 밖에 될수 없다

그럼 서버를 1대 더 늘렸다고 가정하면 2번 서버의 IP는 100.100.100.102번이 될꺼고 외부에서 접속하기 위해서는 100.100.100.101번 또는 100.100.100.102번으로 접속을 해야하는데 일단 어디로 접속을 할지는 미지수가 되겠죠?

서버가 또 늘어난다면 어떻게 될까? 3대, 4대, 5대 이런식으로 계속 늘어난다면 비용만 계속 지출되고 어느 서버는 계속 접속이 몰려서 다운되기 직전이고 나머지 서버들은 땡땡 놀고 있고....

이렇게 되면 서버1번만 힘들고 서비스도 제대로 이뤄지지 않는다

이런 현상이 일어나게 된다. 그래서 여기에서 필요한 것이 로드밸런싱이라고 보시면 되겠다.

일일이 서버한테 요청할 필요도 없이 L4 스위치에 모든 요청을 해버리고 L4 스위치가 서버들에게 요청을 그대로 전달해서 적절하게 트래픽을 분산 조절하는 것L4 스위치의 핵심적인 역할이라고 보시면 되겠다. 

이미지 출처: 구글

L4 스위치가 트래픽을 받아서 인증서버에게 줘야 인증서버가 일을 하는데 트래픽을 받아서 인증서버에 주지못하고 트래픽이 그냥 사라져버리고, 인증이 안되니 당연히 아무것도 안되는게 맞다. 그래서, 이런 초유의 사태가 발생하였다고 보시면 되겠다. 

상세한 내용은 필자가 제작한 영상을 보셨으면 한다.

https://www.youtube.com/watch?v=0gWVjqe4mnw&t=7s

원래 L4 스위치에 대해서 언젠가 한번 포스팅을 하려고 했었는데 이런 장애가 발생하는 관계로 포스팅을 하게 되어서 정말 안타깝게 생각하며 이런 장애가 발생하지 않기를 하는 마음으로 같은 전산인으로써 동병상련을 느껴본다.씁쓸한 마음과 함께 오늘의 포스팅을 마친다.

728x90
반응형
LIST

댓글