본문 바로가기
네트워크 장애처리(트러블슈팅) 사례

네트워크 합선(Looping)현상의 위험성 및 방지책

by 우진아빠의 네트워크 실무 2023. 11. 20.
728x90
반응형
SMALL

네트워크 합선(Looping)현상의 위험성 및 방지책

필자가 근무하는 기관은 1000명 이상의 초대규모 네트워크이다. user수가 많다는 것은 그만큼 장애가 날 확률이 높다는 이야기이며 사고칠 user도 자동으로 늘어난다는 것이다. 필자가 처음 여기에 발령을 받고나서 약 1개월이 지났을까? 그때는 필자도 초보(약 20년전)였다. 그때 Looping 현상이 생겼다. 필자가 근무하는 기관이 그 당시에는 건물이 약 20여개 였는데 All Down 현상이 일어났다. 모든 부서에서 전산이 안된다는 전화가 쏟아진다. 정말 울고 싶었다. 미쳐버린다.

그 당시에는 네트워크 장비가 ATM 망이었는데 지금처럼 10G망이 아니다. 그래서, 네트워크 취약점에 대한 대비는 거의 없었다고 보시면 되겠다. 모두 다 장애가 발생하니 필자의 부서에서는 아주 난리가 났다. 현재 원인을 못 찾고 있다.비유를 해보자면 이번에 정부24 행정망 시스템이 장애나서 모든 민원업무가 All Stop 되었다고 보시면 되겠다. 

거기 전산직 직원들이 얼마나 개고생했는지는 필자는 완전히 공감한다. 필자또한 불편을 겪은 것은 사실이지만, 정말 고생하셨다고 위로를 해드리고 싶다. 나중엔 재발방지 대책 수립부터 시작해서 좀 피곤해지실듯....ㅠㅠ  같은 전산직이지만 너무 안타깝다. 안봐도 비디오다.

이야기가 잠시 옆으로 빠졌는데...필자의 경우는 어차피 다 안되기 때문에 백본하고 라우터(외부로 나가는 관문)만 살려두고 필자의 노트북 1개만 물렸다.  그리고,백본에서 모든 광케이블을 다 뽑았다. 전화기는 아예 코드를 뽑아버렸다. 전화 받다가는 업무가 진행이 안된다. 전화 안 받는다고 문자와도 다 씹는다.  니들이 연락하는게 오히려 복구를 느리게 하는거라고...제발 좀 연락하지마라. 나도 힘들다. 필자 혼자서 인터넷이 된다. 장비상의 오류가 아니라 하단부 네트워크에서 올라오는 오류라고 확신을 가졌다. 백본에 빠져 있는 모든 광케이블을 1개씩 연결해본다. 필자의 노트북에는 ping을 걸어뒀다.

1번 건물을 연결해보자. ping이 정상적으로 날아간다. 

이렇게 정상적으로 ping이 된다. IP는 상이할 수 있다.

2번 건물을 또 연결해본다. 약 5분 정도 걸어본다. 1번 건물과 2번 건물 모두 연결을 하고도 ping이 잘된다. 이건 1,2번 건물안에는 범인이 없다는 뜻이다.

3번, 4번, 5번.....이런식으로 계속 반복을 해본다. 그러다가.....10번 건물을 연결했는데 ping이 막 깨지기 시작한다.

10번 건물을 연결하니 ping이 이렇게 빠진다

10번 건물안에 범인이 있다고 확신을 한다. 그래서, 10번 건물을 제외한 나머지 건물에 해당하는 모든 광케이블을 연결을 한다. ping이 아주 정상적이다. 잡았다 요놈.....범인은 10번 건물안에 있다는 것이 확인되었다. 10번 건물만 일단 다 죽여놓고 필자는 10번 건물로 간다.  그리고, 10번 건물에 연결된 L3 및 L2간의 Uplink를 모두 다 뽑는다. 어차피 안되니까 뽑아도 상관없다. 필자의  부하직원에게 10번 건물의 백본연결을 지시한다.  필자가 10번 건물의 L3만 연결한다. ping이 이상이 없다고 한다. 그럼 하위에 연결된 L2 안에서  범인이 있다는 이야기가 된다. L2를 순서대로 1개씩 붙여본다. 10번 건물에는 L2가 10개 있는데 6번 L2를 연결하니까 ping이 또 깨진다. 

10번 건물의 6번 L2를 연결하니 ping이 이렇게 또 빠진다

그럼 범인은 6번 L2 안에 있다는 이야기가 된다. 6번을 제외한 모든  L2 스위치를 다 연결했다. ping이 전혀 이상이 없다. 

 6번 L2 안에서 1번부터 24번 포트까지 모두 선을 다 뽑는다. 하나씩 연결해가면서 ping을 걸어보자. 10번 포트를 꼽으니 또 ping이 깨진다. 그럼 범인은 10번 포트에 있는 놈이다. 그외 포트는 다 연결해준다. 모두 이상이 없다고 한다. 이렇게 이 놈을 잡기 위해서 필자와 필자의 부하직원이 그 당시에는 아무리 빨리 해도 2시간은 걸렸다. 10번 포트에 있는놈은 어떻게 되었냐고? 실제 부서 공개하고 여기 때문에 전체 장애를 일으켰다고 다 까발림. 그 당시에는 필자도 아주 혈기왕성해서 쌍욕을 시전할 때였다.  그냥 연결안해주면 그만이다. 몇번이고 찾아와도 신경 안쓴다. 약 1주일 정도 짤라뒀던거 같다. 그 당시에는 필자도 얼마나 화가 났던지...전산 안된다고 전체 구성원한테 한번 욕먹어보시라...필자가 잘못을 해서 장애가 났다면 당연히 필자의 잘못이니 인정하겠지만 이건 필자의 잘못도 아닌데 욕먹으면 정말 짜증난다.

그래서, 장애가 생겼던 원인을 분석해보면....Looping 이다. 네트워크 합선현상

Loopin에 대한 설명 및 방지책이다.

HUB를 저렇게 연결했으니 장애가 나는 것은 당연하다. 그냥 무한정으로 뱅글뱅글 돈다. 그러니 장애가 발생하지...ㅠㅠ

그래서, 필자의 강력한 요청으로 네트워크 장비를 구매할때 무조건 STP 프로토콜을 지원하고  Looping 방지 지원되는 걸로 안 사주면 구매부서에서 책임져야 한다고 주장했고 조금 조금씩 장비를 교체해나가기 시작했다. 물론 처음 장비가 왔을때는 무조건 10번 건물부터다.  역시나 10번 건물에서 또  Looping이 발생했는데 Looping 방지 스위치의 효과를 톡톡히 봤다. 자동으로 Looping 일으키는 포트를 자동으로 차단해버렸다. 그러니까, 거기만 안되는 현상이다. 안되면 안된다고 전화가 오게 되어있다. 사고친 놈이 또 사고치게 되어있다.

이렇게 error-disable이 걸리면서 자동으로 짤라버린다.

필자가 원격으로 포트를 활성화 시켜 주지 않으면 절대로 안 풀린다. 그냥 내비둬버린다. 엿먹으라고....

꼭 내부이전이나 연결할때 선로를 확인하지도 않고 무작정 다 연결해버리는 사람들이 문제다. 필자는 무조건 선번을 표기하라고 강력하게 이야기를 한다. 안하면 안 풀어준다. 답답한 것은 너지 내가 아니라고 이야기해버린다. 그리고, 사고 친것도 너지 내가 아니라고 이야기 한다. 어떻게 보면 정말 냉정하게 이야기한다라고 이야기 할수 있지만 전체를 다 관리해야 하는 필자의 입장에서 한번만 생각해달라는 것이다. 아무렇게나 선 연결하면 큰일 날수 있다는 것을 다들 모르는 것 같아서 너무 안타깝다.

스위치 설정하는 방법 및  상세한 내용은 필자가 제작해둔 영상으로 보시면 되겠다.

https://youtu.be/pYHXQPWJmhw

필자가 제작한 유튜브 영상이다.

아무쪼록 도움이 되었으면 하는 마음으로 오늘의 포스팅을 마친다.

728x90
반응형
LIST

댓글