Cloudflare가 다운됐습니다. 오늘 홍콩 시간으로 오후에 또다시 대규모 고장이 발생하여 전 세계 수백만 개 웹사이트에서 동시에 500 내부 서버 오류가 발생했습니다. 영향을 받은 서비스에는 Dcard, Canva, Zoom 등 자주 사용하는 플랫폼이 포함되며, Cloudflare 자체의 주가는 한때 거의 6% 급락했습니다. 투자자들은 그 안정성에 대해 경각심을 높이고 있습니다. 더욱 충격적인 것은, 이번 사고가 이 회사의 한 달 내 두 번째 대형 사고라는 점입니다. 현대 네트워크 구조의 취약성이 다시 한번 드러났습니다.

30분 동안의 장애, 수백만 웹사이트가 동시에 영향을 받다.
오늘 오후, 홍콩 및 아시아 사용자들은 Dcard, Canva, Zoom 등 서비스에 정상적으로 접근할 수 없다는 사실을 차례로 확인했습니다. 화면에는 500 내부 서버 오류가 팝업되었습니다. Cloudflare는 상태 페이지에서 이번 사고의 원인이 자신의 대시보드 및 관련 API의 서비스 문제라고 확인하였으며, 이로 인해 이러한 서비스를 이용하는 웹사이트의 요청이 실패하거나 직접 오류가 발생했습니다. 사고가 약 반 시간 지속된 후, Cloudflare는 이미 수정 조치를 시행했으며 시스템 상태를 지속적으로 모니터링하고 있다고 전했습니다. 일반 사용자들에게는 현재 모든 웹사이트에 접근할 수 없습니다. 같은 느낌이었고, Zoom으로 미팅을 하거나 Canva로 소셜 미디어 이미지를 디자인하거나 포럼에서 토론할 때 모두 순간적으로 연결이 끊겼습니다.
__PLACEHOLDER_8__
한 달에 두 번 발생한 대형 사고, 약한 뼈대 다시 경고음을 울리다
주목할 점은, 이번 사건이 Cloudflare의 한 달 내 두 번째 대규모 사고라는 것입니다. 11월 중순, 이 회사는 Bot Management 설정 오류로 인해 대량의 트래픽 라우팅이 붕괴되었고, 그 당시에도 웹사이트가 전체적으로 500 오류를 응답하게 되어 놀라운 규모의 영향을 미쳤습니다. Cloudflare는 전 세계에서 가장 큰 CDN 및 네트워크 보안 공급업체 중 하나로, 수백만 개 웹사이트에 콘텐츠 전송, DDoS 방어, DNS, 역방향 프록시 등의 서비스를 제공하고 있습니다. 간단히 말해, 인터넷 뒤에 숨겨진 수도관과 밸브입니다. 더 많은 웹사이트가 같은 인프라 공급업체를 사용하는 경우, 어떤 내부 오류나 설정 업데이트 실수도 전 세계적인 연쇄 반응을 유발할 수 있습니다. 이번 사건은 모니터링 서비스 상태를 추적하는 DownDetector조차 한때 접근할 수 없게 만들었습니다.

장 시작 전 주가가 급락하며 신뢰성에 의문이 제기되고 있다.
사고가 발생하자 Cloudflare는 미국 주식 시장에서 즉시 압박을 받으며 주가가 처음에는 6% 가까이 하락했습니다. 이후 하락폭은 다소 축소되었습니다. Cloudflare는 여전히 클라우드 보안 및 CDN 분야에서 중요한 플레이어로서 시가총액이 약 750억 달러에 달하지만, 연속된 두 번의 대형 사고는 부정적인 인식을 불러올 수밖에 없습니다. 이번 장애는 외부 공격이 아니라 내부 업데이트에서 발생한 오류 프로세스에 의해 발생한 것으로 초기 확인되었으며, 이는 지난 11월에 있었던 구성 문제와 유사한 성격으로 장기 투자자들에게 더욱 민감하습니다. 시장은 Cloudflare가 변경 프로세스, 테스트 메커니즘 및 여유 설계에서 뚜렷한 개선이 없을 경우, 유사한 사고가 다시 발생할 가능성에 대해 우려하고 있으며, 그때 브랜드와 주가에 더 심각한 타격을 줄 것이라고 염려하고 있습니다.

홍콩 기업과 사용자들은 어떻게 대응할까요
홍콩의 로컬 사용자와 온라인 상점 운영자들에게 Cloudflare의 문제가 발생했다고 해도 즉시 공급업체를 변경할 것 같진 않지만, 분명히 위험을 다시 검토하게 만들 것입니다. 많은 중소기업과 온라인 상점, 콘텐츠 사이트들이 DDoS 방어, SSL, CDN을 위해 Cloudflare를 사용하고 있는데, 가격이 합리적이고 설정하기 간편하기 때문입니다. 하지만 이번 사건은 아름답고 멋진 것들 뒤에는 항상 단 하나의 결함 요인이 존재한다.를 다시 한번 증명해 주었습니다. 기술팀은 다음 단계로 멀티 클라우드와 멀티 CDN 전략을 고려해야 합니다. 예를 들어, 주요 서비스에 대해 두 번째 직접 연결 경로나 백업 DNS/CDN을 동시에 설정하여, 특정 공급업체에서 대규모 장애가 발생했을 때 일부 트래픽을 빠르게 우회시킬 수 있어 사용자에게 미치는 영향을 최소화할 수 있습니다. 일반 사용자는 어떤 CDN을 사용하는지 알 수 없지만, 적어도 특정 웹사이트에 접근할 수 없을 때 문제는 대개 라우터에 있지 않고, 전 세계 백본 레벨에서 발생하는 것임을 인식해야 합니다. 불필요하게 모뎀을 재부팅하거나 ISP를 탓하지 않도록 해야 합니다.
Cloudflare 서비스 중단 후 다음 단계에서 스스로를 구하는 방법
Cloudflare는 최신 업데이트에서 Dashboard/API의 고장이 이미 수정되었으며, 관련 서비스가 차례로 정상화되고 있다고 밝혔습니다. 또한, 시스템 상태를 지속적으로 모니터링하여 다시는 간헐적인 문제가 발생하지 않도록 할 것이라고 강조했습니다. 하지만 11월과 12월에 각각 대규모 사고를 겪은 후, 시장에서 더 관심을 두는 것은 Cloudflare가 내부 변경 프로세스를 어떻게 개선할 것인지입니다. 예를 들어, Canary 테스트를 강화하거나 고위험 시간대 변경을 제한하고, 주요 모듈을 분리하여 하나의 오류가 전체 네트를 무너뜨리지 않도록 해야 합니다. 홍콩 독자들에게는 단기적으로 가장 실용적인 방법은 앱이나 웹사이트에서 갑자기 대규모 500 오류가 발생했을 때, 모니터링 플랫폼이나 소셜 미디어의 키워드를 먼저 확인해 보라는 것입니다. Cloudflare 또 문제가 생겼다.이 있을 수 있으니, 무작정 앱을 다시 설치하거나 지역 ISP를 비난하지 마세요. 중장기적으로 웹사이트나 앱을 책임지는 입장이라면, 정말로 CDN 사건 Plan B에 대해 고민을 시작해야 합니다. 그렇지 않으면 매번 글로벌 아울티지 발생 시, 귀하의 비즈니스 역시 일시 정지 버튼을 눌러야 할 것입니다.



