
단순한 AI 모델의 성능 업데이트 소식인 줄 알았다. 하지만 공개된 수치들을 하나씩 뜯어보니, 이것은 진화가 아니라 보안 패러다임의 완전한 붕괴에 가까웠다. 앤스로픽이 발표한 ‘클로드 미토스(Claude Mythos)’는 우리가 믿어왔던 소프트웨어 보안의 상식을 단숨에 무너뜨리고 있다.
공포의 수치, 93.9%가 의미하는 것
처음 미토스의 벤치마크 결과를 보았을 때 가장 먼저 눈에 들어온 것은 SWE-bench Verified 93.9%라는 숫자였다. 이는 단순히 코딩을 잘한다는 뜻이 아니다. 시니어 엔지니어 수준으로 코드를 작성하고 수정할 수 있다는 의미이며, 동시에 시스템의 허점을 찾아내는 능력이 인간의 영역을 넘어섰음을 시사한다. 특히 수학적 추론 능력을 측정하는 USAMO 2026에서 이전 모델인 Opus 4.6의 42.3%를 압도하는 97.6%를 기록했다는 점은 소름 돋는 지점이다.
수학적 추론 능력이 비약적으로 상승했다는 것은 AI가 이제 복잡한 논리 체계를 스스로 분석하고, 인간이 미처 발견하지 못한 아주 미세한 논리적 결함을 찾아낼 수 있게 되었음을 뜻한다. 실제로 미토스는 27년 동안이나 누구에게도 발견되지 않았던 OpenBSD의 TCP SACK 구현체 내 서명 정수 오버플로우 버그를 찾아냈다. 수십 년간 전 세계 전문가들이 훑고 지나갔던 코드의 틈새를 AI는 단 몇 시간 만에, 그것도 아주 저렴한 비용으로 찾아낸 것이다.
비대칭성의 심화와 공격의 경제학
보안의 세계에는 오래된 격언이 있다. 방어자는 모든 구멍을 막아야 하지만, 공격자는 단 하나의 구멍만 찾으면 된다는 ‘비대칭성’의 원리다. 그런데 미토스는 이 비대칭성을 공격자에게 압도적으로 유리하게 만들었다. 과거에는 국가 단위의 레드팀이 수개월을 매달려야 가능했던 제로데이 취약점 발견과 익스플로잇 체이닝(exploit-chaining)을 이제는 AI가 단 몇 시간 만에 수행한다.
더욱 충격적인 것은 그 비용이다. 타겟당 취약점 발견 비용이 2만 달러 미만으로 떨어졌으며, 어떤 경우에는 단 50달러 정도의 컴퓨팅 비용만으로도 치명적인 버그를 찾아내기도 한다. 파이어폭스 JS 엔진에서 181개의 성공적인 익스플로잇을 만들어낸 사례는 가히 파괴적이다. 이전 모델인 Opus 4.6이 단 2개에 그쳤던 것과 비교하면, 이는 단순한 개선이 아니라 체급 자체가 다른 괴물이 등장한 셈이다.
프로젝트 글래스윙과 폐쇄적 공포
앤스로픽은 이 모델의 위험성을 인지하고 일반 공개를 하지 않았다. 대신 ‘프로젝트 글래스윙(Project Glasswing)’이라는 이름 아래, 세계 최대의 테크 기업 12곳으로 구성된 컨소시엄에만 제한적으로 제공하고 있다. 1억 달러 규모의 사용 크레딧이 투입된 이 폐쇄적인 협력 체계는 역설적으로 미토스가 얼마나 위험한 도구인지를 증명한다. 공공의 장에 풀렸을 때 벌어질 혼란을 막기 위한 고육지책이겠지만, 이는 동시에 거대 자본과 권력을 가진 소수만이 이 강력한 ‘디지털 무기’를 먼저 손에 쥐게 되었음을 의미한다.
물론 현재로서는 미토스의 강점이 공개 소스 코드나 공개 바이너리 분석에 집중되어 있다고 한다. 하지만 우리가 사용하는 대부분의 기업용 소프트웨어는 수많은 오픈소스 라이브러리에 의존하고 있다. 최근 Axios 라이브러리 사례에서 보았듯, 널리 쓰이는 컴포넌트 하나가 오염되면 그 위에 세워진 수만 개의 서비스가 동시에 무너진다. 미토스가 오픈소스 생태계의 취약점을 대량으로 긁어모으기 시작한다면, 우리가 믿고 쓰던 모든 소프트웨어는 잠재적인 시한폭탄이 될 수 있다.
우리는 무엇을 준비해야 하는가
이제 ‘완벽한 보안’이라는 환상은 버려야 한다. 공격자의 비용이 획기적으로 낮아진 시대에, 방어자가 취할 수 있는 최선의 전략은 ‘이미 뚫렸을 가능성’을 전제로 하는 회복 탄력성(Resilience)의 확보뿐이다. 공격자가 AI를 이용해 5분 만에 취약점을 찾는다면, 방어자 역시 AI를 활용해 공격자의 관점에서 자신의 코드를 끊임없이 스캔하고 패치하는 속도전을 벌여야 한다.
결국 중요한 것은 가시성이다. 내 서비스의 파이프라인에 어떤 버전의 라이브러리가 들어있는지, 어떤 경로로 데이터가 흐르는지 정확히 파악하고 있는 조직만이 AI가 몰고 올 취약점의 폭풍 속에서 살아남을 수 있을 것이다. 우리는 이제 AI가 코드를 짜주는 편리함을 넘어, AI가 내 코드의 치명적인 약점을 실시간으로 찾아내고 있다는 서늘한 현실을 마주해야 한다.
과연 인간 보안 전문가의 직관과 경험은 AI의 압도적인 연산 속도와 논리 추론 능력을 이길 수 있을까? 아니면 우리는 이제 AI가 만든 방패로 AI가 쏜 화살을 막아내는, 끝없는 알고리즘의 전쟁터로 진입하게 된 것일까. 여러분의 생각은 어떠한가.