Anthropic Glasswing 업데이트: Claude Mythos가 고위험 취약점 1만 건을 찾아낸 뒤 남은 병목
Anthropic은 Claude Mythos Preview와 약 50개 파트너가 고위험·치명적 취약점 1만 건 이상을 찾았다고 공개했지만, 핵심 병목은 발견 자동화보다 검증·공개·패치 처리량이다.
Anthropic Glasswing은 Mythos로 취약점 1만 건을 찾았다. 이제 병목은 발견보다 검증·패치다.
무슨 일이 (The News)
Anthropic의 Project Glasswing 업데이트는 Claude Mythos Preview가 약 50개 파트너와 함께 고위험·치명적 취약점 1만 건 이상을 찾아냈다는 점보다, 취약점 발견 이후의 운영 병목을 더 선명하게 드러낸 사건이다. Anthropic(2021년 OpenAI 출신들이 창업한 AI 안전 회사)은 이 프로그램을 일반 제품 출시가 아니라 통제된 방어 보안 협력으로 설명했다.[1]
핵심 변화는 AI 보안 모델이 데모 단계의 퍼즐 풀이를 넘어 실제 소프트웨어 공급망으로 들어갔다는 점이다. Glasswing은 세계적으로 중요한 시스템, 대형 오픈소스 프로젝트, 브라우저와 네트워크 인프라를 대상으로 진행됐다. 이 맥락에서 고위험/치명적 취약점(High/Critical-severity vulnerability)은 단순 버그가 아니라 권한 상승, 원격 실행, 데이터 유출로 이어질 수 있는 결함을 뜻한다.[1]
Mozilla 사례는 이 변화가 추상적 연구가 아니라 릴리스 노트와 패치 일정으로 옮겨졌다는 증거다. Firefox 150에는 Mythos Preview 초기 평가에서 확인된 취약점 271건에 대한 수정이 포함됐다.[2] Cloudflare도 주요 경로 시스템에서 2,000건의 버그와 그중 400건의 고위험·치명 후보를 확인했다고 Anthropic 요약에 반영됐다.[1][3]
다만 이 숫자는 “AI가 보안을 해결했다”는 결론이 아니다. Anthropic이 제시한 다음 병목은 조율된 취약점 공개(Coordinated Vulnerability Disclosure), 유지보수자 검증, 패치 개발, 사용자 업데이트다. 취약점 발견 비용이 내려가면 방어자도 강해지지만, 공격자에게도 같은 종류의 자동화가 확산될 위험이 커진다.[1][6]
숫자로 보기
가장 중요한 숫자는 고위험·치명 취약점 1만 건이 아니라, 외부 평가가 끝난 고위험·치명 후보 1,752건 중 90.6%가 진짜 양성(True positive)으로 확인됐다는 검증률이다.[1]
Claude Mythos Preview는 공개 API가 없어 한국어 코드베이스 실측을 직접 재현하지 못했다. 한국 독자에게 필요한 측정값은 “우리 저장소에서 보고서 100건당 실제 긴급 패치로 이어지는 비율”이다. 향후 평가는 금융·통신·제조 각 1개 레거시 저장소, 최근 24개월 CVE가 있는 의존성, 내부 보안팀의 2인 블라인드 판정으로 설계해야 한다. 오늘 결정할 수 있는 것은 도입이 아니라, 진짜 양성률·중복률·패치 소요 시간을 기록할 로그 체계다.
오픈소스 1,000개 이상 스캔에서는 전체 취약점 23,019건, 그중 고위험·치명 추정 6,202건이 나왔다.[1] 외부 평가 완료 표본 1,752건 중 진짜 양성은 약 1,587건으로 계산된다. 같은 표본에서 고위험·치명으로 확정된 비율은 62.4%이며, 이는 약 1,094건이다.[1] 숫자만 보면 발견 능력은 이미 보안팀의 수동 탐색 처리량을 넘어섰다.
비교 축은 더 중요하다. Cloudflare 표본은 2,000건 중 400건이 고위험·치명 후보였고, Mozilla는 Firefox 150 한 번의 릴리스에 271건 수정을 넣었다.[2][3] XBOW는 자체 웹 익스플로잇 벤치마크에서 Mythos Preview가 Opus 4.6 대비 거짓 음성을 42% 줄였다고 공개했다.[4] 타임라인상 Anthropic은 평균 고위험·치명 버그 패치에 2주가 걸린다고 설명했고, Claude Security 출시 이후 3주 동안 Opus 4.7이 2,100건 넘는 취약점 패치에 쓰였다고 밝혔다.[1] 발견 속도와 패치 속도 사이의 간극이 이제 핵심 지표다.
누가 말했나
이번 사안을 둘러싼 공개 발언의 공통점은 Mythos의 성능 향상을 인정하면서도, 그 의미를 “더 많은 발견”이 아니라 “더 무거운 책임”으로 읽는다는 점이다. Anthropic은 Glasswing을 방어 목적 프로그램으로 묶어 설명하지만, 파트너들의 문장은 실제 운영팀이 어떤 부담을 떠안게 됐는지 보여준다.
“Since then, we and our approximately 50 partners have used Claude Mythos Preview to find more than ten thousand high- or critical-severity vulnerabilities across the most systemically important software in the world.”
“그 이후 우리는 약 50곳의 파트너와 함께 Claude Mythos Preview를 사용해 세계에서 가장 시스템적으로 중요한 소프트웨어 전반에서 1만 개가 넘는 고위험 또는 치명적 취약점을 찾아냈습니다.”
이 문장의 무게는 “1만 건” 자체보다 “systemically important software”에 있다. 한국으로 치면 은행 공동망, 통신사 인증 시스템, 제조 장비 관리 서버, 공공기관 업무망처럼 장애가 외부 고객과 사회 기능으로 번지는 계층이다. 이런 환경에서는 취약점 보고서 한 장이 곧바로 패치가 되지 않는다. 서비스 중단 허용 시간, 고객 고지, 외주 개발사 계약, 규제 보고가 함께 움직인다.
“This week’s release of Firefox 150 includes fixes for 271 vulnerabilities identified during this initial evaluation.”
“이번 주 Firefox 150 릴리스에는 이 초기 평가 과정에서 확인된 취약점 271건에 대한 수정이 포함됐습니다.”
Bobby Holley의 발언은 AI 보안 모델의 성과가 보도자료가 아니라 릴리스 엔지니어링으로 검증돼야 한다는 점을 보여준다. 271건 수정은 “찾았다”보다 더 높은 기준이다. 실제 코드 변경, 회귀 테스트, 릴리스 채널 반영, 사용자 업데이트가 끝나야 위험이 줄어든다. 한국 기업도 PoC 보고서 수보다 배포 완료율을 먼저 봐야 한다.
“Mythos Preview is a real step forward, and it's worth saying that plainly before getting into anything else.”
“Mythos Preview는 실제적인 진전이며, 다른 이야기에 앞서 이 점을 분명히 말할 필요가 있습니다.”
Cloudflare의 평가는 과장보다 균형에 가깝다. 실제 진전이라고 인정하되, 그 진전은 사람 보안팀을 대체하는 형태가 아니다. Mythos는 취약점 단서, 익스플로잇 체인(Exploit chain) 가능성, 기술적 분석을 빠르게 제시한다. 이후에는 사람이 코드 맥락과 서비스 영향도를 판단해야 한다. 보안 운영이 약한 조직에서는 모델 성능 향상이 오히려 처리되지 않은 위험 목록만 늘릴 수 있다.
“Our takeaway: Mythos Preview is a powerful tool for generating strong vulnerability leads and technically precise analysis.”
“우리의 결론은 Mythos Preview가 강력한 취약점 단서와 기술적으로 정밀한 분석을 만들어내는 도구라는 것입니다.”
XBOW의 문장에서 핵심 단어는 “leads”다. 단서는 판정이 아니다. 이 구분을 놓치면 경영진은 “AI가 취약점을 찾아줬으니 해결됐다”고 오해하고, 실무자는 수천 건의 티켓을 떠안는다. Mythos류 모델의 가치는 보안팀이 이미 갖춘 검증·우선순위·패치 배포 체계 위에서 커진다.
한국 시장 관점
한국 시장의 핵심 시사점은 AI 보안 도구 구매보다 취약점 처리 공정을 먼저 표준화해야 한다는 점이다. 금융·통신·제조·공공 조직은 대형 벤더 제품, 내부 레거시 자바 서비스, 납품형 SI 코드, 오픈소스 의존성이 섞여 있다. Mythos 같은 도구가 수백 건의 고위험 후보를 제시하면 가장 먼저 막히는 지점은 모델이 아니라 “누가 소유한 코드인가”라는 질문이다.
한국 기업의 실질 영향은 세 부문으로 나뉜다. 학생과 개발자는 보안 학습의 진입 장벽이 낮아지지만, 실제 서비스 코드를 다루는 스타트업은 취약점 접수와 패치 승인 체계를 문서화해야 한다. 대기업과 공공은 더 어렵다. 패치 하나가 업무 중단, 고객 공지, 망분리 환경 배포, 외주 계약 변경으로 이어진다. AI가 발견한 취약점 수가 늘수록 CISO 조직의 병목은 더 잘 보인다.
국내 AI 경쟁 구도에서는 Naver HyperCLOVA, Kakao Kanana, SKT A.X, LG EXAONE, Upstage Solar가 일반 업무·한국어 성능을 전면에 세워 왔다. Rebellions와 FuriosaAI는 추론 인프라 비용을 낮추는 쪽에 가깝다. Glasswing이 던진 질문은 다르다. 한국어 잘하는 모델이 아니라, 레거시 코드·CVE 문맥·익스플로잇 재현·패치 제안까지 한 흐름으로 다루는 보안 특화 모델을 누가 운영할 수 있느냐다.
한국 스타트업에는 틈이 있다. Mythos Preview 자체를 복제하는 일은 어렵지만, 한국 기업의 보안 운영 공백을 메우는 계층은 만들 수 있다. 예를 들어 AI가 낸 리포트를 KISA 신고 양식, Jira 티켓, GitHub 보안 권고, 고객 공지 초안, 배포 승인 체크리스트로 바꾸는 워크플로는 국내 규정과 언어에 맞춘 제품 기회다. 이는 프런티어 모델 경쟁보다 현장 통합 경쟁에 가깝다.
이번 조사에서 발행 6시간 이내 검증 가능한 한국인 실명 인용문은 확보되지 않았다. 따라서 한국 시장 판단은 공개 수치와 국내 운영 구조를 바탕으로 한 분석으로 제한한다. 이 제한은 오히려 중요한 결론을 남긴다. 한국 기업은 해외 모델 발표에 반응해 보안 AI를 급히 도입하기보다, 내부 취약점 접수부터 패치 완료까지의 시간을 먼저 측정해야 한다. 그 지표가 없으면 어떤 모델이 와도 개선 폭을 설명할 수 없다.
반대 의견 (Room for Disagreement)
가장 강한 반대 논리는 Mythos급 모델이 방어자만 돕는 것이 아니라 공격자의 익스플로잇 자동화 능력도 함께 끌어올릴 수 있다는 점이다. Anthropic Frontier Red Team은 자체 평가에서 Mythos Preview가 취약점을 공격 원시 기능으로 바꾸고, 이를 완전한 종단 간 공격 체인으로 결합할 수 있다는 점을 우려 지점으로 제시했다.[6]
“Mythos Preview could both turn vulnerabilities into exploit primitives, and combine those primitives together into complete end-to-end attack chains.”
“Mythos Preview는 취약점을 익스플로잇 원시 기능으로 바꾸고, 그 원시 기능들을 완전한 종단 간 공격 체인으로 결합할 수 있었습니다.”
이 반대 의견은 한국 시장에서 더 무겁다. 국내 조직은 탐지·패치 자동화보다 승인·계약·변경관리 절차가 느린 경우가 많다. 공격자가 AI로 취약점 재현과 체인 구성을 빠르게 하고, 방어자가 여전히 주간 변경관리 회의에 묶이면 발견 자동화는 방어 우위가 아니라 시간차 위험이 된다. 특히 외주 개발 비중이 높은 서비스는 소유권 확인만으로도 며칠이 걸릴 수 있다.
판단을 바꿀 수 있는 지표는 명확하다. 첫째, AI가 발견한 고위험 후보 중 7일 안에 검증 완료되는 비율이다. 둘째, 검증된 항목 중 14일 안에 패치가 운영 환경에 반영되는 비율이다. 셋째, 패치 지연 항목에서 실제 악용 시도가 관측되는 비율이다. 이 세 수치가 없으면 “AI 보안 도입”은 구매 결정이 아니라 위험 목록 증식으로 끝날 수 있다.
UK AI Security Institute의 사이버 레인지(Cyber range) 평가도 같은 방향의 경고를 준다. 더 최신 모델이 격리된 모의 환경에서 이전 추세선을 넘는 성과를 냈다면, 방어자는 모델 성능 그래프보다 공개 범위와 접근 통제를 봐야 한다.[5] 한국 운영자는 오늘 Mythos 도입 여부를 묻기 전에, 외부 보안 리포트가 들어왔을 때 24시간 안에 코드 소유자와 패치 책임자를 지정하는 규칙부터 정해야 한다.
즉시 결정해야 할 것
오늘은 Mythos류 도구 도입을 결정할 때가 아니라, AI가 만든 취약점 리포트를 처리할 수 있는 패치 운영 체계를 수치로 고정할 때다. 모델 성능은 공급자가 계속 끌어올릴 수 있지만, 조직 내부의 자산 목록과 승인 절차는 스스로 바꾸지 않으면 그대로 남는다.
-
Today (오늘): 주요 서비스 10개를 골라 코드 소유자, 운영 책임자, 배포 승인권자, 고객 공지 담당자를 한 줄 표로 정한다. 각 서비스마다 “고위험 취약점 접수 후 24시간 안에 판정 회의를 열 수 있는가”를 예/아니오로 기록한다. 아니오가 3개 이상이면 AI 보안 도구 PoC보다 담당자 지정이 먼저다.
-
This week (이번 주): 최근 12개월 보안 티켓 30건을 뽑아 접수부터 패치 완료까지 걸린 시간을 계산한다. 평균이 아니라 중앙값과 90퍼센타일을 본다. Mythos류 모델이 들어오면 리포트 수가 늘어날 가능성이 크므로, 90퍼센타일이 14일을 넘는 조직은 검증 인력과 배포 창구를 먼저 늘린다.
-
This month (이번 달): 내부 저장소 3개를 기준으로 AI 취약점 분석 PoC 평가셋을 만든다. 기준은 발견 건수가 아니라 진짜 양성률, 중복률, 재현 가능한 설명 비율, 패치 제안의 테스트 통과율이다. 벤더가 어떤 모델을 쓰는지는 2순위다. 운영팀이 재현할 수 없는 리포트는 보안 효용이 낮다.
-
This quarter (이번 분기): KISA 신고, 고객 공지, 오픈소스 유지보수자 연락, 긴급 배포 승인 절차를 하나의 템플릿으로 묶는다. AI가 취약점을 빠르게 찾는 시대에는 조율된 공개가 느린 조직이 더 위험하다. 분기 말에는 고위험 취약점 10건 모의훈련을 돌려 7일 내 검증률과 14일 내 패치율을 공개 지표로 삼는다.
출처 (References)
- Anthropic — "Project Glasswing: An initial update" (2026-05-22). https://www.anthropic.com/research/glasswing-initial-update
- Mozilla — "The zero-days are numbered" (2026-05-21). https://blog.mozilla.org/en/privacy-security/ai-security-zero-day-vulnerabilities/
- Cloudflare — "Project Glasswing: what Mythos showed us" (2026-05-18). https://blog.cloudflare.com/cyber-frontier-models/
- XBOW — "Mythos for Offensive Security: XBOW's Evaluation" (2026-05-12). https://xbow.com/blog/mythos-offensive-security-xbow-evaluation
- UK AI Security Institute — "How fast is autonomous AI cyber capability advancing?" (2026-05-21). https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing
- Anthropic Frontier Red Team — "Measuring LLMs’ ability to develop exploits" (2026-05-20). https://red.anthropic.com/2026/exploit-evals/
핵심 정리 / Key Takeaways
- [01]Project Glasswing은 약 50개 파트너와 함께 세계 주요 소프트웨어에서 고위험·치명적 취약점 1만 건 이상을 발견했다.
- [02]오픈소스 1,000개 이상 스캔에서는 전체 취약점 23,019건, 고위험·치명 추정 6,202건이 나왔다.
- [03]외부 평가된 고위험·치명 후보 1,752건 중 90.6%는 실제 취약점으로 확인됐지만, 패치 완료는 아직 75건에 그쳤다.
- [04]한국 기업의 우선순위는 Mythos 도입 여부보다 AI가 만든 리포트를 검증·배포하는 보안 운영 체계를 먼저 세우는 일이다.
자주 묻는 질문 / FAQ
- Claude Mythos Preview를 지금 누구나 쓸 수 있나요?
- 아니요. 이번 업데이트는 Project Glasswing 파트너 중심의 통제된 방어 보안 배포 결과이며, 일반 API로 공개된 제품 출시가 아닙니다.
- 취약점 1만 건 발견은 모두 패치됐다는 뜻인가요?
- 아니요. Anthropic은 고위험·치명 취약점 1만 건 이상 발견을 공개했지만, 오픈소스 스캔 표본에서 패치 완료로 명시된 건수는 75건입니다.
- 한국 기업은 지금 무엇을 준비해야 하나요?
- 새 도구 구매보다 자산 목록, 코드 소유자, 심각도 판정, 긴급 배포 승인, KISA·고객 공지 절차를 하나의 패치 운영 흐름으로 묶어야 합니다.
1차 출처 / Primary Sources
- [01]Project Glasswing: An initial update — Anthropic
- [02]Measuring LLMs’ ability to develop exploits — Anthropic Frontier Red Team
- [03]The zero-days are numbered — Mozilla
- [04]Project Glasswing: what Mythos showed us — Cloudflare
- [05]Mythos for Offensive Security: XBOW's Evaluation — XBOW
Raw markdown 미러: /global/anthropic-glasswing-update.md
관련 글 / Related
Anthropic·KPMG, 27.6만 명에 Claude 배포 — 세무·법무 AI 에이전트가 파일럿을 넘어섰다
KPMG가 27.6만 명에게 Claude를 배포하고 Digital Gateway에 관리형 에이전트를 넣는다.
Anthropic·PwC, Claude Code·Cowork를 수십만 명 규모 기업 업무에 배포
Anthropic·PwC, Claude Code·Cowork를 PwC 수십만 명 규모로 확대. 3만 명 인증 교육 동반.
Anthropic, Claude Opus 4.7 출시 — 1M 컨텍스트 유지·코딩 벤치마크 6.8%p 상승
Anthropic이 4월 16일 Claude Opus 4.7을 출시했다. 가격은 동일하지만 새 토크나이저로 입력 토큰이 최대 35% 늘 수 있다는 caveat이 핵심이다.