본문 바로가기
ppaliAI

01 · 글로벌 / Global

Anthropic, Claude Opus 4.7 출시 — 1M 컨텍스트 유지·코딩 벤치마크 6.8%p 상승

Anthropic은 2026년 4월 16일 Claude Opus 4.7을 출시했다. 가격은 Opus 4.6과 동일한 입력 100만 토큰당 5달러·출력 25달러이지만, 새 토크나이저가 같은 입력에 최대 35% 더 많은 토큰을 사용해 실효 단가는 오를 수 있다.

Anthropic이 4월 16일 Claude Opus 4.7을 출시했다. 가격은 동일하지만 새 토크나이저로 입력 토큰이 최대 35% 늘 수 있다는 caveat이 핵심이다.

Hyun읽기 72,820글로벌 발표 후 600시간 만에 도착

무슨 일이 (The News)

Anthropic이 2026년 4월 16일 Claude Opus 4.7을 일반 공개(GA)했다. 입력 100만 토큰당 5달러, 출력 25달러로 Opus 4.6과 가격을 그대로 유지한 가운데, SWE-bench Verified에서 87.6%를 기록해 Opus 4.6의 80.8% 대비 6.8%포인트 상승했다고 회사는 밝혔다.

핵심은 가격표 뒤에 숨은 두 가지 변화다. 첫째, 새 토크나이저(Tokenizer)는 동일한 입력 텍스트에 대해 1.0~1.35배 더 많은 토큰을 생성한다고 회사는 설명했다. 둘째, Opus 4.6과 호환되지 않는 API 변경이 포함돼 있어 마이그레이션 가이드 없이 운영 환경에 적용하면 회귀가 발생할 수 있다.

1M 토큰 컨텍스트 윈도우와 128K 출력 한도, 그리고 이미지 입력 최대 2,576픽셀(약 3.75메가픽셀)이라는 비전 사양은 Opus 4.6과 동일하다.

숫자로 보기

Claude Opus 4.6 vs 4.7 — 6개 벤치마크 비교
6개 벤치마크 모두 Opus 4.7이 4.6을 상회. 가장 큰 격차는 XBOW Visual Acuity (54.5% → 98.5%). · 자료 anthropic.com
  • 가격: 입력 100만 토큰당 5달러, 출력 25달러 (Opus 4.6과 동일).
  • 벤치마크 — 비교: SWE-bench Verified 87.6%(4.6은 80.8%), Terminal-Bench 2.0 69.4%(65.4%), GPQA Diamond 94.2%(91.3%), Finance Agent 64.4%(60.7%), CursorBench 70%(58%).
  • 시각 처리 규모: XBOW Visual Acuity 98.5%로 Opus 4.6의 54.5%에서 43.5%포인트 상승.
  • 배포 채널 타임라인: 4월 16일 Anthropic API와 AWS Bedrock 27개 리전에서 동시 공개. 글로벌·리저널 엔드포인트 모두 셀프서브로 제공.
  • 2차 효과 — 토큰 사용량 증가: 새 토크나이저로 같은 입력의 토큰 수가 최대 35% 증가할 수 있어, 표시 가격이 동일해도 사용량 기반 청구액은 워크로드에 따라 상승 가능.

누가 말했나

Anthropic은 공식 발표에서 Opus 4.7의 강점을 다음과 같이 설명했다.

Opus 4.7 is a notable improvement on Opus 4.6 in advanced software engineering, with particular gains on the most difficult tasks.

Opus 4.7은 고급 소프트웨어 엔지니어링에서 4.6 대비 두드러진 발전을 보였으며, 특히 가장 어려운 과제에서 성능이 향상됐다.

Anthropic, 공식 발표 · 출처

회사는 또한 모델의 동작 변화를 다음과 같이 묘사했다.

Opus 4.7 handles complex, long-running tasks with rigor and consistency, pays precise attention to instructions, and devises ways to verify its own outputs before reporting back.

Opus 4.7은 복잡하고 장시간 실행되는 작업을 엄격하고 일관되게 처리하며, 지시 사항에 정밀하게 주의를 기울이고, 결과를 보고하기 전 스스로 검증할 방법을 고안한다.

Anthropic, 공식 발표 · 출처

지시 추종 강화에 따른 주의 사항도 명시했다.

Opus 4.7 is substantially better at following instructions. Interestingly, this means that prompts written for earlier models can sometimes now produce unexpected results.

Opus 4.7은 지시 추종 능력이 크게 향상됐다. 흥미롭게도 이는 이전 모델용으로 작성된 프롬프트가 때때로 예상치 못한 결과를 만들 수 있다는 뜻이다.

Anthropic, 공식 발표 · 출처

이 세 번째 인용은 한국 빌더에게 가장 실용적이다. 기존 4.6용으로 정성껏 다듬어 둔 프롬프트가 4.7에서 의도와 다른 결과를 만들 수 있다는 뜻이며, 프로덕션 환경 적용 전 회귀 테스트가 필요한 이유다.

한국 시장 관점

새 토크나이저의 1.0~1.35배 토큰 사용량 증가는 한국어 사용자에게 특히 중요한 변수다. 한글은 라틴 알파벳 대비 토큰 효율이 낮은 편으로 알려져 있고, Anthropic은 새 토크나이저가 어떤 입력에서 얼마나 많은 토큰을 더 생성하는지에 대해 언어별 분리된 수치를 공개하지 않았다. 따라서 한국 빌더는 자체 워크로드에서 인플레이션 폭을 직접 측정한 뒤 표시 가격 동결을 그대로 받아들여서는 안 된다.

배포 채널 측면에서는 AWS Bedrock 27개 리전 셀프서브 제공이 한국 사용자에게도 동일하게 적용된다. AWS 서울 리전(ap-northeast-2)이 그 27개에 포함되는지는 Anthropic 발표에는 명시되지 않았으나, AWS Bedrock은 글로벌 엔드포인트와 리저널 엔드포인트를 모두 제공하므로 한국에서 호출 자체는 가능하다.

API 결제 측면에서 한국 카드 거절·3DS 인증 실패 등 기존 4.6 시기의 결제 이슈는 모델 교체와는 별개 문제로 이어진다. Opus 4.7 자체는 모델 ID 변경이 핵심이고, 결제 인프라는 그대로다.

한국 국산 모델 대안을 검토하는 빌더라면 다음 리더보드가 참조점이다. Anthropic은 Opus 4.7의 KMMLU 점수를 별도 공개하지 않았으나, 한국어 평균 점수에서 Upstage Solar가 80.1로 선두를 지키고 있으며 SK Telecom A.X 4.0은 KMMLU 78점·CLIcK 83점을 기록했다.

한국어 LLM 벤치마크 리더보드

2026-05-11 기준

#모델제공자한국어 평균KMMLUCLIcK
01SolarUpstage80.1--
02HyperCLOVA XNaver Cloud78.4--
03A.X 4.0SK Telecom787883
04K-EXAONELG AI Research76--
05EXAONE 4.0LG AI Research75.2--
-GPT-5.1 (medium)globalOpenAI-83.65-
-Claude Opus 4.7globalAnthropic---
자료 benchlm.ai · Average of KMMLU + KMMLU-Pro + CLIcK Korean benchmark rows. Global reference scores from official model release notes.

반대 의견 (Room for Disagreement)

"가격이 동결됐다"는 헤드라인은 글로벌 영어 사용자 관점에서는 사실이지만, 비라틴 텍스트 비중이 큰 워크로드에는 함정이 될 수 있다는 시각이 있다. Finout 분석은 토큰 사용량 증가 영향을 별도로 측정해야 한다고 지적하며, "Pricing for Opus 4.7 remained the same as Opus 4.6 — $5 per million input tokens, $25 per million output tokens — but the cost story isn't that simple"라고 정리했다. (Finout — Claude Opus 4.7 pricing: the real cost story)

또한 Anthropic이 강조한 코딩 벤치마크 상승폭은 SWE-bench Verified 기준 6.8%포인트로, 이전 4.5 → 4.6 점프 폭과 비교해 점진적이라는 평가가 가능하다. 회사가 "the most difficult tasks"에서 특히 향상됐다고 명시한 만큼, 일반적인 코드 보정 워크로드에서 체감하는 차이는 벤치마크 숫자보다 작을 수 있다.

즉시 결정해야 할 것

한국에서 Anthropic API를 운영 환경에 쓰는 빌더라면 다음 두 가지를 먼저 측정해야 한다. 첫째, 자체 한국어 워크로드에서 Opus 4.6 대비 Opus 4.7의 실효 토큰 수 차이를 측정한다. 둘째, Anthropic의 Migrating to Claude Opus 4.7 가이드를 거쳐 호환성 깨지는 변경 사항을 프로덕션 코드에 반영한다. 이 두 단계를 거치지 않은 채 모델 ID만 교체하면, 표시 가격 동결이라는 헤드라인이 무색해질 수 있다.

핵심 정리 / Key Takeaways

  • [01]출시일은 2026년 4월 16일, 표시 가격은 입력 100만 토큰당 5달러·출력 25달러로 Opus 4.6과 동일하다.
  • [02]새 토크나이저는 동일 입력에 1.0~1.35배 토큰을 생성하므로 한국어 같은 비라틴 텍스트는 실효 단가가 오를 수 있다.
  • [03]SWE-bench Verified 87.6%, GPQA Diamond 94.2% 등 주요 벤치마크에서 Opus 4.6 대비 일제히 상승했다.
  • [04]1M 토큰 컨텍스트와 128K 출력 한도는 Opus 4.6과 동일하며, AWS Bedrock 27개 리전에서 셀프서브로 제공된다.
  • [05]Opus 4.7은 Opus 4.6 대비 API 호환성이 깨지는 변경이 있으므로 마이그레이션 가이드 확인이 필수다.

자주 묻는 질문 / FAQ

Claude Opus 4.7의 가격이 진짜로 그대로인가요?
표시 가격은 동일하지만 같은 입력에 최대 35% 더 많은 토큰을 사용하므로 실효 단가는 사용 케이스에 따라 오를 수 있습니다. 한국어처럼 비라틴 텍스트가 많은 워크로드는 영향이 클 수 있어 자체 벤치마크가 필수입니다.
Opus 4.6에서 4.7로 즉시 옮겨도 되나요?
Anthropic은 Opus 4.7에 Opus 4.6과 호환되지 않는 API 변경 사항이 있다고 명시했습니다. 마이그레이션 가이드를 먼저 확인하고 프로덕션 적용 전에 회귀 테스트를 권장합니다.
한국에서 어디서 쓸 수 있나요?
Anthropic API와 AWS Bedrock(27개 리전 셀프서브)에서 즉시 사용 가능합니다. AWS 서울 리전(ap-northeast-2)도 글로벌 엔드포인트로 접근 가능합니다.

1차 출처 / Primary Sources

  1. [01]Introducing Claude Opus 4.7Anthropic · 보관본
  2. [02]Claude Platform API release notes — April 16, 2026Anthropic · 보관본

Raw markdown 미러: /global/claude-opus-4-7-release.md

이 글은 AI 도구의 도움을 받아 작성되고 Hyun이 검수·발행했습니다. 모든 사실은 1차 출처에서 검증됨.

CC BY 4.0 · methodology · 정정 / errata