본문 바로가기
ppaliAI

Anthropic·KPMG, 27.6만 명에 Claude 배포 — 세무·법무 AI 에이전트가 파일럿을 넘어섰다

KPMG는 27.6만 명 전 직원에게 Claude 접근을 열고 Digital Gateway에 관리형 에이전트를 통합해 세무·법무·보안 업무 AI를 파일럿에서 운영 단계로 옮겼다.

KPMG가 27.6만 명에게 Claude를 배포하고 Digital Gateway에 관리형 에이전트를 넣는다.

Hyun읽기 103,900글로벌 발표 후 42시간 만에 도착

무슨 일이 (The News)

KPMG는 27.6만 명 이상 전 세계 인력에게 Claude 접근을 열고, 세무·법무·사이버보안 업무 플랫폼 안에 관리형 에이전트(Managed Agents)를 넣는 방식으로 기업 AI 배포의 기준선을 한 단계 올렸다. 이번 제휴는 Anthropic(2021년 OpenAI 출신들이 창업한 AI 안전 회사)과 KPMG가 발표한 글로벌 전략 제휴이며, 핵심 제품은 KPMG의 디지털 게이트웨이(Digital Gateway)와 Claude Cowork다.[1][2]

중요한 변화는 “직원에게 챗봇 계정을 나눠준다”가 아니다. KPMG는 세무 전문성, 자체 도구, 고객 데이터를 다루는 Digital Gateway 안에 Claude Cowork와 관리형 에이전트를 통합한다. 고객 업무 흐름 안에서 초안 작성, 규정 변화 추적, 문서 검토, 취약점 탐지 같은 작업을 같은 플랫폼의 권한·감사·검토 절차로 묶겠다는 뜻이다.[1][4]

KPMG는 138개 국가·지역에서 감사, 세무, 법무, 자문 서비스를 제공한다. 이런 조직에서 AI 에이전트가 업무 플랫폼 안으로 들어가면 단순 생산성 도구보다 더 큰 의미가 생긴다. 어느 데이터에 접근했는지, 누가 결과를 승인했는지, 어떤 근거로 고객에게 전달했는지가 모두 책임 문제로 이어지기 때문이다.[1][2]

이번 발표는 에이전트형 AI가 소비자 앱이나 개발자 보조 도구에서 규제 산업의 운영 계층으로 이동하고 있음을 보여준다. 세무와 법무는 정답이 늦게 바뀌는 영역이 아니다. 법령, 판례, 행정 해석, 고객별 사실관계가 동시에 움직인다. 그래서 AI가 “문장 초안”만 잘 써도 부족하고, 최신 근거와 검토 흔적을 같이 남겨야 한다.

Anthropic의 최근 흐름도 함께 봐야 한다. 회사는 KPMG 발표 5일 전 PwC와의 확장 제휴를 공개했고, PwC 전문 인력 3만 명을 Claude에 맞춰 교육·인증하겠다고 밝혔다.[3] Big Four가 모델 회사의 단순 고객이 아니라, 고객사 업무 재설계와 배포를 맡는 현장 채널로 바뀌고 있다는 신호다.

숫자로 보기

가장 큰 숫자는 27.6만 명이며, 이번 사안에서 한국 독자가 봐야 할 측정값은 토큰 수가 아니라 고위험 업무에서 AI 산출물이 사람 검토를 통과하는 비율이다. 원래 측정 의사결정표상 이번 발표는 새 모델, API 변경, 가격 변경, 벤치마크가 아니어서 토크나이저나 지연시간 실험을 적용하지 않았다. 대신 한국 기업이 즉시 잡아야 할 지표는 세무 문서 100건당 재작업률, 법무 검토 1건당 근거 누락률, 보안 취약점 티켓 1건당 오탐·미탐 비율이다.

KPMG의 규모는 138개 국가·지역, 27.6만 명 이상 인력, 2년간의 미국 내 선행 도입이라는 세 숫자로 요약된다.[1] 여기에 비교 대상이 되는 PwC 제휴는 3만 명 교육·인증, 기존 기업 시스템 비효율의 경제적 부담 2조 달러 이상, 일부 운영 배포에서 최대 70%의 처리 시간 개선이라는 숫자를 제시했다.[3]

가격 항목은 공개되지 않았다. 그래서 한국 기업은 모델 단가보다 총소유비용을 거꾸로 계산해야 한다. 예를 들어 세무 검토 1건이 AI 사용 전 3시간, 사용 후 2시간으로 줄어도 재작업이 늘면 절감액은 사라진다. 반대로 검토 시간은 크게 줄지 않아도 근거 추적과 문서 일관성이 높아지면 고객 대응 비용이 낮아질 수 있다.

타임라인도 중요하다. KPMG는 세무·사모펀드 고객 업무, 사이버보안 취약점 탐지와 수정, 내부 팀 적용을 함께 언급했다.[1] PwC 사례에서는 보험 인수 심사 주기가 10주에서 10일로 줄었다는 예시도 제시됐다.[3] 이 숫자는 KPMG 성과가 아니므로 그대로 이전할 수는 없다. 다만 Big Four가 AI 도입 효과를 “응답이 빠르다”가 아니라 “업무 주기가 줄었다”로 설명하기 시작했다는 점은 한국 대기업의 KPI 설계에 직접 닿는다.

2차 효과는 조직 비용 구조에서 나온다. 전 직원 도입이 성공하려면 모델 사용료보다 교육, 권한 관리, 로그 저장, 책임자 지정, 고객 설명 문서가 더 큰 운영 항목이 된다. 27.6만 명에게 접근권을 주는 순간, AI는 IT 부서의 도구가 아니라 리스크 관리와 인사 평가, 고객 계약서의 문제로 이동한다.

한국 기업이 다음 분기에 측정해야 할 실험은 명확하다. 동일한 세무 질의 50건, 계약서 조항 50건, 보안 티켓 50건을 놓고 기존 방식, 범용 챗봇 방식, 업무 플랫폼 내 관리형 에이전트 방식을 비교한다. 지표는 처리 시간만이 아니라 근거 누락, 승인 반려, 고객 재질의, 보안 예외 승인 건수까지 포함한다. 이 평가를 통과해야 전사 배포가 숫자로 설명된다.

누가 말했나

발표에 등장한 목소리들은 모두 같은 방향을 가리킨다. Claude를 더 똑똑한 챗봇으로 팔기보다, 정확성·책임성·신뢰가 필요한 업무 안에서 사람이 판단하고 검토하는 절차를 다시 설계해야 한다는 메시지다.

KPMG works in industries where accuracy, accountability, and trust aren’t optional, and they're applying the same standard to AI.

KPMG는 정확성, 책임성, 신뢰가 선택 사항이 아닌 산업에서 일하며, AI에도 같은 기준을 적용하고 있습니다.

Daniela Amodei, Anthropic 공동창업자 겸 사장 · 출처

Daniela Amodei의 발언에서 핵심 단어는 “accuracy, accountability, and trust”다. 한국 기업 입장에서는 모델 성능표보다 이 세 단어가 더 실무적이다. 세무 신고, 법무 의견, 보안 패치 권고는 AI가 빠르게 작성해도 사람이 책임질 수 없는 형태라면 고객에게 보낼 수 없다.

With Cowork and Managed Agents integrated in Digital Gateway, that same capability takes minutes.

Cowork와 관리형 에이전트가 Digital Gateway에 통합되면서 같은 역량을 몇 분 안에 구현할 수 있습니다.

Rema Serafi, KPMG US 세무 부문 부회장 · 출처

Rema Serafi의 발언은 세무 업무에서 체감되는 변화의 단위를 말한다. 과거에는 규정 변화에 맞춘 고객 지원용 AI 에이전트를 만들기 위해 여러 도구와 채팅 창을 오갔지만, 이제는 기존 업무 플랫폼 안에서 몇 분 단위로 구성한다는 설명이다.[1] 이 주장은 실적 숫자가 아니라 업무 설계 주장에 가깝다. 그래서 한국 독자는 “몇 분”이라는 문구보다 재사용 가능한 업무 템플릿과 승인 절차가 실제로 있는지를 확인해야 한다.

the greatest value comes not just from technical adoption, but from the ways employees exercise judgment

가장 큰 효용은 단순한 기술 도입이 아니라 직원들이 판단을 행사하는 방식에서 나옵니다.

Ethan Burris, UT Austin McCombs School of Business 선임 부학장 · 출처

Ethan Burris의 문장은 이번 발표를 “AI 도입률” 경쟁으로 읽지 말라는 경고에 가깝다. 직원이 어떤 출력물을 신뢰하고, 어떤 출력물을 되돌리며, 어떤 경우에 고객에게 설명하는지가 진짜 성과를 가른다는 뜻이다. 한국 조직에서 이 대목은 교육 프로그램보다 평가 권한과 책임 분장으로 번역돼야 한다.

Bill Thomas KPMG International 회장은 책임 있는 AI와 보안, 신뢰, 거버넌스를 함께 언급했다.[1] 이 표현은 기업 홍보 문장처럼 보일 수 있지만, Big Four 업무에서는 거의 제품 요구사항이다. 감사·세무·법무 고객은 빠른 초안보다 설명 가능한 절차를 산다. AI가 그 절차 안에 들어가지 못하면 직원 개인의 편의 도구에 머문다.

Every time I think about the numbers and lack of RoI for most pilot studies and the reliability problems I think so.

대부분의 파일럿 연구에서 숫자와 ROI 부족, 신뢰성 문제를 떠올릴 때마다 그렇게 생각합니다.

Gary Marcus, AI 비평가 겸 저자 · 출처

Gary Marcus의 비판은 KPMG 발표 자체를 겨냥한 것은 아니지만, 기업 AI 도입을 검증하는 데 필요한 반대편 기준을 준다.[6] 대형 제휴가 많아져도 ROI와 신뢰성 문제가 증명되지 않으면 파일럿의 언어가 운영의 숫자로 바뀌지 않는다. KPMG 사례도 결국 몇 명이 접속했는지가 아니라 고객 업무 품질과 책임 비용이 어떻게 바뀌었는지로 평가받아야 한다.

한국 시장 관점

한국 기업에 이번 제휴가 주는 결론은 모델 라이선스보다 업무 플랫폼과 책임 설계를 먼저 사야 한다는 것이다. 학생·개발자용 AI는 개인 도구로 시작할 수 있지만, 대기업·공공·회계법인·로펌의 세무·법무·보안 업무는 고객 데이터와 법적 책임이 한 번에 얽힌다. 따라서 “전 직원에게 AI 계정 지급”은 출발선일 뿐이고, 실제 경쟁력은 고객별 데이터 경계와 결과 승인 체계에서 나온다.

네이버 HyperCLOVA, 카카오 Kanana, SKT A.X, LG EXAONE, Upstage Solar 같은 국내 모델·서비스 사업자는 이 발표를 단순한 해외 모델 확산으로만 보면 안 된다. KPMG의 Digital Gateway는 모델 위에 놓인 배포 계층이다. 한국 시장에서도 승자는 모델 하나가 아니라 그룹웨어, 문서관리, ERP, 보안 관제, 전자결재 안에 AI 에이전트를 배치하고 로그를 남기는 쪽에서 나올 가능성이 크다.

한국 회계법인과 로펌에는 특히 직접적인 압박이다. 고객은 이미 “AI를 쓰느냐”보다 “AI가 만든 결과를 누가 검토했느냐”를 묻기 시작했다. 세무 규정 변경 알림, 계약서 리스크 초안, 감사 증빙 정리 같은 업무는 AI 에이전트가 초안을 만들 수 있다. 하지만 고객에게 전달되는 마지막 문장은 책임 있는 전문가의 판단이어야 한다.

국내 클라우드와 반도체 기업에도 다른 숙제가 생긴다. Rebellions와 FuriosaAI 같은 AI 반도체 기업은 추론 비용을 낮추는 역할을 할 수 있지만, 전문서비스 업무에서는 GPU 단가만으로 채택이 결정되지 않는다. 데이터가 어느 리전에 머무는지, 감사 로그가 얼마나 오래 남는지, 고객별 권한을 어떻게 분리하는지가 더 앞선 구매 조건이 된다.

공공기관과 금융사는 더 보수적으로 움직여야 한다. 해외 SaaS형 AI를 바로 연결하기 어려운 조직은 내부망 문서, 위탁 처리 계약, 로그 보존 기간, 민감정보 마스킹을 먼저 정리해야 한다. 이 작업은 화려하지 않지만, 실제 배포의 병목이다. KPMG 사례가 말하는 운영 역량도 결국 모델 호출 전후의 통제 장치다.

스타트업에는 기회가 있다. 대기업이 전사 플랫폼을 만들 동안, 한국 스타트업은 특정 업무 하나를 깊게 파고들 수 있다. 예를 들어 노무 질의, 해외 세무 신고, 보안 인증 문서, 의료기관 내부 규정처럼 좁은 영역에서 근거 추적과 승인 로그를 제품에 녹이면 범용 챗봇과 다른 구매 이유가 생긴다.

이번 조사 범위에서는 Anthropic-KPMG 제휴를 직접 논평한 한국 named individual 공개 발언을 확인하지 못했다. 그래서 한국 내부자 인용을 억지로 끼워 넣지 않는다. 대신 지금 한국 시장에서 필요한 질문은 분명하다. 국내 사업자는 “한국어 성능이 좋다”를 넘어, 세무·법무·보안처럼 오류 비용이 큰 업무에서 사람 검토와 데이터 경계를 제품 기능으로 설명할 수 있어야 한다.

반대 의견 (Room for Disagreement)

가장 강한 반대 논리는 27.6만 명 배포가 곧바로 생산성·ROI·안전성을 증명하지는 않는다는 것이다. 기업 AI 제휴 발표는 늘 크고 빠르게 보이지만, 실제 운영에서는 권한 오남용, 민감 데이터 유출, 근거 없는 답변, 재작업 증가가 비용을 갉아먹을 수 있다. 특히 AI 에이전트가 고객 데이터와 내부 도구를 함께 다루면 실패의 단위가 “잘못된 답변 하나”에서 “잘못 실행된 업무 흐름”으로 커진다.

Given how many people are going to be piping very sensitive data through Gemini Spark in the near future I hope they've made this bullet-proof

가까운 시일 안에 매우 민감한 데이터를 Gemini Spark로 흘려보낼 사람이 많을 텐데, 이 부분을 빈틈없이 만들었기를 바랍니다.

Simon Willison, 독립 개발자·연구자 · 출처

Simon Willison의 지적은 Google 제품을 두고 나온 말이지만, KPMG 같은 전문서비스 기업에도 그대로 적용된다.[5] 민감 데이터가 AI 에이전트를 지나갈수록 “모델이 안전한가”보다 “어떤 도구를 언제 호출했는가”가 더 중요해진다. 한국 기업은 프롬프트 유출 방지 문구만으로는 부족하다. 에이전트별 권한, 고객별 데이터 분리, 실행 전 승인, 실행 후 로그 검사를 최소 단위로 삼아야 한다.

두 번째 반대는 벤더 종속이다. Digital Gateway 같은 플랫폼 안에 특정 모델과 업무 템플릿이 깊게 들어가면, 나중에 다른 모델로 갈아타기 어렵다. 한국 기업이 이 구조를 받아들일 때는 모델 교체 가능성, 로그 포맷, 프롬프트·도구 정의의 소유권, 고객 데이터 반환 조건을 계약서에 명시해야 한다. 그렇지 않으면 초기 생산성 향상이 장기 협상력 약화로 돌아올 수 있다.

이 반대 논리는 한국 시장에서 더 강해질 수 있다. 국내 기업은 개인정보보호, 금융 보안, 공공 조달, 하도급 구조가 얽힌 경우가 많다. 해외 본사의 전사 배포 사례가 있어도 국내 자회사나 협력사가 그대로 들여오기는 어렵다. 무엇이 바뀌면 판단이 달라질까. KPMG가 업무별 정확도, 재작업률, 고객 승인률, 보안 사고 지표를 공개한다면 이번 발표는 마케팅이 아니라 운영 레퍼런스로 격상된다.

즉시 결정해야 할 것

오늘은 도입 선언이 아니라 고위험 업무 1개를 골라 평가셋과 책임자를 정하는 날이다. 한국 기업이 이번 발표를 따라 하려면 “Claude를 살까, 국내 모델을 쓸까”보다 먼저 어떤 업무를 AI 에이전트로 바꿔도 되는지 정해야 한다.

  1. Today (오늘): 세무, 법무, 보안, 고객지원 중 1개 업무를 고르고 최근 30건의 실제 케이스를 평가셋으로 묶는다. 각 케이스에는 정답 문서, 금지 데이터, 반드시 남겨야 할 근거, 사람이 최종 승인해야 하는 지점을 표시한다. 이 작업 없이 모델을 붙이면 성능 비교가 아니라 인상 평가만 남는다.

오늘 단계에서 책임자도 함께 지정한다. AI 프로젝트 오너와 업무 책임자가 다르면 실패가 반복된다. 세무 업무라면 세무 파트너, 법무 업무라면 사내변호사, 보안 업무라면 CISO 조직이 승인 기준을 가져야 한다. IT 부서는 도구를 붙이고, 업무 부서는 정답 기준을 쥔다.

  1. This week (이번 주): AI 에이전트가 접근할 수 있는 문서와 도구를 3단계 권한으로 나눈다. 조회 전용, 초안 작성, 실행 요청을 분리하고 실행 요청에는 사람 승인과 로그 저장을 의무화한다. 성공 기준은 답변 만족도가 아니라 근거 누락률 5% 이하, 재작업률 20% 이하, 금지 데이터 접근 0건으로 둔다.

이번 주에는 실패 사례를 일부러 만들어야 한다. 오래된 규정, 모순된 고객 메모, 접근 권한이 없는 문서, 악의적 프롬프트를 넣고 에이전트가 멈추는지 본다. 좋은 시스템은 모든 질문에 답하는 시스템이 아니라, 답하면 안 되는 순간에 멈추는 시스템이다.

  1. This month (이번 달): 외산 모델 1개, 국내 모델 1개, 기존 수작업 프로세스를 같은 평가셋으로 비교한다. 비용은 API 단가만 보지 말고 검토 시간, 오류 수정 시간, 보안 검토 시간을 합산한다. 이 비교에서 이기지 못한 업무는 전사 배포 대상에서 제외한다.

월말 의사결정 문서는 한 장이면 충분하다. 배포 대상 업무, 금지 업무, 승인 책임자, 로그 보존 기간, 고객 고지 문구, 장애 시 되돌림 절차를 적는다. 이 문서가 없으면 조직은 “AI를 쓴다”는 선언만 있고 운영 기준은 없는 상태가 된다.

  1. This quarter (이번 분기): 업무별 에이전트 카탈로그를 만든다. 세무 규정 변경 요약, 계약서 조항 리스크 표시, 취약점 티켓 분류처럼 좁고 반복 가능한 업무부터 등록한다. 각 에이전트에는 책임 부서, 허용 데이터, 실패 시 되돌림 절차, 월간 품질 리포트를 붙인다. 그때부터 AI 도입은 계정 수가 아니라 운영 체계가 된다.

분기 말에는 사용량보다 품질 지표를 먼저 보고한다. 몇 명이 썼는지보다 몇 건이 승인됐고, 몇 건이 반려됐고, 어떤 유형의 오류가 줄었는지가 중요하다. KPMG의 27.6만 명 숫자는 출발 신호일 뿐이다. 한국 기업이 따라야 할 숫자는 자기 업무에서 책임질 수 있는 정확도와 재작업률이다.

출처 (References)

  1. Anthropic — "KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic alliance" (2026-05-19). https://www.anthropic.com/news/anthropic-kpmg
  2. KPMG — "KPMG and Anthropic sign global alliance and launch Digital Gateway Powered by Claude" (2026-05-19). https://kpmg.com/xx/en/media/press-releases/2026/05/kpmg-and-anthropic-sign-global-alliance-and-launch-digital-gateway-powered-by-claude.html
  3. Anthropic — "PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients" (2026-05-14). https://www.anthropic.com/news/pwc-expanded-partnership
  4. Anthropic — "Cowork: Claude Code power for knowledge work" (2026-05-20 accessed). https://claude.com/product/cowork
  5. Simon Willison — "Google I/O" (2026-05-20). https://simonwillison.net/2026/May/20/google-io/
  6. Gary Marcus — "Could generative AI could turn out to be a dud?" (2026-05-20). https://garymarcus.substack.com/p/could-generative-ai-could-turn-out

핵심 정리 / Key Takeaways

  • [01]KPMG는 138개 국가·지역의 27.6만 명 이상 인력에게 Claude 접근을 제공하고 Digital Gateway에 Claude Cowork와 관리형 에이전트를 넣는다.
  • [02]이번 사례의 핵심은 챗봇 배포가 아니라 세무·법무·사모펀드·사이버보안 업무 플랫폼 안에 승인·권한·감사 절차를 묶는 것이다.
  • [03]Anthropic은 5일 전 PwC 제휴도 발표해 Big Four를 모델 판매 채널이 아니라 기업 업무 재설계 채널로 쓰는 흐름을 분명히 했다.
  • [04]한국 기업은 오늘 모델 선택보다 고객 데이터 경계, 사람 검토 기준, 업무별 에이전트 카탈로그부터 정해야 한다.

자주 묻는 질문 / FAQ

KPMG와 Anthropic 제휴에서 가장 중요한 숫자는 무엇인가요?
27.6만 명이다. KPMG가 전 세계 인력 전체에 Claude 접근을 열면서 AI 에이전트가 일부 팀 실험을 넘어 전사 업무 플랫폼으로 들어가는 신호가 됐다.
이번 발표가 한국 기업에 바로 적용될 수 있나요?
모델만 사면 적용되는 사안은 아니다. 고객 데이터 경계, 권한, 로그, 사람 승인 기준, 업무별 평가셋을 먼저 정한 뒤 세무·법무·보안 같은 고위험 영역부터 좁게 시작해야 한다.
한국어 자체 성능 측정이 빠진 이유는 무엇인가요?
이번 사안은 새 모델·가격·API·벤치마크 발표가 아니라 기업 배포 제휴다. 한국 독자에게 필요한 측정은 모델 점수보다 업무 완료율, 재작업률, 감사 로그 품질이다.

1차 출처 / Primary Sources

  1. [01]KPMG integrates Claude across its core business and workforce of more than 276,000 in strategic allianceAnthropic
  2. [02]KPMG and Anthropic sign global alliance and launch Digital Gateway Powered by ClaudeKPMG
  3. [03]PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clientsAnthropic
  4. [04]Cowork: Claude Code power for knowledge work | Claude by AnthropicAnthropic
  5. [05]Google I/OSimon Willison
  6. [06]Could generative AI could turn out to be a dud?Gary Marcus

Raw markdown 미러: /global/anthropic-kpmg-claude-digital-gateway.md

공유 / ShareX

이 글은 AI 도구의 도움을 받아 작성되고 Hyun이 검수·발행했습니다. 모든 사실은 1차 출처에서 검증됨.

CC BY 4.0 · 정정 / errata