제미나이3·클로드 오퍼스 4.5 맞붙어
생성형 인공지능(AI) 시장의 경쟁 화두가 단순한 문답 능력을 넘어, 인간의 의도를 파악해 코드를 짜고 업무를 수행하는 이른바 '바이브 코딩(Vibe Coding)'으로 급격히 이동하고 있다. 구글과 앤트로픽이 나란히 역대 최고 성능의 신규 모델을 공개하며, 개발자와 기업 시장을 선점하기 위한 기술 패권 다툼에 불을 지폈다.
24일(현지시간) 업계에 따르면 구글과 앤트로픽은 각각 '제미나이3'와 '클로드 오퍼스 4.5'를 잇달아 출시하며 'AI 에이전트' 분야에서 격돌했다. 이번 경쟁의 핵심은 사용자가 완벽한 명령어를 입력하지 않아도 AI가 맥락과 뉘앙스(Vibe)를 스스로 파악해 결과물을 내놓는 추론 및 코딩 능력이다.
먼저 포문을 연 곳은 구글이다. 구글은 18일 최신 모델 '제미나이3'를 깜짝 공개하며 '바이브 코딩' 시대를 선언했다. 순다 피차이 구글 CEO는 "제미나이3는 아이디어 속의 미묘한 단서와 뉘앙스까지 포착하는 전례 없는 추론 모델"이라고 강조했다. 구글은 이를 위해 새로운 AI 에이전트 개발 플랫폼 '안티그래비티'를 함께 선보이며 개발자 생태계 확장에 나섰다.
성능 지표에서도 구글은 자신감을 보였다. 가장 난이도가 높은 것으로 알려진 AI 성능평가 '인류의 마지막 시험(Humanity's Last Exam)'에서 제미나이3 딥싱크 모델은 41%의 정답률을 기록했다. 이는 경쟁 모델인 xAI의 그록4(25.4%)나 오픈AI의 GPT-5(25.3%)를 압도하는 수치다. 구글은 이러한 기술력을 바탕으로 여행 계획 수립부터 결제까지 자동화하는 '제미나이 에이전트'를 검색과 앱 전반에 전면 도입한다는 방침이다.
이에 맞서 '클로드'를 운영하는 앤트로픽도 24일 최상위 모델 '클로드 오퍼스 4.5'를 내놓으며 맞불을 놨다. 앤트로픽이 내세운 무기는 압도적인 '소프트웨어 공학(SWE)' 능력이다. 에이전트의 코딩 실력을 가늠하는 SWE 벤치마크에서 오퍼스 4.5는 80.9%를 기록, 구글의 제미나이3 프로(76.2%)와 오픈AI의 GPT-5.1 코덱스 맥스(77.9%)를 모두 제치고 세계 1위 자리에 올랐다.
앤트로픽은 성능 향상과 더불어 공격적인 가격 정책도 펼쳤다. 오퍼스 4.5의 API 사용료를 기존 모델 대비 3분의 1 수준인 100만 토큰당 입력 5달러, 출력 25달러로 대폭 인하했다. 이는 고성능 AI 도입을 망설이는 기업 고객을 빠르게 흡수하겠다는 전략으로 풀이된다.
앤트로픽 측은 "이전 모델이 처리하지 못했던 복잡한 문제도 해결할 수 있게 됐다"며 훈련 데이터에 없는 새로운 과제를 해결하는 능력(ARC-AGI-2)에서도 경쟁사를 앞섰다고 설명했다.
업계 전문가는 "AI가 단순히 텍스트를 생성하는 단계를 지나, 개발자의 의도를 간파해 코딩하고 복잡한 업무를 대행하는 '에이전트' 단계로 진입했다"며 "바이브 코딩 역량을 둘러싼 빅테크 기업들의 기술 경쟁이 앞으로 더욱 치열해질 것"이라고 전망했다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성