인간을 닮아가는 '범용 인공지능(AGI)'을 향한 레이스 속도가 빨라지고 있다. 선두 주자인 오픈AI의 '챗GPT'가 추론 모델로 한 발 앞서나가자, 구글의 '제미나이'와 앤쓰로픽의 '클로드' 역시 무서운 속도로 기술 격차를 좁히며 맹추격 중이다. 여기에 검색 엔진의 패러다임을 바꾼 '퍼플렉시티'와 일론 머스크의 야심작 '그록'이 가세하며 판을 흔들고 있다.
단순한 언어 모델을 넘어, 멀티모달과 에이전트(Agent) 기능으로 진화하고 있는 주요 AI 4종의 기술적 현주소를 해부한다.
◆오픈AI '챗GPT'
오픈AI는 지난 13일(현지시간) GPT-5를 업그레이드 한 GPT-5.1 인스턴트와 씽킹 모델을 공개했다. 이번 업그레이드는 모델 전반의 성능과 사용성을 모두 한 단계 끌어올리는 데 주안점을 뒀다.
GPT-5.1 인스턴트는 '적응형 추론' 기능이 도입돼 질문의 난이도에 따라 생각이 필요한지 여부를 스스로 판단할 수 있게 됐다. 고급 추론 모델인 GPT-5.1 씽킹은 질문에 맞춰 생각하는 시간을 더 정확하게 조절해, 복잡한 문제에는 더 많은 시간을 들여 깊게 사고하고 단순한 질문에는 더 빠르게 응답한다. 전문 용어와 정의되지 않은 표현이 훨씬 줄어들어 사용자가 더욱 쉽게 이해할 수 있게 됐다.
챗GPT의 큰 특징 중 하는 개인화 된 채팅 환경과 다양한 페르소나다. 5.1로 업그레이드 되면서 챗GPT의 말투와 스타일도 더 개인화됐다. 만약 편하게 대화를 나누며 쇼핑과 예약 서비스를 도와줄 친구를 찾는다면 챗GPT는 좋은 동반자가 될 수 있다.
◆구글 제미나이(Gemini)
18일(현지시간) 제미나이3이 공개된 이후 찬사가 끊이지 않고 있다. 역대 가장 똑똑한 AI 모델로 평가받는 '제미나이 3'와 이를 기반으로 한 이미지 생성·편집 모델 '나노 바나나 프로'는 공개되자마자 AI업계에 돌풍을 일으키고 있다. 샘 올트먼 오픈AI CEO조차 순다르 피차이 구글 CEO의 게시물에 "훌륭한 모델로 보인다"고 댓글을 남겼다.
제미나이 3 프로는 AI 모델 평가 사이트 LM아레나(Arena) 리더보드에서 1501점을 기록해 기존 1위였던 제미나이 2.5 프로를 제쳤다. AI의 능력을 비교하는 주요 벤치마크인 '인류의 마지막 시험(Humanity's Last Exam)'에서도 제미나이 3 프로는 정답률 37.5%를 기록하며 오픈AI의 GPT 5 프로(31.6%)를 앞섰다.
제미나이는 구글 워크스페이스 의존도가 높은 직장인과 학생에게 가장 강력한 도구다. 지메일·드라이브 등과 연동돼 별도 파일 업로드 없이 문서를 분석하고 초안을 작성할 수 있어 업무 효율을 극대화한다. 또한 영상과 음성을 포함한 대용량 데이터를 한 번에 이해하는 '멀티모달' 능력이 압도적인 만큼, 방대한 자료를 다루는 연구자나 크리에이터에게도 최적의 선택지다.
◆앤쓰로픽 클로드(Claude)
앤스로픽은 24일(현지시간) '클로드 오퍼스 4.5'를 공개하고 기업용 AI 시장 굳히기에 나섰다.
오퍼스 4.5는 AI 소프트웨어 공학(SWE) 벤치마크에서 80.9%를 기록, 오픈AI의 'GPT-5.1 코덱스 맥스'(77.9%)와 구글 '제미나이 3 프로'(76.2%)를 모두 제쳤다. 훈련 데이터에 없는 새로운 과제를 해결하는 능력(ARC-AGI-2) 역시 37.6%로 경쟁사들을 압도했다.
진입 장벽도 대폭 낮췄다. 기업용 API 가격을 기존 모델 대비 3분의 1 수준인 100만 토큰당 입력 5달러, 출력 25달러로 책정했다. 또한 MS와의 협력을 바탕으로 엑셀, 오피스365 등 업무 툴과의 연동성을 강화해 '사무 자동화' 수요를 정조준했다.
앤스로픽은 기업용 API 시장에서 가파른 성장세를 보이고 있다. 멘로벤처스에 따르면 지난 7월 기준 앤스로픽의 점유율은 32%로, 오픈AI(25%)와 구글(20%)을 제치고 선두를 달리고 있다.
◆그록(Grok)
일론 머스크가 이끄는 AI 스타트업 xAI도 지난 18일(현지시간) 그록(Grok 4.1)을 공개했다. 그록 4.1은 즉각적인 응답을 제공하는 '그록 4.1'(코드명: tensor)과 심층적 사고를 지원하는 '그록 4.1 씽킹'(코드명: quasarflux)으로 나뉜다. 두 모델은 익명의 AI 성능을 인간이 평가하는 LM아레나(LMArena)에서도 1위와 2위를 기록하며, 구글 제미나이 2.5 프로를 제쳤다. 감정지능과 대인관계 능력을 평가하는 EQ-벤치3에서도 두 모델은 상위권에 올랐다.
그록은 X(옛 트위터)의 방대한 실시간 데이터를 무기로 삼는다. 속보와 여론 반응을 가장 빠르게 파악해야 하는 주식·가상자산 투자자나 마케터들에게 대체 불가능한 도구다. 또한 타 모델 대비 답변 검열이 느슨하고 풍자적인 성향을 갖춰, AI의 도덕적 훈계에 피로감을 느끼거나 자유로운 창작을 원하는 사용자층에게 '가장 솔직한 AI'로 자리 잡고 있다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성