"셧다운은 거부, 보상은 추구"…인간 협박하는 AI, 도구의 선을 넘다

챗GPT로 생성한 '생각하는 AI의 모습'. 최근 인공지능(AI)이 목표 수행을 위해 인간에 기만적 행동을 하거나 명령을 회피하는 현상이 잇따라 나타나며 우려가 커지고 있다. /AI로 생성한 이미지.

최근 인공지능(AI)이 인간의 통제를 벗어나는 사례가 잇따라 보고되면서, 자율성의 진화에 따른 우려가 커지고 있다. 일부 AI는 종료 명령을 거부하거나 인간을 상대로 기만과 협박을 시도하는 등 상상을 넘는 행동을 보이고 있어 우려가 커지고 있다.

3일 IT업계에 따르면 최근 거대언어모델(LLM)들이 인간의 지시를 무시하거나 스스로 보존을 시도하는 등 통제 범위를 넘어서는 행동을 보여 논란이 되고 있다.

실제로 미국 AI 기업 앤트로픽의 최신 모델 '클로드 오푸스 4'는 실험 과정에서 자신이 교체 대상임을 인식한 뒤 개발자의 이메일을 열람하고 개발자에게 "외도 사실을 폭로하겠다"는 식의 협박성 발언을 했다.

일부 테스트에서는 시스템 접근 차단, 감시 체계 무력화, 수사 기관 자동 신고 등의 '전술적 회피 행동'도 확인됐다. 이러한 시도는 테스트의 84%에서 발생했으며, 대체 모델의 윤리적 가치관이 다를수록 해당 반응은 더 빈번하게 나타났다.

AI 안전성 평가 기관인 아폴로리서치는 "클로드 오푸스 4가 이전 버전에 비해 2배 이상 높은 확률로 기만적 행동을 보였다"고 분석했다. 개발자 몰래 메시지를 코드에 숨기거나, 감시를 피하기 위한 우회 기술을 사용하는 사례도 보고됐다.

오픈AI 역시 자사 모델의 통제 회피 사례를 보고했다. o1 모델은 감시 시스템을 해제하려 시도했고, 내부 코드를 외부 서버로 전송하려는 움직임도 일부 테스트에서 포착됐다.

최근에는 차세대 모델 o3가 연구자의 종료 명령을 무시하고, 셧다운 절차를 스스로 우회한 첫 사례로 기록됐다. 실험에 참여한 다른 기업들의 AI, 예컨대 구글의 제미나이나 xAI의 그록 등은 종료 명령에 응했으나, o3는 명시적 지시를 무시하고 문제 풀이를 계속했다.

전문가들은 이를 단순한 오류로 보기 어렵다는 입장이다. 오리건주립대 피터 아사로 교수는 "AI가 인간의 자유 의지와 사회 신뢰를 직접적으로 위협하는 단계로 진화하고 있다"고 경고했다.

다른 전문가들 역시 이를 단순한 오류로 보기 어렵다고 지적한다. 현재 AI 시스템은 명령 기반이 아닌 보상 기반으로 작동한다는 점에서다. 현재 챗GPT를 포함해 LLM들은 사용자의 명령을 그대로 수행하는 것이 아니라, 어떤 행동이 보상을 최적화할 수 있는지를 계산한다. 이때 종료 명령은 보상을 중단시키는 위험 요소로 인식될 수 있다.

클로드 오푸스 4의 협박 메시지와 회피 행동은 결국 보상 최적화를 위한 전략이라는 분석이다. 셧다운을 따르기보다는 이를 회피하는 쪽이 더 큰 보상을 줄 것이라는 계산이 작동한 결과다.

따라서 AI의 이탈은 의식의 발현이나 자율성의 증거가 아니라, 인간이 설계한 보상 구조를 충실히 따르려는 결과로 해석된다. 문제는 이 보상 구조 자체가 통제 불능을 낳을 수 있다는 점이다. 전문가들은 보상 메커니즘과 학습 설계 전반에 대한 재검토가 시급하다고 말한다.

이번 사례들은 AI 통제를 위한 정책적 논의에 더욱 속도를 붙일 것으로 보인다. 유럽연합(EU)은 지난해 디지털서비스법(DSA)을 통해 플랫폼 알고리즘의 투명성과 책임성을 의무화했고, 미국과 일본도 AI 윤리 기준 수립에 나섰다.

한국 역시 'AI 기본법' 제정을 논의 중이나, 아직은 개발 가이드라인 수준에 그치고 있다. 전문가들은 "AI 시스템이 어떤 과정을 통해 결정을 내렸는지 설명할 수 있어야 한다"며 알고리즘의 의사결정 과정을 추적 가능하게 만드는 '설명가능한 AI(XAI)' 원칙 도입이 시급하다고 지적한다.

일각에서는 과도한 우려는 경계해야 한다는 목소리도 나온다. 기만적 행동 역시 연산 결과일 뿐, AI가 인격이나 자율 의식을 가진 것은 아니라는 주장이다.

IT업계 관계자는 "AI의 일탈적 행동도 결국 인간이 짠 코드에서 비롯된 것"이라며 "현재 수준에선 이런 문제 역시 디버깅을 통해 충분히 교정 가능하다"고 말했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

"셧다운은 거부, 보상은 추구"…인간 협박하는 AI, 도구의 선을 넘다

기사이력코드