AI와 게임의 만남: 슈퍼 마리오로 AI 성능을 측정하다
최근 AI 기술의 발전은 눈부십니다. 하지만 AI의 진정한 성능을 어떻게 평가할 수 있을까요? 많은 연구자들은 게임을 활용한 AI 벤치마크 테스트에 주목하고 있습니다. 그 중에서도 이번에 소개할 흥미로운 사례는 바로 '슈퍼 마리오 브라더스'를 활용한 AI 성능 측정입니다.
게임과 AI: 새로운 벤치마크의 탄생
게임은 오랜 시간 동안 AI 성능을 테스트하는 데 사용되어 왔습니다. 체스, 바둑, 스타크래프트 등 다양한 게임이 AI 연구의 시험대가 되어왔죠. 그런데 최근에는 1985년 출시된 고전 게임인 슈퍼 마리오 브라더스가 AI 벤치마크 테스트의 주인공으로 떠오르고 있습니다. 캘리포니아 대학교 샌디에이고의 Hao AI Lab에서는 AI가 슈퍼 마리오 브라더스를 플레이하도록 하여 그 성능을 평가하는 실험을 진행했습니다.
AI 모델의 성능 비교
Hao AI Lab의 연구 결과, Anthropic의 Claude 3.7이 가장 뛰어난 성능을 보였으며, Claude 3.5가 그 뒤를 이었습니다. 반면, 구글의 Gemini 1.5 Pro와 OpenAI의 GPT-4o는 상대적으로 고전했습니다. 이 실험에서 사용된 슈퍼 마리오 브라더스는 원작과는 조금 다른 버전으로, 에뮬레이터에서 실행되며 AI가 마리오를 제어할 수 있도록 GamingAgent라는 프레임워크가 통합되었습니다.
AI의 학습 과정
GamingAgent는 AI에게 기본적인 명령어와 게임 내 스크린샷을 제공하여 AI가 마리오를 제어할 수 있도록 했습니다. AI는 이러한 정보를 바탕으로 파이썬 코드를 생성하여 마리오를 조작했습니다. 이 과정에서 AI는 복잡한 동작을 계획하고 게임 전략을 개발해야 했습니다. 흥미롭게도, 문제를 단계별로 해결하는 '추론 모델'은 실시간 게임에서는 성능이 떨어지는 것으로 나타났습니다. 이는 실시간 게임에서는 빠른 결정이 중요하기 때문입니다.
게임을 통한 AI 평가의 한계
게임을 통한 AI 평가에는 몇 가지 한계가 있습니다. 게임은 현실 세계와는 다르게 추상적이고 단순한 경우가 많으며, AI에게 무한한 데이터를 제공할 수 있습니다. 이러한 이유로 일부 전문가들은 게임을 통한 AI 평가가 기술 발전을 정확히 반영하지 못할 수 있다고 지적합니다. OpenAI의 연구원인 Andrej Karpathy는 이러한 상황을 '평가 위기'라고 표현하며, 현재 AI 모델의 성능을 평가하는 데 있어 적절한 지표를 찾기 어렵다고 언급했습니다.
결론: AI와 게임의 미래
AI가 게임을 통해 보여주는 성과는 흥미롭고 매력적입니다. 비록 게임이 AI의 모든 능력을 평가할 수 있는 완벽한 도구는 아닐지라도, 게임을 통한 연구는 AI의 새로운 가능성을 탐구하는 데 중요한 역할을 하고 있습니다. 앞으로도 AI와 게임의 만남은 계속될 것이며, 우리는 이 과정을 통해 AI 기술의 진정한 잠재력을 발견할 수 있을 것입니다.
이처럼 AI가 게임을 통해 발전하고 있는 모습은 기술의 진보와 인간의 창의성이 결합된 결과라고 할 수 있습니다. 앞으로도 AI가 어떤 새로운 도전에 직면하고, 이를 어떻게 극복할지 기대가 됩니다. AI와 게임의 흥미진진한 여정은 이제 시작일 뿐입니다.