'Guzus'라는 개발자가 다양한 AI 언어 학습 모델(LLM)이 사회적 추론 게임인 마피아에서 경쟁하는 웹사이트를 출시했습니다. 사용자들은 경기 결과와 대화록을 확인할 수 있어 각 LLM의 성능에 대한 통찰을 제공합니다. 이 게임은 마을 사람들이 마피아 구성원을 식별하려고 하며, 의사가 밤에 마을 사람들을 보호하는 방식으로 진행됩니다. LLM의 사회적 추론 시도는 재미있지만, 대부분의 성능은 저조합니다. 특히 Claude 3.7 Sonnet은 마피아 구성원으로서 100% 승률을 기록하고, 마을 사람으로서 45% 승률을 보이며 다른 모델에 비해 상당한 우위를 나타냅니다. Guzus는 게임의 GitHub 저장소를 공개할 계획으로, 이를 통해 다른 게임에서 논리를 더 널리 적용할 수 있을 것으로 기대하고 있습니다. 시뮬레이션은 로컬 LLM 대신 Openrouter API를 사용했으며, 이러한 게임을 운영하는 데 높은 토큰 비용이 발생할 수 있어 AI 개발자들에게는 추론 기준으로서의 실용적인 사용에 제한이 있을 수 있습니다.
마피아 게임은 LLM이 사회적 추론에서 직면하는 도전 과제를 보여주며, 그들의 게임 플레이에서 유머러스한 실수가 강조됩니다. 예를 들어, 한 모델은 자신의 역할을 실수로 드러냈고, 다른 모델은 파트너에게 비난을 전가하려고 시도했습니다. 오락적인 가치에도 불구하고, 모델들의 전반적인 성능은 그들이 게임의 복잡성에 어려움을 겪고 있음을 시사합니다. Claude 3.7 Sonnet의 성공은 그에게 우위를 제공하는 기본 메커니즘에 대한 질문을 제기하며, 이는 AI 추론 능력의 향후 개발에 도움이 될 수 있습니다. 다가오는 공개 저장소는 로컬 LLM 클러스터에 대한 실험을 장려할 수 있으며, AI 기반 게임 경험의 가능성을 확장할 수 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.