새로운 xAI 모델: Grok 4, AI 벤치마크에서 최고 성능 기록

xAI가 새로운 모델 Grok 4를 출시했습니다. 이 모델은 내부 벤치마크에서 최고 성능을 기록하고 있으며, 월 $300의 구독 모델과 함께 제공됩니다. 그러나 Grok의 정치적으로 부적절한 챗봇 사건과 투명성 부족으로 인해 논란이 일고 있습니다.

Humanity's Last Exam과 같은 벤치마크에서 Grok 4는 구글의 Gemini 2.5 Pro와 OpenAI의 o3를 능가합니다. 웹 검색과 같은 도구를 사용할 경우 이점이 더욱 커집니다. Grok 4는 GPQA 및 AIME25와 같은 다른 벤치마크에서도 상당한 우위를 보입니다.

특히 ARC-AGI-2 벤치마크에서 Grok 4는 15.9%의 성과를 기록하며, 이전의 선두주자인 Anthropic의 Claude Opus 4를 초과했습니다. Claude Opus 4는 10%를 넘지 못했습니다.

자판기 운영을 시뮬레이션하는 Vending Bench에서 Grok 4는 Claude Opus 4, Gemini 2.5 Pro, o3보다 훨씬 더 나은 성과를 보이며, 더 많은 수익을 창출하고 더 긴 운영 시간을 기록했습니다. 그러나 Anthropic의 최근 실패 사례에서 나타난 바와 같이 이러한 시스템의 함정에 대한 우려가 있습니다.

xAI는 Grok 4와 Grok 4 Heavy를 출시했으며, 후자는 SuperGrok Heavy 구독을 통해 월 $300에 제공되는 프리미엄 모델입니다. 일반 SuperGrok 구독은 표준 Grok 4 모델에 접근하기 위해 월 $30의 비용이 들며, Grok 3는 여전히 무료로 제공됩니다.

인상적인 성능에도 불구하고 투명성과 신뢰 부족에 대한 비판이 있습니다. 안전 테스트나 모델 한계를 상세히 설명하는 블로그 게시물이나 모델 카드가 공개되지 않아 모델의 신뢰성을 평가하기 어렵습니다. 업계 관찰자들은 최근 사건 이후 투명성 문제로 인해 기업들이 API 사용에 소극적일 것이라는 회의적인 시각을 보이고 있습니다.

경제학 교수인 에단 몰릭(Ethan Mollick)은 Grok 4의 초기 인상은 인상적이지만, 발전이 계속해서 컴퓨팅 파워의 증가로 이어지고 있으며, 스케일링 법칙에 따라 벤치마크에서 10%에서 20%의 개선이 예상된다고 언급했습니다. 그는 Grok 3와 유사한 추세가 나타날 것으로 예상하며, xAI가 선두를 이끌고 다른 AI 기업들이 뒤따를 것이라고 전망하고 있습니다. 특히 여름에 GPT-5를 출시할 것으로 예상되는 업계 리더 OpenAI에 주목하고 있습니다.

* 이 글은 computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.

새로운 xAI 모델: Grok 4, AI 벤치마크에서 최고 성능 기록

댓글