EXO Labs는 26년 된 Windows 98 Pentium II PC에서 Llama 2 대형 언어 모델(LLM)이 실행되는 모습을 성공적으로 시연하며, 제한된 하드웨어에서 AI의 잠재력을 보여주었습니다. 이 시연은 350 MHz Pentium II 시스템과 128MB RAM을 사용하여, LLM이 Andrej Karpathy의 llama2.c를 기반으로 한 맞춤형 추론 엔진을 통해 적절한 속도로 이야기를 생성하는 과정을 포함했습니다.
이 프로젝트는 일반 사용자가 다양한 장치에서 AI 모델을 실행할 수 있도록 AI 접근성을 민주화하는 것을 목표로 하고 있습니다. 옥스포드 대학교의 연구자들로 구성된 EXO Labs는 대기업에 의한 AI 독점을 방지하기 위해 개방형 인프라의 필요성을 강조합니다. 블로그 게시물에서는 FTP를 사용한 데이터 전송 및 Windows 98용 현대 코드 컴파일과 같은 도전 과제를 상세히 설명하며, 궁극적으로 LLM의 성공적인 실행으로 이어졌습니다.
성능 지표에 따르면, 260K LLM은 초당 35.9 토큰의 생성 속도를 달성했으며, 더 큰 15M LLM은 초당 1토큰을 조금 넘는 속도로 떨어졌고, 1B LLM은 초당 0.0093 토큰으로 상당히 느린 속도를 보였습니다. 앞으로 EXO Labs는 7B 매개변수 모델이 단 1.38GB의 저장 공간으로 실행될 수 있도록 하는 삼진 가중치를 활용한 변환기 아키텍처인 BitNet을 소개합니다. 이 아키텍처는 CPU 우선으로 설계되어 비싼 GPU의 필요성을 피하며, 전체 정밀도 모델보다 50% 더 효율적이라고 주장하여, 100B 매개변수 모델이 인간의 독서 속도인 초당 5~7 토큰으로 작동할 수 있도록 합니다.
EXO Labs는 AI 접근성을 높이고 소수의 대기업에 의한 통제를 방지하기 위한 사명을 더욱 발전시키기 위해 기여를 적극적으로 모색하고 있습니다. 그들은 Discord와 같은 플랫폼에서 LLM을 구형 하드웨어에서 실행하는 방법에 대한 논의를 장려합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.