애플은 자사의 AI 모델을 구동하기 위해 Nvidia GPU 대신 Google TPUv4와 TPUv5 칩 수천 개를 활용했다고 밝혔습니다. 애플 연구 논문에 따르면, 애플의 가장 큰 언어 모델인 'AFM-server'는 8,192개의 TPUv4 칩을 활용해 학습되었습니다. 이 모델 학습에는 총 6.3조 토큰, 1조 토큰, 1,000억 토큰 등 3단계의 접근법이 사용되었습니다.
학습 데이터에는 Applebot 웹 크롤러, 라이선스가 있는 고품질 데이터셋, 선별된 코드, 수학, 공개 데이터셋 등이 포함되었습니다. 반면 'AFM-on-device' 모델은 2,048개의 TPUv5p 칩을 활용해 학습되었으며, 6.4억 개 매개변수의 서버 모델에서 압축되어 3억 개 매개변수로 최적화되었습니다.
애플은 이번 연구를 통해 AI 분야에서의 노력을 공개적으로 드러냈습니다. AFM-server와 AFM-on-device 모델은 지침 따르기, 도구 사용, 작문 등 다양한 벤치마크에서 우수한 성능을 보인 것으로 알려졌습니다. 관심있는 독자들은 제공된 PDF 문서에서 더 자세한 내용을 확인할 수 있습니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.