현재 구글 DeepMind에 근무하는 전 트위터 엔지니어 팀 자만은 트위터 데이터센터에서 700대의 가동 중이지만 사용되지 않고 있던 Nvidia V100 GPU 클러스터를 발견했다고 밝혔습니다. 이 클러스터는 '트위터 1.0의 정직한 시도로 만들어진 잊혀진 유산'으로 설명되며, 이는 컴퓨팅 리소스의 상당한 낭비를 보여줍니다.
2017년 GPU 품귀 사태 당시 도착한 이 V100 GPU들은 2022년 중반까지도 무용도로 가동되고 있었다고 합니다. PCIe 버전의 V100을 선택한 이유는 불분명하며, NVLink 인터페이스의 SXM2 폼팩터보다 대역폭이 낮습니다.
이번 사례는 기술 기업들의 AI 훈련 역량 확장 속도가 빨라지는 가운데, 대규모 GPU 배포를 관리하는 과제의 복잡성을 보여줍니다. 자만은 단일 패브릭에서 최대 몇 개의 GPU를 운용할 수 있는지에 대한 궁금증도 표현했습니다. 이번 발견은 리더십 변화 과정에서 기술 기업의 리소스 배분 효율성이 저하될 수 있음을 시사합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.