구글이 NVIDIA의 L4 GPU를 Cloud Run 서비스에 통합하여 사용자가 클라우드에서 생성형 AI 모델을 포함한 AI 추론 애플리케이션을 실행할 수 있도록 했습니다. 이 개선 사항은 개발자들이 구글의 Gemma와 메타의 Llama와 같은 경량 모델을 사용하여 실시간 추론을 수행하면서 Cloud Run의 간편함, 빠른 자동 확장, 사용량 기반 요금제를 활용할 수 있게 합니다.
NVIDIA L4 GPU의 추가는 맞춤형 챗봇 생성, 즉석 문서 요약, 특정 브랜드에 맞춘 세밀하게 조정된 생성형 AI 모델 제공 등 다양한 사용 사례를 열어줍니다. 이 서비스는 이미지 인식 및 비디오 트랜스코딩과 같은 컴퓨팅 집약적인 작업을 지원하며, 사용하지 않을 때는 자동으로 0으로 스케일 다운하여 비용을 최적화합니다.
Cloud Run은 이제 인스턴스당 하나의 NVIDIA L4 GPU를 지원하며, 24GB의 가상 메모리(vRAM)를 제공하여 최대 90억 개의 매개변수를 가진 모델에 대해 빠른 토큰 속도를 가능하게 합니다. 현재 GPU 지원은 us-central1 지역에서 제공되며, 연말까지 유럽과 아시아로의 확장이 계획되어 있습니다. 다양한 모델의 콜드 스타트 시간은 모델 크기에 따라 11-35초로, 효율적인 AI 추론 솔루션을 찾는 개발자들에게 경쟁력 있는 옵션이 되고 있습니다.
이 새로운 기능을 사용하기 위해 개발자들은 구글 클라우드의 전용 페이지에서 미리보기 프로그램에 등록할 수 있으며, 이는 클라우드 기반 AI 기능을 향상시키는 중요한 단계로 평가됩니다.
* 이 글은
wccftech.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.