Pliops는 XDP LightningAI 장치와 FusIOnX 소프트웨어를 도입하여 복잡한 언어 모델의 확장된 컨텍스트 윈도우를 처리하는 데 있어 GPU에 연결된 고대역폭 메모리(HBM)의 한계를 극복하고자 합니다. 이 솔루션은 미리 계산된 컨텍스트를 빠른 SSD에 저장하여 HBM 속도에 가까운 속도로 검색할 수 있게 하며, 특정 추론 워크플로우를 최대 8배 가속화합니다.
전통적인 설정에서는 언어 모델이 GPU의 온보드 메모리에 저장된 키-값 데이터를 생성하여 컨텍스트를 관리합니다. 컨텍스트가 용량을 초과하면 오래된 항목이 삭제되어 재계산으로 인한 지연 시간 증가와 GPU 부하가 발생합니다. Pliops의 새로운 메모리 계층은 XDP LightningAI 머신을 통해 GPU와 고성능 SSD 간의 데이터 이동을 효율적으로 관리하여 중복 작업을 제거합니다.
이 아키텍처는 독립형 및 다중 GPU 서버 설정을 모두 지원하며, vLLM 및 NVIDIA Dynamo와 같은 AI 서비스 프레임워크와 원활하게 통합됩니다. 이를 통해 더 긴 컨텍스트 지원, 높은 동시성 및 추가 GPU 하드웨어 없이도 자원 활용도를 개선할 수 있습니다. 이 접근 방식은 AI 인프라의 총 소유 비용을 줄이면서도 높은 부하 조건에서도 안정적인 지연 시간을 유지합니다.
PCIe 5.0 SSD가 최대 336 GB/s의 대역폭을 제공하지만 H100의 3.35 TB/s에 비해 상당히 낮은 수치임에도 불구하고, Pliops 솔루션은 데이터 재계산의 필요성을 최소화하여 성능을 향상시킵니다. 일반적인 vLLM 배포의 처리량은 2.5배에서 8배까지 증가할 수 있어, 추가 GPU 자원 없이도 시스템이 초당 더 많은 사용자 쿼리를 처리할 수 있게 합니다.
* 이 글은
tomshardware.com의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.