엔비디아·메타 손 잡다…“모든 플랫폼서 최신 ‘라마3’ 추론 가속화 지원”

기사입력 2024-04-24 15:41:33
기사수정 2024-04-24 15:41:33

글씨 크기 선택

가장 작은 크기 글자 한 단계 작은 크기 글자 기본 크기 글자 한 단계 큰 크기 글자 가장 큰 크기 글자

엔비디아가 모든 플랫폼에서 메타의 최신 거대 언어 모델(LLM)인 라마3의 추론 가속화를 지원한다고 24일 발표했다.

엔비디아는 “가속 컴퓨팅과 결합된 이 개방형 모델은 다양한 애플리케이션에서 개발자와 연구원, 기업의 주도적인 혁신을 지원할 예정”이라고 말했다.

메타 엔지니어들은 2만4576개의 엔비디아 H100 텐서 코어 그래픽처리장치(GPU)가 탑재되고 엔비디아 퀀텀-2 인피니밴드 네트워크와 연결된 컴퓨터 클러스터에서 라마3을 훈련했다. 메타는 엔비디아의 지원을 통해 네트워크, 소프트웨어, 모델 아키텍처를 자사의 대표 LLM에 맞게 조정했다.

앞서 메타는 생성형 인공지능(AI)의 최첨단 기술을 더욱 발전시키기 위해 인프라를 35만개의 H100 GPU로 확장할 계획이라고 밝혔다.

엔비디아 GPU에서 가속화된 라마3가 클라우드, 데이터센터, 엣지 그리고 PC에서 사용할 수 있도록 출시됐다.

개발자는 브라우저에서 인터넷 주소 ‘ai.nvidia.com’에 접속해 라마3를 사용해 볼 수 있다. 라마3는 어디서나 배포될 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 엔비디아 NIM 마이크로서비스로 패키징돼 있다.

기업은 엔비디아 AI 엔터프라이즈 플랫폼의 일부인 LLM용 오픈 소스 프레임워크 엔비디아 네모(NeMo)를 사용해 데이터로 라마3를 미세 조정할 수 있다. 사용자 지정 모델은 엔비디아 텐서RT-LLM으로 추론에 최적화하고 엔비디아 트리톤 추론 서버로 배포할 수 있다.

라마3는 로보틱스와 엣지 컴퓨팅 디바이스를 위한 엔비디아 젯슨 오린에서 실행되며, 젯슨 AI 랩에서와 같은 대화형 에이전트를 생성한다. 또 워크스테이션, PC용 엔비디아 RTX와 지포스 RTX GPU는 라마3에서 추론 속도를 높인다. 이러한 시스템을 통해 개발자는 전 세계 1억개 이상의 엔비디아 가속 시스템을 활용할 수 있다.

챗봇용 LLM을 배포하기 위해서는 짧은 지연 시간, 우수한 읽기 속도, 비용 절감을 위한 최적의 GPU 사용 간의 균형을 고려해야 한다. 보통 단어 수준에 해당하는 토큰을 초당 약 10개의 토큰을 처리하는 사용자의 읽기 속도보다 약 2배 빠른 속도로 전달해야 한다.

700억 개의 매개변수가 있는 라마3을 사용한 초기 테스트에서 단일 엔비디아 H200 텐서 코어 GPU는 초당 약 3000개의 토큰을 생성했다. 이는 약 300명의 동시 사용자에게 서비스를 제공할 수 있는 양이다.

이는 H200 GPU 8개가 장착된 단일 엔비디아 HGX 서버는 초당 2만4000개의 토큰을 전송할 수 있고, 동시에 2400명 이상의 사용자를 지원해 비용을 최적화할 수 있다는 뜻이다.

엣지 디바이스의 경우 80억 개의 매개변수가 있는 라마3는 젯슨 AGX 오린에서 초당 최대 40개의 토큰을, 젯슨 오린 나노에서 초당 15개의 토큰을 생성했다.

엔비디아는 “오픈 소스에 적극 기여하며 사용자가 가장 어려운 문제를 해결하는 데 유용한 커뮤니티 소프트웨어 최적화에 전념하고 있다”며 “오픈 소스 모델은 AI 투명성을 촉진하고 사용자가 AI 보안과 복원력에 대한 작업을 광범위하게 공유하도록 할 것”이라고 말했다.

이동수 기자 ds@segye.com

페이스북 공유 트위터 공유 네이버 카카오톡 url 공유