구글이 인공지능(AI) 추론 영역에서 메모리 사용량을 6분의 1로 줄이는 ‘터보퀀트’ 기술을 공개하면서 글로벌 반도체 시장이 출렁이고 있다. 소프트웨어 혁신으로 하드웨어(메모리) 수요가 둔화할 수 있다는 우려에 글로벌 메모리 칩 회사 주가가 일제히 주저앉았다. 하지만 장기적으론 메모리 효율이 높아지면 비용이 낮아지고, 시장이 확대돼 오히려 메모리 수요가 늘 것이란 분석이 많다.
29일 업계에 따르면 구글이 최근 발표한 터보퀀트는 AI가 명령을 읽고 답할 때(추론) 쓰는 작업용 메모리를 줄여주는 압축 기술이다.
일례로 구글 제미나이에 ‘내일 점심 장소를 추천해줘’라고 물어보면 AI는 과거 사용자의 대화에서 ‘낮 12시 명동’에서 점심 일정이 있다는 걸 기억한 뒤 관련 식당을 제안한다. AI는 이런 정보를 ‘임시 창고’인 키값(KV) 캐시에 저장해둔다. 대화가 길어지고 복잡해질수록 더 많은 창고가 필요해지고 메모리 수요는 늘어나는 구조다.
다만 이런 시장 반응이 과도하다는 지적도 나온다. 터보퀀트 기술이 상용화하기까진 시간이 필요하고 실제 작업 환경에서 이론 그대로 성능을 발휘할지 미지수여서다. 김정호 한국과학기술원(KAIST·카이스트) 교수는 “당장 메모리 수요 구조가 뒤집힐 것으로 보기는 어렵다”며 “HBM처럼 초고속 접근이 필요한 영역에 적용하기 쉽지 않을 것”이라고 내다봤다. HBM은 데이터 통로(대역폭)를 넓혀서 대량의 메모리를 퍼 나르는 데 특화된 반도체인 만큼, 터보퀀트로 데이터를 압축하고 푸는 시간이 더 걸릴 수 있다는 것이다.
김 교수는 “지난해 중국의 딥시크가 등장했을 때만 해도 시장이 크게 출렁거렸지만 지금은 이를 언급하는 경우가 많지 않다”며 “터보퀀트 역시 대세를 완전히 바꿀 수준까지 갈지 지켜봐야 한다”고 했다. 효율이 높아지면 비용이 낮아져 수요가 늘어나는 ‘제번스 역설’을 근거로 메모리 수요가 장기적으론 더 많아질 것이란 분석도 제기됐다.
AI 업계에선 터보퀀트가 안정적으로 상용화하면 서버 한 대로 더 길고 많은 대화를 처리할 수 있기 때문에 추론 단가가 낮아질 수 있다는 기대가 나온다. 스타트업이나 중견기업도 AI 추론 서비스를 싸게 돌리면 진입장벽이 낮아질 수 있다. 다만 터보퀀트가 학습·고성능 연산 수요를 줄여주진 않아 단기간에 저비용 구조로 전환하긴 어렵다는 의견도 있다.
AI 업계 관계자는 “터보퀀트는 추론 영역에서 효율성을 높여주는 기술로 AI 학습에 쓰이는 대규모 연산 수요와는 별개”라고 했다.