글로벌 AI 주권 경쟁 치열… 한국어 모델 만들기 ‘분주’

기사입력 2021-10-17 21:00:00
기사수정 2021-10-17 19:33:16

국내기업들 기술경쟁 가세

머스크 오픈 AI 설립 2020년 GPT-3 공개
자율적 사고로 사람과 대화… 칼럼까지 써
네이버, 5월 국내 첫 하이퍼클로바 공개
GPT-3보다 한국어 6500배 이상 학습

LG, 2021년 6000억개 매개변수 AI 공개
KT, ETRI·KAIST·한양대와 원팀 연구
SKT, 국립국어원과 새언어모델 개발
정부도 연구진 출범… 생태계 조성 지원

미국 오픈 AI의 인공지능 '달리'는 '발레복을 입고 개를 산책시키는 아기 무'라는 문장을 보고 그림으로 표현하는 능력이 있다. 오픈AI 블로그

‘하국가으날씨’. 네이버 검색창에 이렇게 치면 ‘한국가을날씨로 검색한 결과입니다’라며 청명한 하늘 사진이 자동으로 보여진다. 무심히 보아 넘길 수도 있는 이 기능 아래에는 최첨단 인공지능(AI)이 작동하고 있다. 네이버가 올해 5월 개발한 초거대 AI ‘하이퍼클로바’다.

검색어 정정은 없어도 그만인 간단한 기능처럼 보인다. 하지만 ‘하국가으’이 ‘한국가을’의 오타라고 일일이 배운 적이 없음에도 AI가 인간의 언어습관을 꿰뚫고 실수를 추론해 바로잡은 것은 그만큼 훌쩍 진화했음을 의미한다. 하이퍼클로바를 초거대 AI로 분류하는 이유다.

세계적으로 초거대 AI 개발 경쟁이 거세지고 있다. 국내 기업도 ‘AI 주권’ 확보를 위해 속속 가세하고 있다. 지난 5월 네이버가 하이퍼클로바를 내놓은 것을 시작으로 LG, 카카오, 통신3사 등이 AI 지능 높이기 경쟁에 뛰어들었다.

◆AI 한 단계 진화… 세계 각국 기술경쟁

초거대 AI는 이름 그대로 월등히 큰 AI다. 시작은 일론 머스크가 설립한 오픈AI가 지난해 6월 내놓은 ‘GPT-3’였다. GPT-3은 공개되자마자 업계에 충격을 줬다. GPT-3의 매개변수는 전작보다 100배쯤 늘어 1750억개에 달했다. 매개변수는 컴퓨터프로그램의 함수에 입력되는 데이터들로, AI 모델의 크기를 나타낸다. 거칠게 말해 매개변수가 1750억개라면, AI가 1750억개 데이터를 고려해 함수를 푼 후 확률상 근사치를 내놓는다. 당연히 기존 AI보다 더 정교해지고 종합적·자율적으로 사고·학습할 수 있다.

GPT-3은 인간과 훨씬 자연스럽게 대화하고 소설·시는 물론 칼럼까지 써냈다. 네이버 클로바 컨버세이션팀 김형석 연구원은 “GPT-3은 모델 디테일도 차이가 있었지만 가장 큰 변화는 크기였다”며 “이에 대한 해석이 분분한 가운데 ‘하이퍼스케일(초거대) AI’라는 용어가 대두했다”고 설명했다. 이후 업계에서는 초거대 AI 경쟁이 불붙었다. 구글은 올해 1월 매개변수 1조6000억개의 언어모델을 내놓았고 중국은 이에 질세라 지난 6월 매개변수 1조7500억개를 가진 ‘우다오 2.0’을 선보였다. 마이크로소프트(MS)도 엔비디아와 손잡고 지난 11일 매개변수 5300억개의 AI를 개발했다.

◆AI 주권 확보 위해 국내 기업도 경쟁 가세

해외 기업의 초거대 AI는 영어·중국어 기반이라는 한계가 있다. 김 연구원은 “우리가 초거대 AI를 하지 않으면 다른 회사에 기댈 수밖에 없고 이는 곧 기술종속으로 이어진다”며 “우리가 주도권을 확보하고 한국어 고객에게 좋은 서비스를 제공하려면 한국어로 학습한 모델이 나와야 했다”고 설명했다.

네이버 초거대 AI인 하이퍼클로바가 만든 쇼핑기획전. 네이버 제공

이런 배경에서 지난 5월 네이버의 하이퍼클로바가 나왔다. 국내 첫 초거대 AI였다. 하이퍼클로바의 매개변수는 2040억개로 GPT-3보다 한국어 데이터를 6500배 이상 학습했다. 하이퍼클로바 개발을 위해 5600억개 토큰(token)의 한국어 데이터가 구축됐다. 하이퍼클로바는 현재 검색어 정정 외에도 네이버 쇼핑에서 상품 이름을 보기 좋게 요약하고 구매자 리뷰를 핵심만 간추려 보여주는 일을 하고 있다. 쇼핑기획도 눈깜짝할 새에 해낸다. 사람처럼 주제를 골라 제목을 만들고 상품 선택까지 한다.

네이버에 이어 국내 기업도 속속 초거대 AI에 가세했다. 가장 공을 들이고 있는 곳은 LG다. LG는 올해 내에 6000억개 매개변수를 갖춘 초거대 AI를 공개할 예정이다. 문자뿐 아니라 이미지와 영상을 이해하고 데이터 추론까지 가능한 모델을 목표로 한다. 더 나아가 내년 상반기에는 조 단위 매개변수를 가진 AI도 개발할 예정이다. 이를 위해 LG는 AI 전담조직인 AI 연구원을 통해 향후 3년간 대규모 컴퓨팅 인프라 확보와 개발에 1억달러 이상을 투자할 계획이다.

KT는 한국전자통신연구원(ETRI)·KAIST·한양대와 ‘AI 원팀’을 구성해 초거대 AI를 개발한다. AI 원팀은 올해 말까지 1차로 초거대 AI의 학습을 완료하고, 내년 상반기에 모델을 상용화할 계획이다. 아울러 2000억개 매개변수 이상의 모델까지 가능하도록 인프라 규모를 확대할 예정이다.

SK텔레콤은 국립국어원과 손잡고 한국어에 최적화된 차세대 AI 언어모델 ‘GLM’을 개발 중이다. 1500억개 매개변수를 가졌으며, GPT-3과 비슷한 성능을 가진 한국어 범용 언어모델을 목표로 한다.

카카오 역시 카카오브레인, 카카오엔터프라이즈 등을 통해 초거대 AI 구축과 원천기술 연구를 진행 중이다.

초거대 AI의 성능을 평가하는 방법은 다양하다. 대표적으로는 AI의 독해·분류 능력을 보는 방식이 있다. 그러나 추론·창작을 할 수 있는 언어모델이다 보니 평가기준이 명확하지 않은 면이 있다.

◆민관 협력으로 초거대 AI 생태계 조성

정부도 초거대 AI 생태계 조성에 힘을 보태고 있다. 지난달 정부와 학계, 주요 기업 대표로 구성된 ‘인공지능 최고위 전략대화’가 첫 회의를 열고 출범했다. 이 기구는 ‘AI 선진국’보다 국내 자원이 부족한 상황에서 한 단계 도약하려면 민·관 협력이 필요하다는 판단에서 꾸려졌다.

정부는 AI 기술개발을 선도하기 위해 최고 연구진이 모인 ‘인공지능 혁신허브’를 출범시키고 2025년까지 445억원을 지원할 예정이다.

AI 기술경쟁이 가속화하는 한편에는 우려도 나오고 있다. 대표적으로 풀리지 않는 숙제는 AI가 기존의 편견·혐오를 고스란히 학습하는 현상이다.