‘하국가으날씨’. 네이버 검색창에 이렇게 치면 ‘한국가을날씨로 검색한 결과입니다’라며 청명한 하늘 사진이 자동으로 보여진다. 무심히 보아 넘길 수도 있는 이 기능 아래에는 최첨단 인공지능(AI)이 작동하고 있다. 네이버가 올해 5월 개발한 초거대 AI ‘하이퍼클로바’다.
검색어 정정은 없어도 그만인 간단한 기능처럼 보인다. 하지만 ‘하국가으’이 ‘한국가을’의 오타라고 일일이 배운 적이 없음에도 AI가 인간의 언어습관을 꿰뚫고 실수를 추론해 바로잡은 것은 그만큼 훌쩍 진화했음을 의미한다. 하이퍼클로바를 초거대 AI로 분류하는 이유다.
이런 배경에서 지난 5월 네이버의 하이퍼클로바가 나왔다. 국내 첫 초거대 AI였다. 하이퍼클로바의 매개변수는 2040억개로 GPT-3보다 한국어 데이터를 6500배 이상 학습했다. 하이퍼클로바 개발을 위해 5600억개 토큰(token)의 한국어 데이터가 구축됐다. 하이퍼클로바는 현재 검색어 정정 외에도 네이버 쇼핑에서 상품 이름을 보기 좋게 요약하고 구매자 리뷰를 핵심만 간추려 보여주는 일을 하고 있다. 쇼핑기획도 눈깜짝할 새에 해낸다. 사람처럼 주제를 골라 제목을 만들고 상품 선택까지 한다.
네이버에 이어 국내 기업도 속속 초거대 AI에 가세했다. 가장 공을 들이고 있는 곳은 LG다. LG는 올해 내에 6000억개 매개변수를 갖춘 초거대 AI를 공개할 예정이다. 문자뿐 아니라 이미지와 영상을 이해하고 데이터 추론까지 가능한 모델을 목표로 한다. 더 나아가 내년 상반기에는 조 단위 매개변수를 가진 AI도 개발할 예정이다. 이를 위해 LG는 AI 전담조직인 AI 연구원을 통해 향후 3년간 대규모 컴퓨팅 인프라 확보와 개발에 1억달러 이상을 투자할 계획이다.
KT는 한국전자통신연구원(ETRI)·KAIST·한양대와 ‘AI 원팀’을 구성해 초거대 AI를 개발한다. AI 원팀은 올해 말까지 1차로 초거대 AI의 학습을 완료하고, 내년 상반기에 모델을 상용화할 계획이다. 아울러 2000억개 매개변수 이상의 모델까지 가능하도록 인프라 규모를 확대할 예정이다.
SK텔레콤은 국립국어원과 손잡고 한국어에 최적화된 차세대 AI 언어모델 ‘GLM’을 개발 중이다. 1500억개 매개변수를 가졌으며, GPT-3과 비슷한 성능을 가진 한국어 범용 언어모델을 목표로 한다.
카카오 역시 카카오브레인, 카카오엔터프라이즈 등을 통해 초거대 AI 구축과 원천기술 연구를 진행 중이다.
초거대 AI의 성능을 평가하는 방법은 다양하다. 대표적으로는 AI의 독해·분류 능력을 보는 방식이 있다. 그러나 추론·창작을 할 수 있는 언어모델이다 보니 평가기준이 명확하지 않은 면이 있다.
◆민관 협력으로 초거대 AI 생태계 조성
정부도 초거대 AI 생태계 조성에 힘을 보태고 있다. 지난달 정부와 학계, 주요 기업 대표로 구성된 ‘인공지능 최고위 전략대화’가 첫 회의를 열고 출범했다. 이 기구는 ‘AI 선진국’보다 국내 자원이 부족한 상황에서 한 단계 도약하려면 민·관 협력이 필요하다는 판단에서 꾸려졌다.
정부는 AI 기술개발을 선도하기 위해 최고 연구진이 모인 ‘인공지능 혁신허브’를 출범시키고 2025년까지 445억원을 지원할 예정이다.
AI 기술경쟁이 가속화하는 한편에는 우려도 나오고 있다. 대표적으로 풀리지 않는 숙제는 AI가 기존의 편견·혐오를 고스란히 학습하는 현상이다.