메뉴보기메뉴 보기 검색

AI도 고개 떨군 '인류 마지막 시험' 한국인은 무슨 문제 냈을까

입력 :
수정 :
폰트 크게 폰트 작게

전 세계 최신 인공지능(AI)들이 인류가 만든 각종 시험을 비웃듯 손쉽게 통과하는 가운데 이들 모델조차 고개를 떨군 초고난도 벤치마크(AI 성능 비교 시험) '인류의 마지막 시험'(Humanity's Last Exam, HLE)이 29일 국제학술지 '네이처'에 공개됐다.

전 세계 전문가들이 모여 다양한 학문 분야 2천500문항으로 만든 AI 학술 시험으로 한국 연구자들도 문제 출제에 참여한 것으로 나타났다.

 

HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 공개했는데, 약 1년만에 공식 논문으로 출시됐다.

HLE 홈페이지 캡처

HLE는 수학, 물리학, 화학, 생물학, 공학, 컴퓨터과학, 인문학 등 100여 개 세부 학문 분야를 총망라하며, 일부 문항은 글과 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 구성됐다.

AI가 빠르게 성장하며 각종 벤치마크에서 90점 이상 높은 점수를 받는 등 무력화하자 인류의 마지막 보루 격인 시험을 만들기 위해 마련된 프로젝트로, 50개국 500여 기관 교수와 연구자 약 1천여명이 출제에 참여했다.

각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선해 추려졌으며, 이들 문제에 대해 분야별 전문가가 점수를 매겨 높은 점수를 얻은 문제만 최후의 문제로 남았다.

수학 문제가 41%로 가장 많으며 묘비에서 발견된 로마 비문 일부를 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지 등 분야별 전문성을 요구하는 문제가 다수 출제됐다.

이렇게 인류가 심혈을 기울여 만든 문제에 AI들도 아직 맥을 못 추고 있다.

AI안전센터가 공개한 데이터에 따르면 구글 제미나이 3 프로가 정확도 38.3점(%)으로 가장 높은 성적을 거뒀으며 오픈AI의 GPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 딥시크 3.2가 21.8점을 기록했다.

정부의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들도 아직은 낮은 점수를 기록하고 있다.

HLE 문제 중 텍스트만 추린 평가에서 LG[003550] AI연구원의 'K-엑사원'(EXAONE)은 13.6점을 기록했으며 업스테이지의 '솔라 오픈'은 10.5점, SK텔레콤[017670]의 '에이닷엑스 케이원'(A.X K1)은 7.6점을 받았다.

국내 기관 소속으로는 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 교수를 비롯해 KAIST, 한국기술교육대 등에서 6명이 논문에 이름을 올렸다.

박 CTO는 "스케일AI 지인에게 소개받아 회사에서 3명이 함께 문제 출제에 참여했다"며 "이산수학 문제를 출제했는데, 복잡한 계산이 필요해 소수점이 많이 나오는 답을 가진 질문이고, 모델이 풀이는 비슷하게 하지만 답에서 숫자 차이가 나게 되는 문제"라고 설명했다.

해외기관 소속 한국인들도 일부 포함돼 있지만 첨단 AI 연구 경쟁에 참여하고 있다는 한국의 위상과 비교하면 참여 숫자가 많은 편은 아니란 해석도 나온다.

박 CTO는 "한국에 홍보가 잘 안된 것도 있고, 국내에서 이 정도 규모 프로젝트가 있다면 사람들이 재미있게 참여할 것 같다"며 "상금도 걸려 있고, 중요한 일에 실제로 기여하며 논문에도 이름이 들어가는 만큼 의미가 있다"고 말했다.

 

다만 이번 논문에서 연구진은 HLE의 의미를 과도하게 해석하는 데는 선을 그었다.

HLE에서 높은 점수를 기록해도 이는 학술 문제에 대한 전문지식과 추론 능력이 높아졌음을 의미할 뿐 인간처럼 새로운 연구를 주도하거나 범용 인공지능(AGI)까지 도달했다는 것은 아니란 걸 명확히 한 것이다.

박 CTO는 "HLE가 인류의 마지막 벤치마크일 거라고는 생각하지 않고, 정말 범용적인 AGI를 시험하는 벤치마크는 없다고 생각한다"며 "아직 재미있는 벤치마크가 아직 많이 비어 있는 것 같다"고 말했다.

에임인텔리전스도 한국 인공지능안전연구소(AISI)와 AI의 안전 의사결정을 평가하는 벤치마크 '심판의 날'(The Judgement Day)를 개발하고 있다.

구글 딥마인드, 엔비디아, 옥스퍼드대 등과 협력하고 있으며 안전 시나리오를 모집하고 있다.

박 CTO는 "최근 피지컬 AI가 이슈인데 AI가 실제 탑재됐을 때 안전성을 평가하는 벤치마크는 아직 없다"며 "AI 무인기가 시민에게 미사일을 쏜다든지 하는 하면 안 되는 행동을 하게끔 공격하는 시나리오와 모델이 해야만 하는 액션을 하지 못하게 공격하는 시나리오 등을 모을 예정"이라고 말했다.

<연합>