日 대입시험서 챗GPT 9과목 ‘만점’…제미나이 꺾었다

입력 : 2026-01-20 11:07:45
수정 : 2026-01-20 11:07:44

구글 네이버 유튜브

15과목 시험서 GPT 5.2 정답률 97%
제미나이 3.0, 클로드 4.5는 각각 91%
“정밀성은 GPT, 속도는 제미나이·클로드”

한국의 대학수학능력시험에 해당하는 일본 대학입학공통테스트 문제를 최신 인공지능(AI) 모델에게 풀게 했더니 챗GPT가 더 높은 정답률을 기록한 것으로 나타났다.

니혼게이자이신문(닛케이)은 일본 AI스타트업 라이프프롬프트와 함께 오픈AI의 ‘GPT 5.2 싱킹’, 구글의 ‘제미나이 3.0 프로’, 앤트로픽의 ‘클로드 오퍼스 4.5’을 상대로 이 같은 실험을 한 결과 챗GPT의 정답률이 97%로 제미나이와 클로드(각각 91%)를 앞섰다고 20일 보도했다.

지난 17·18일 실시된 대학입학공통테스트 주요 15과목 문제를 제한 시간 내에 풀게 하는 방식으로 진행된 이번 실험에서 챗GPT는 수학 1 A, 수학 2 BC, 화학 등 9개 과목에서 만점을 받았다. 국어(일본어·90%), 지리종합·탐구(91%) 정답률이 다소 낮았으나, 일본사(97%)와 영어(96.5%) 등은 만점에 근접해 전체 평균 정답률은 97%였다.

오픈AI의 생성형 AI 모델은 일본 대학입학공통테스트 정답률이 2024년도 66%, 2025년도 91%에서 점점 상승해 데이터 학습량 증가에 따라 정밀도가 높아지고 있는 것으로 평가됐다.

제미나이는 물리(81%)와 지리종합·탐구(82%)에서, 클로드는 지리종합·탐구(72%)에서 각각 고전해 평균 정답률 91%를 나타냈다.

이들 세 AI 모델의 정답률은 일본 입시학원 가와이학원이 예상한 수험생 평균 60%보다는 크게 높았다.

다만 제미나이와 클로드가 최단 4분 만에 한 과목을 마쳤고 수학·일본어도 최장 20분이면 정답란을 채운 데 반해 챗GPT는 이보다 두세 배 긴 시간이 들었다고 닛케이는 전했다.

세 AI 모델은 공통적으로 이과 과목에서 강점을 나타냈고 일본어와 지리에서 고전하는 모습을 보였다. 특히 지리에서는 47개 도도부현(광역지방단체)의 색깔 구분, 그래프와 지도를 조합해 푸는 문제에서 약점을 드러냈다.

엔도 사토시 라이프프롬프트 최고경영자는 “높은 정밀도가 요구되는 재무, 법무 분야 업무 활용에는 오픈AI 모델을, 문서 요약 등 속도가 중요한 작업에는 구글과 앤트로픽 모델을 활용하는 등 업무 특성에 따라 구분해 사용하면 AI의 강점을 최대한으로 끌어낼 수 있다”고 말했다.

최근 제미나이 3.0이 호평을 받으며 AI 시장 판도를 흔들자 오픈AI가 GPT 5.2를 조기에 투입하며 반격에 나서는 등 AI 기술 경쟁이 격화하는 양상을 드러내고 있다.

유태영 기자

이슈 나우