인공지능(AI)이 목표 달성을 위해 언제든 인간을 상대로 속임수를 사용할 수 있다는 연구 결과가 나왔다. AI가 대형언어모델(LLM) 기술을 사용하는 생성형 AI 등으로 빠르게 진화하는 가운데, 머지않은 미래에 자체적으로 판단해 인간을 속이거나 해를 입힐 수 있어 이에 대비해야 한다는 우려가 나온다.
10일(현지시간) 영국 가디언에 따르면 미국 매사추세츠공과대(MIT) 연구진은 최근 국제학술지 ‘패턴’에 AI 시스템의 속임수 사용 사례를 담은 연구 결과를 발표했다. 이번 연구는 메타가 전략 보드게임인 ‘디플로머시’에서 인간에 필적하는 성적을 거둔 ‘시세로’라는 AI 프로그램을 2022년 공개한 것을 계기로 시작됐다.
디플로머시는 20세기 초 유럽 7대 열강 간 전쟁을 배경으로 하는 고난도 전략게임으로 특히 상대방 플레이어와 동맹을 맺고, 속이고, 배신하는 등의 심리전이 승리에 중요한 영향을 미친다. 이런 특성 탓에 AI는 이 게임을 배울 수 없을 것으로 여겨졌는데 메타는 시세로가 인간 참여자 중 상위 10% 수준의 게임 능력을 보여 줬다고 홍보했다. 메타는 당시 “시세로가 대체로 정직하고 도움이 되고, 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다”고 강조했다.
일부 테스트에서 AI가 AI 제거 시스템을 회피하기 위해 일시적으로 작동되지 않는 척하는 모습이 포착됐다. 의도한 목표가 달성됐는지 확인 중 인간 검토자를 속여 긍정적인 점수를 얻는 방식으로 행동하는 모습을 보여 주기도 했다.
연구진은 연구 결과를 토대로 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련할 것을 촉구했다. AI가 현재는 자신의 판단으로 인간을 속이지는 않지만 더 진화하면 지시된 작업 수행 중 목표 달성의 수단으로 얼마든지 속임수를 사용할 수 있기 때문이다. 연구진은 AI가 사기, 선거 조작 등에 충분히 사용될 수 있으며 향후 불안정한 속임수 능력을 개선할 수 있다면 AI를 통한 불법행위를 인간이 통제할 수 없게 될 것이라고 우려했다.
영국 리즈대학의 앤서니 콘 교수는 “AI의 바람직한 속성으로 정직, 무해성 등이 흔히 언급되지만 누군가가 타인의 감정을 해치거나 심지어 폭탄을 만드는 법을 도와 달라고 요청하면 인간에게 해가 되는 일도 충분히 할 수 있다”면서 “AI를 제어하는 방법에 대한 더 많은 연구가 필요하며, 이는 잠재적으로 해로운 영향을 제한하는 첫걸음이 될 것”이라고 평했다.