야구팬 학생의 체육시간 ‘필기’인 줄…현실을 압도하는 ‘가상’이 왔다

美 오픈AI, ‘챗GPT 이미지 2.0’ 공개
보는 순간 사람의 그림으로 착각하게
최대 10개 이미지 한 번에…제작 도구로

‘Baseball has a long and interesting history in Toronto that dates back well over a century(토론토에서 야구는 100년이 넘는 길고 흥미로운 역사를 가지고 있다)….’

 

누군가 갈겨 쓴 듯한 야구에 관한 영어 장문이 빛바랜 공책 위에서 눈에 띈다. 종이의 질감부터 잉크의 번짐까지 숨결이 느껴지는 이 이미지는 놀랍게도 실재하는 사물이 아니다. 미국 오픈AI가 새롭게 선보인 생성형 인공지능(AI) ‘챗GPT 이미지 2.0’이 만들어낸 가상의 결과물이다. 오픈AI 제공

 

누군가 갈겨 쓴 듯한 영어 장문이 빛바랜 공책 위에 적혔다. 언뜻 봐도 A4 용지 한 페이지는 족히 채울 법한 분량이다. ‘당시 캐나다에서 야구는 아직 생소한 스포츠였지만, 토론토는 금세 야구의 중심지로 떠올랐다’는 등의 후속 문장들로 미뤄볼 때, 누군가에게 보낸 편지라기보다는 강의 내용을 빼곡히 정리한 열혈 학생의 노트처럼 보인다.

 

종이의 질감부터 잉크의 번짐까지 숨결이 느껴지는 이 이미지는 놀랍게도 실재하는 사물이 아니다. 미국 오픈AI가 새롭게 선보인 생성형 인공지능(AI)이 만들어낸 가상의 결과물이다.

 

미국의 오픈AI가 22일 공개한 이미지들은 가짜라는 이질감을 넘어 누군가 실제 카메라를 들고 현장을 누비며 포착한 듯한 생동감을 전한다.

 

세련된 패션 잡지의 한 페이지를 그대로 옮겨놓은 듯한 구성, 빌딩 옥상에서 내려다본 복잡한 도심의 자동차 행렬, 한국의 고즈넉한 정취를 담아낸 한옥 숙소 소개 페이지까지 범위도 넓다. 특히 한국어로 자연스럽게 구현된 관광 명소 안내 이미지는 AI가 단순히 그림을 그리는 수준을 넘어 언어와 문화를 시각 매체 안에 조화롭게 녹여내고 있음을 보여준다.

 

혁신의 중심에는 오픈AI가 발표한 차세대 모델 ‘챗GPT 이미지 2.0(ChatGPT Images 2.0)’이 있다.

 

이번 모델은 AI 이미지를 단순한 유희나 참고용 자료에서 실무 제작 도구로 격상시켰다는 평가를 받는다. 가장 눈에 띄는 변화는 사용자의 세부 지시를 정밀하게 반영하는 능력이다. 과거 AI 모델들이 이미지 내 사물의 배치를 무작위로 결정하거나 복잡한 구도에서 오류를 범했던 것과 달리, 이번 모델은 사물 간의 상관관계와 위치를 정교하게 계산해 구성한다.

 

작은 글자나 아이콘, 사용자 인터페이스(UI) 요소처럼 아주 세밀한 레이아웃이 필요한 고난도 작업에서도 전문가 수준의 결과물을 내놓는다.

 

표현의 자유도 또한 극대화됐다. 최대 3:1에서 1:3에 이르는 광범위한 화면 비율을 지원해 사용자는 인스타그램용 정방형 이미지부터 영화 같은 시네마틱 뷰, 세로형 모바일 콘텐츠까지 제약 없이 생성할 수 있다.

 

사진, 만화, 유화, 영화적 기법 등 다양한 예술적 스타일을 정밀하게 재현할 수 있게 되면서 마케팅 소재나 교육용 인포그래픽, 소셜 콘텐츠 제작 현장에서 AI의 직접적인 투입이 가능해진 셈이다.

 

한국어로 자연스럽게 구현한 한옥 스테이 소개 이미지는 놀랍게도 실재하는 사물이 아니다. 미국 오픈AI가 새롭게 선보인 생성형 인공지능(AI) ‘챗GPT 이미지 2.0’이 만들어낸 가상의 결과물이다. 오픈AI 제공

 

무엇보다 고무적인 부분은 다국어 렌더링 성능의 비약적인 발전이다. 한국어를 포함해 일본어, 중국어, 힌디어, 벵골어 등 복잡한 자형을 가진 언어들도 이제 이미지 속에서 깨지지 않고 자연스럽게 구현된다.

 

한 번에 최대 10개의 이미지를 동시에 생성할 수 있는 기능은 포스터나 다이어그램처럼 일관성 있는 시각 자료가 필요한 제작자들에게 강력한 도구가 된다. 텍스트가 단순히 그림의 일부로 존재하는 것이 아니라 실제로 읽히고 소통되는 문자로 기능한다.

 

이번 업데이트의 백미는 오픈AI 최초로 도입된 ‘챗GPT 이미지 사고(thinking)’ 시스템이다. AI가 이미지를 그리기 전, 스스로 ‘사고’하는 과정을 거친다는 의미로 풀이된다. 사용자가 챗GPT에서 thinking 또는 pro 모델을 선택하면, AI는 단순히 명령어를 이미지로 변환하는 데 그치지 않고 웹 검색을 통해 관련 정보를 탐색하고 검증한다.

 

하나의 프롬프트를 바탕으로 여러 대안 이미지를 생성하는 것은 물론 결과물을 스스로 점검해 오류를 수정한다. 창의적인 아이디어를 단순한 시각화를 넘어 데이터에 기반한 논리적 결과물로 구체화하는 고도의 작업 프로세스를 지원한다.

 

‘챗GPT 이미지 2.0’은 챗GPT와 코덱스에서 사용할 수 있으며, ‘챗GPT 이미지 사고(thinking)’ 기반의 고급 출력 기능은 챗GPT Plus, Pro, Business 사용자에게 제공된다. 동일한 기반 모델인 ‘gpt-image-2’는 API를 통해 제공된다. 출력 품질과 해상도에 따라 가격이 달라지며, 2K를 초과하는 고해상도 출력은 현재 베타로 제공된다.