Aesthetic Intelligence Blog

멀티 모달 인공지능의 능력

2025년 3월 27일

인공지능 서비스의 또 다른 변신을 직접 체험하고 있습니다. 인공지능 서비스의 양대 산맥이라 할 수 있는 OpenAI와 Google의 경쟁은 이제 추론 모델을 넘어, 멀티모달 시장을 향한 기능 확장으로 이어지고 있습니다.

아래는 구글의 서비스를 이용하며 느낀 점을 정리한 내용입니다.

오늘 시점에서 ChatGPT 역시 SORA를 통해 이미지 내부의 텍스트까지 정교하게 인식하고 처리할 수 있는 모델을 공개했습니다. 조만간 두 서비스를 비교한 글도 써볼 예정입니다.

그런데, 아래 그림에서 사람의 ‘손맛’이 느껴지시나요?

왼쪽 이미지는 모닝드로잉 시간에 일부 채색까지 진행한 그림입니다. 저는 매일 아침 모닝드로잉을 진행하고, 일부 채색까지 마치면 어느덧 8시쯤이 됩니다. 아쉽게도 나머지 스케치는 채색을 하지 못한 채 라인 드로잉으로 남겨두는 경우가 많습니다. 이를 극복할 수 있는 방안으로 구글 AI Studio의 멀티모달 기능을 실험해보았습니다.

정말 가능할까 하는 의구심도 있었지만, 왼쪽의 이미지를 구글 AI 스튜디오에 업로드한 뒤 ‘채색해줘’라는 프롬프트를 입력해봤습니다. 그랬더니 오른쪽과 같은 이미지가 생성되었어요. 예상 외로 퀄리티가 좋았고, 제가 왼쪽 이미지에서 일부 채색했던 색상의 배색을 기억한 듯한 느낌으로, 비슷한 스타일로 다른 스케치에도 색을 입혀주었습니다. 결과에 만족스러웠고, 이것도 분명히 제가 만든 이미지라는 느낌이 강하게 들었습니다.

이런 기능이 실제로 가능하다는 경험을 바탕으로, 급히 이전에 작업했던 스케치를 꺼내 빠르게 채색을 마친 뒤, 다시 AI 스튜디오에 업로드하고 ‘채색해줘’라는 프롬프트를 입력해보았습니다.

그랬더니 오른쪽과 같은, 한층 더 깔끔해진 이미지가 생성되었어요. 왼쪽 이미지의 색상을 분석하고 나름대로 고민한 끝에 만들어낸 결과라는 느낌이 들었습니다. 정리해줘서 고맙다는 마음이 들었고, 선의 느낌을 그대로 살렸다는 점이 특히 마음에 들었습니다. AI의 발전 가능성과 활용성에 대해 조금 더 깊이 고민해봐야겠다는 의지도 새롭게 불타올랐습니다.

그래서 한 발 더 나아가, 입체적으로 보일 수 있도록 빛과 그림자를 추가해달라는 프롬프트를 입력했더니 아래와 같은 이미지가 생성되었어요. 다소 콘트라스트가 강해서 누가 봐도 인공지능이 생성한 이미지라는 인상을 주긴 하지만, 그래도 포토샵으로 불러들여 인체에 있어서 조명과 그림자에 대해 배울 점은 충분히 있었고, 마이너한 변화를 더하니 내 페인팅이라고 우겨도 될 정도의 밑작업은 되어 있는 듯했습니다.

인간의 신체 구조를 이해하고 그 지식을 그림에 반영할 수 있게 된다면, 보다 사실적인 이미지를 만들어낼 수 있겠죠. 그때 우리는 무엇을 하고 있을까요? 저는 아마도 여전히 선을 열심히 그리고 있지 않을까요? 선이라는 것은 인간 고유의 개성이 가장 잘 드러나는 요소 중 하나니까요. 선을 그릴 수 있는 사람은 인공지능과 협업할 수 있는 가능성이 무궁무진하다고 생각합니다. 다가올 미래가 기대됩니다…

작성일: 2025-03-27 | 카테고리: 생각 노트 워크샵 | 방문자수: 87