여러분은 혹시 안개 자욱한 아침, 멀리서 서서히 형태가 드러나는 풍경을 본 적이 있으신가요? 처음에는 그저 뿌연 회색빛 덩어리였는데, 어느 순간 나무의 실루엣이 보이고, 이내 잎사귀 하나하나의 디테일이 살아나는 그 묘한 순간 말이죠. 최근 우리가 마주하고 있는 이미지 생성 AI들의 작동 방식이 바로 이 장면과 놀라울 정도로 닮아 있습니다. 무(無)에서 유를 창조하는 것처럼 보이지만, 사실 그들은 아주 정교한 ‘거꾸로 가기’를 수행하고 있거든요.
파괴함으로써 배우는 역설적인 학습법
디퓨전 모델(Diffusion Model)의 핵심은 역설적이게도 ‘파괴’에 있습니다. 보통 무언가를 배우라고 하면 정답을 알려주기 마련인데, 이 모델은 정반대의 길을 택하죠. 아주 선명한 강아지 사진이 있다고 가정해 봅시다. 여기에 아주 조금씩, 아주 미세하게 노이즈(잡음)를 섞기 시작합니다. 처음에는 티가 나지 않지만, 이 과정을 수천 번 반복하면 결국 사진은 형체를 알아볼 수 없는 무작위한 점들의 집합, 즉 완전한 ‘노이즈’ 상태가 됩니다.
여기서 재미있는 점은 기계가 이 파괴 과정을 지켜보며 학습한다는 것입니다. “아, 이 단계에서 이런 노이즈가 추가되었구나”라는 것을 기억하는 것이죠. 깨끗한 상태에서 혼돈으로 가는 길을 완벽하게 익힌 기계는 이제 가장 어려운 숙제를 마주하게 됩니다. 바로 그 과정을 정확히 반대로 되돌리는 것입니다.
혼돈 속에서 질서를 찾아내는 역과정의 마법
이제 기계에게 아무 의미 없는 노이즈 덩어리를 던져줍니다. 그리고 속삭이죠. “여기서 아까 배웠던 그 노이즈를 조금만 걷어내 봐.” 그러면 모델은 자신이 학습한 데이터를 바탕으로 노이즈 속에 숨어 있을 법한 아주 희미한 패턴을 찾아내기 시작합니다. 픽셀 하나하나의 위치를 미세하게 조정하며 불필요한 잡음을 제거하는 과정을 반복하는 것이죠.
이 과정은 마치 조각가가 거친 바위 덩어리에서 불필요한 부분을 깎아내어 숨겨진 조각상을 찾아내는 것과 비슷합니다. 처음에는 그저 뿌연 구름 같던 이미지가 어느덧 윤곽을 잡고, 다시 디테일이 채워지며 우리가 원하는 구체적인 형상으로 변모합니다. 결국 디퓨전 모델이 이미지를 ‘생성’한다는 것은, 사실 혼돈 상태에서 질서를 복원해내는 정교한 역추적 과정이라고 할 수 있겠네요.
텍스트라는 나침반, 그리고 정교한 가이드
그런데 여기서 궁금증이 생기실 겁니다. 그냥 노이즈를 제거하면 무작위로 아무 그림이나 나오지 않을까요? 맞습니다. 그래서 우리에게는 ‘프롬프트’라는 나침반이 필요합니다. 우리가 “숲속의 작은 오두막”이라고 입력하는 순간, 모델은 노이즈를 제거하는 방향성을 설정합니다. 수많은 가능성의 경로 중에서 ‘오두막’과 ‘숲’이라는 특징을 가진 데이터의 분포 쪽으로 픽셀들을 유도하는 것이죠.
결국 기계는 우리가 준 단어를 이정표 삼아, 광활한 노이즈의 바다에서 가장 적절한 형태를 낚아 올리는 셈입니다. 텍스트가 가이드라인이 되고, 디퓨전 과정이 붓질이 되어 하나의 완성된 작품이 탄생하는 구조죠. 단순한 복제가 아니라, 학습한 수많은 이미지의 ‘특징’들을 조합해 새로운 배치를 만들어내기에 우리는 이를 ‘창조적’이라고 느끼게 되는 것 아닐까요?
기계의 꿈, 그리고 우리가 바라봐야 할 것
노이즈라는 완전한 무질서 속에서 정교한 형상을 찾아내는 이 과정은 마치 기계가 꾸는 ‘역방향의 꿈’처럼 느껴지기도 합니다. 우리는 이제 단 몇 줄의 문장으로 상상 속의 풍경을 현실의 이미지로 구현하는 시대에 살고 있습니다. 하지만 기술적인 정교함을 넘어, 한 번쯤 생각해 볼 지점이 있습니다.
기계가 걷어낸 것은 단순한 노이즈였을까요, 아니면 우리가 정의한 ‘정답’ 이외의 모든 가능성이었을까요? 무질서 속에서 질서를 찾아내는 이 마법 같은 과정이 우리의 상상력을 확장해주는 도구가 될지, 아니면 정해진 패턴 속에 우리를 가두는 틀이 될지는 결국 이 도구를 사용하는 우리의 관점에 달려 있을 것 같습니다. 여러분은 이 ‘거꾸로 가는 꿈’을 통해 어떤 세상을 그려내고 싶으신가요?