DALL·E : 흥미로운 OpenAI의 Text Based Image Rendering with AI

2022.06.23 / 23:30

달리(DALL. E)는 OpenAI에서 이미지 - 텍스트의 쌍으로 태깅된 데이터를 사용하여 GPT-3 Transformer Model을 사용하여 트레이닝된 **‘사용자가 입력한 텍스트 기반 고해상도 이미지를 렌더링’**하는 AI이다.

최근인 2022년 4월에 달리2(DALL. E 2)를 공개하면서 더욱 현실적이면서, 4배의 해상도를 가지게 되었다.

이름이 달리인 이유는 스페인의 초현실주의 작가인 Salvador Dali(살바도르 달리)의 영향인 것으로 보인다.

Untitled

위와 같이 그의 대표작인 **기억의 지속(La Prsistencia de la Memoria)**이나, 주변을 날아다니는 한 마리 꿀벌에 의해 야기된 꿈 같은 작품을 본 적이 있을지도 모른다.

어쩌면 현실을 넘어서서 초현실주의와 같은 이미지를 만드는 AI라는 부분에서는 좋은 네이밍인 것 같다.

아무튼, 텍스트를 컴퓨터가 그려준다니, 백문이 불여일견으로 결과물을 보는게 좋을 것 같다.

Untitled

위와 같이 Text의 Context를 토대로 이미지화시키는데, 상당히 우수한 성능을 보여준다.

레딧(Reddit)에서는 https://www.reddit.com/r/dalle2/ 이런 서브레딧도 생겼는데 들어가보면 꽤 재밌는 Try들이 많다.

이걸 보다보니 느끼는 점이 있는데..

이전 학부에서, 인간-컴퓨터 상호작용(HCI) 클래스에서, 위와 같은 서비스를 만들었던 사례가 있다. 벌써 이게 3년이나 지났다니… 시간은 빠르다. 아무튼, 약 2,500개 이상의 구문을 형태소에 따라 학습시키기 위하여 Google Dialogflow를 이용하였고, 이는 ‘한국어로 학습된 ML을 이용한 챗봇’이었다. 다만, 다른 부분이 있다면 이 한국어로 학습된 챗봇을 중역하여, 세계 150개국 이상의 언어를 지원하도록 하는 챗봇을 만든 적이 있는데… 여전히 재밌는 시도였다고 생각한다.

아래와 같이 허접하고 간단하게 그린 도식을 보면 이해가 빠를 것 같다.