레프 마노비치 Lev Manovich
미디어 번역들
‘AI 미디어’를 생성하는 방법에는 여러 가지가 있다. 한 가지 방식은 동일한 매체 유형을 유지하면서 인간의 미디어 입력을 변형한다. 예를 들어, 사용자가 입력한 텍스트는 요약되거나, 다시 작성되거나, 확장될 수 있다. 이 경우 출력도 입력과 마찬가지로 텍스트다. 마찬가지로 이미지에서 이미지로의(image-to-image) 생성 방식에서는 하나 혹은 그 이상의 입력 이미지를 사용하여 새로운 이미지를 생성한다.
그러나 역사적·이론적 관점에서 볼 때, 또 다른 흥미로운 방식이 존재한다. ‘AI 미디어’는 미디어 유형 간의 자동 ‘번역(변환, translation)’을 통해 생성될 수도 있다. 예를 들어, 미드저니나 스테이블 디퓨전과 같은 AI 이미지 생성 도구에서 텍스트 프롬프트를 입력하면 AI가 하나 혹은 그 이상의 이미지를 생성하는 것이 이에 해당한다. 즉, 텍스트가 이미지로 ‘번역’되는 것이다.
이는 1:1의 문자적 번역이 아니므로 나는 ‘번역’이라는 표현을 따옴표로 강조했다. 대신, 하나의 미디어에서 입력된 정보가 AI 모델을 통해 다른 미디어에서 적절한 출력이 되도록 예측된 것이다. 이러한 입력은 다른 미디어에서 특정한 출력으로 ‘매핑’된다고도 할 수 있다. 텍스트는 새로운 스타일의 텍스트, 이미지, 애니메이션, 비디오, 3D 모델, 음악 등으로 매핑될 수 있다. 비디오는 3D 모델이나 애니메이션으로 변환되고, 이미지는 텍스트로 ‘번역’될 수도 있다. 현재 텍스트에서 이미지로의 (text-to-image) 번역 방법이 가장 발전했지만, 다른 형식도 결국 이를 따라잡을 것이다.
미디어 간 ‘번역’ 또는 ‘매핑(mapping)’은 새로운 개념이 아니다. 역사적으로 이러한 번역은 인간이 수작업으로 수행해왔으며, 종종 예술적 의도를 가지고 있었다. 예를 들어, 소설은 연극이나 영화로 각색되었고, 만화책은 TV 시리즈로 제작되었으며, 문학 작품(허구 또는 논픽션)은 삽화와 함께 출판되었다. 이러한 번역은 해당 미디어에 대한 전문적인 기술과 지식을 요구하는 문화적 행위였다. 오늘날, AI 모델 덕분에 이러한 번역 과정이 자동화되어 대규모로 실행될 수 있으며, 새로운 커뮤니케이션 방식이자 문화 창작 방식으로 자리 잡고 있다. 물론, 인간 창작팀이 소설을 영화로 예술적으로 각색하는 것과 AI가 소설의 텍스트에서 자동으로 비주얼을 생성하는 것은 동일한 일이 아니다. 하지만 비교적 단순한 경우에는 AI를 이용한 자동 미디어 변환이 효과적으로 작동할 수 있다. 과거에는 숙련된 예술적 작업이었던 것이 이제는 누구나 사용할 수 있는 기술적 기능이 되었다. 이러한 핵심적인 문화적 행위가 자동화되고 민주화됨에 따라, 우리는 그 과정에서 사라질지도 모를 요소들 예를 들어, 전문적인 기술, ‘깊이 있는 예술적 독창성’, ‘심층적 창의성’ 등을 아쉬워할 수도 있다. 그러나 이러한 상실은 일시적일 수도 있다. 예를 들어, ‘문화 AI(culture AI)’의 능력이 더욱 향상되어, 보다 독창적인 내용을 생성하고 맥락을 더 깊이 이해할 수 있게 된다면 말이다.
우리 사회의 대부분의 사람들이 최소한 한 가지 언어로 읽고 쓸 수 있기 때문에, 현재 가장 널리 사용되는 AI 기반 미디어 변환 방식은 텍스트를 다른 미디어로 변환하는 방법이다. 여기에는 텍스트에서 이미지로(text-to-image), 텍스트에서 애니메이션으로(text-to-animation), 텍스트에서 3D로(text-to-3D), 텍스트에서 음악으로(text-to-music) 모델 등이 포함된다. 이러한 AI 도구들은 누구나 사용할 수 있으며, 번역 소프트웨어를 활용하면 사용자가 모르는 언어로도 효과적인 프롬프트를 작성할 수 있다. 그러나 이러한 텍스트 중심의 변환 외에도, 전문 창작자들에게는 다양한 미디어 간의 매핑이 똑같이 흥미로울 수 있다. 역사적으로 미디어 유형 간의 변환은 지속적으로 주목받아 왔다. 그것들은 클럽에서 VJ들이 수행하는 비디오와 음악 간의 변환, 장편 문학 작품이 영화나 TV 시리즈로 각색되는 과정, 에칭과 같은 기법을 활용한 삽화 삽입 텍스트, 숫자를 이미지로 변환하는 디지털 아트, 회화를 묘사하는 텍스트(고대 그리스에서 시작된 ‘에크프라시스((ekphrasis))’ 전통), 소리와 색상의 매핑(특히 모더니즘 예술에서 인기 있었던 방식) 등등.
텍스트에 국한되지 않고 모든 유형의 미디어 간 매핑을 위한 AI 모델의 지속적인 개발은 매우 큰 가능성을 지니고 있다. 그렇기에 나는 좀 더 많은 도구들이 이를 성취할 수 있기를 희망한다. 이러한 기술이 더 발전한다면, 전문 예술가뿐만 아니라 다른 창작자들에게 유용한 도구가 될 것이다. 그러나 예술가로서 나는 미래의 ‘문화 AI’가, 예를 들어 피터 브룩(Peter Brook) 같은 아방가르드 연극 연출가들이 해석한 <햄릿>이나, 오스카 피싱거(Oskar Fischinger)의 음악과 시각적 대응 관계를 탐구한 추상 영화 같은 작품과 동일한 수준의 창의성을 구현할 것이라고 주장하는 것은 아니다. 새로운 미디어 매핑 AI 도구들이 우리의 상상력을 자극하고, 새로운 아이디어를 제공하며, 특정한 디자인의 수많은 변주를 탐색할 수 있도록 우리를 돕는 것만으로도 충분히 가치가 있다.
정형화된 것과 독특한 것
현대 인간의 창작 과정과 예측 기반 AI 생성 미디어의 과정은 유사하게 작동하는 것으로 보인다. AI 모델은 수십억 개의 이미지와 그에 대한 설명, 수조 개의 웹 페이지와 책 페이지 등과 같은 비정형적 문화 내용 모음을 학습 데이터로 사용한다. 신경망은 이러한 자료의 구성 요소 간의 연관성(예: 특정 단어들이 자주 함께 등장하는 패턴)뿐만 아니라, 공통적인 구조와 패턴을 학습한다. 이후, 훈련된 신경망은 이러한 구조, 패턴, 그리고 ‘문화 원자들(culture atoms)’을 활용하여 우리가 요청할 때 새로운 결과물을 만들어낸다. 우리의 요청에 따라, AI가 창조한 결과물은 기존의 것과 매우 유사할 수도 있고, 전혀 다를 수도 있다.
비슷하게, 인간의 삶 역시 ‘지도 학습(supervised learning)’과 ‘비지도 학습(unsupervised learning)’을 포함한 지속적인 문화적 훈련 과정이라 볼 수 있다. 우리는 예술과 예술사 수업을 듣고, 웹사이트, 동영상, 잡지, 전시 카탈로그를 보며, 박물관을 방문하고, 여행을 하면서 새로운 문화적 정보를 흡수한다. 그리고 우리가 스스로를 ‘프롬프트(prompt)’하여 새로운 문화적 산물을 만들어 내려 할 때, 우리의 생물학적 신경망(현재까지 개발된 어떤 AI 신경망보다도 훨씬 더 복잡한)은 지금까지 우리가 학습한 것을 바탕으로 그런 창작물을 만들어낸다. 여기에는 우리가 관찰해온 일반적인 패턴, 특정한 무언가를 만들기 위한 템플릿뿐만 아니라, 종종 기존 산물의 구체적인 일부가 포함된다. 즉, 우리의 창작물은 우리가 이전에 관찰한 산물의 정확한 복제물을 포함할 수도 있고, 우리가 학습한 황금 비율이나 보색의 사용 같은 템플릿을 이용해 새로운 것을 표현하기도 한다.
AI 이미지 생성 도구들은 종종 기본적으로 적용되는 ‘하우스 스타일(house style)’을 갖고 있다. (이는 실제로 미드저니 개발자들이 사용하는 용어다.) 사용자가 명시적으로 스타일을 지정하지 않으면, AI 도구는 기본적인 미적 스타일을 적용하여 이미지를 생성한다. ChatGPT, Anthropic의 Claude, Google Gemini, Microsoft Copilot과 같은 AI 봇들도 이미지 생성 기능을 갖추고 있으며, 각각 고유한 기본 스타일이 있다. 이러한 스타일은 버전이 변경될 때마다 달라질 수 있다.
기본 스타일에서 벗어나려면, 당신은 프롬프트에 매체의 특성, 조명 방식, 색감과 그림자, 또는 "~의 스타일로 in the style of" 뒤에 유명한 예술가, 일러스트레이터, 사진가, 패션 디자이너, 건축가의 이름을 추가하는 방식으로 구체적인 지시어를 포함해야 한다. 다음은 필자가 직접 작업한 예술 프로젝트에서 사용한 프롬프트의 예시이며, 이를 기반으로 미드저니가 생성한 이미지(2022~2023)이다. 특정 스타일적 특징을 정의하는 용어는 이탤릭체로 강조되었다. (" 거대한 나무 패널에 히에로니무스 보스(Hieronymus Bosch) 스타일로 그려짐, 밝은 파스텔 색감과 흰색 하이라이트, 23f 렌즈, 매우 세밀한 묘사", " 러시아 고등학생 두 명의 사진, 맑은 피부, 매우 부드러운 스튜디오 조명, 50mm 렌즈, 단색(모노크롬), 은빛 톤, 고품질, 초현실적")
생성형 AI(GenAI)는 이미 존재하는 수천 가지 미학과 스타일을 시뮬레이션할 수 있으며, 이들 사이를 보간(interpolate)하여 새로운 하이브리드 스타일을 만들어낼 수 있기 때문에, 이 측면에서 생성형 인공지능은 이 점에서 어떤 개별 인간 창작자보다 더 유능하다. 그러나 현재까지는 숙련되고 경험이 많은 인간 창작자들이 여전히 중요한 우위를 점하고 있다. 인간과 AI 모두 실재하거나 존재하지 않는 대상을 상상하고 재현할 수 있다. 그러나, AI 이미지 생성 모델은 현재로서는독창적인 내용, 세부적인 디테일, 그리고 독특한 미학을 구현하는 능력이 인간보다 부족하다. 달리 말해, 현재 시점에서는 높은 수준의 기술을 가진 인간 창작자가 만들어낼 수 있는 이미지 중 상당수는, 아직까지 최고의 AI 모델조차 동일한 수준으로 생성할 수 없는 것들이다.
이 맥락에서 ‘고유한(unique)’이란 특정 내용, 세부 사항, 또는 시각적 미학이 ‘이전에 한 번도 실현된 적이 없는’ 것을 의미한다. 하지만 나는 왜 ‘한 번도 실현된 적이 없는’이라는 단어를 따옴표로 강조했을까? 그것은 인류 역사에서 100% 완전히 새로운 문화적 산물은 존재하지 않기 때문이다. 우리는 언제나 어느 정도 유사한 요소나 세부 사항을 포함한 다른 예시를 찾아볼 수 있다. 따라서 좀 더 정확하게 말하면, "고유한 문화적 산물"이란 충분히 독창적인 세부 요소를 포함하여 기존의 모든 것과 비교했을 때 새롭고 차별화된 것으로 보이는 창작물을 의미한다.
AI 이미지 생성 도구들은 대중적으로 알려진 주제나 스타일을 기반으로 시각적 결과물을 생성하는 데 훨씬 더 능숙하다. 이것은 현재 AI 개발 단계에서 훈련 데이터로 사용되는 웹상의 자료들이 주로 이러한 대중적인 주제와 스타일로 이루어져 있기 때문이다. 그렇다면, AI에게 존재하지 않거나 희귀하거나 낯선 이미지를 생성해 달라고 요청하면 어떻게 반응할까? 2022년부터 2024년까지 최고의 AI 이미지 생성 도구들을 광범위하게 사용한 결과, 이러한 요청에 대한 AI의 반응 방식은 두 가지 중 하나(또는 둘 다)로 나타났다.
1) 생성된 결과물의 품질이 낮아진다.미적 완성도가 떨어지고, 오류가 발생하며, 생성된 장면이 일관성이 부족해진다.
2) 원하는 내용과 미적 요소를 더 일반적인 대체물로 바꿔버린다. 생성된 장면은 일관성이 있고, 인물과 얼굴의 해부학적 구조도 올바르며 구도도 흥미로울 수 있다. 하지만 결과적으로 이미지가 더 일반적이고 상투적인 요소들로 구성된다. 미적 요소들은 더욱 흔한 기준값으로 조정된다.
간단히 말해, AI 모델은 우리가 요청한 것과 다른 것을 만들어 내거나, 원하는 내용을 보다 정형화된 요소들로 구성하는 경향이 있다.(10)
인간과 인공지능의 이미지 제작 능력 사이에 존재하는 미학적이고, 내용적 간극은 어디서 비롯되는가? 인공 신경망을 훈련하는 과정에서는 훈련 데이터에서 가장 자주 등장하는 ‘문화적 원자’, 구조, 패턴들이 매우 잘 학습된다. 신경망의 ‘마음’속에서는 이러한 요소들이 더 큰 중요성을 얻게 된다. 반면, 훈련 데이터에서 드물게 등장하거나 한 번밖에 나타나지 않는 세부 요소나 구조들은 거의 학습되지 않거나, 아예 분석되지도 않는다. 이들은 AI가 학습한 인공 문화 우주에 진입하지 못한다. 따라서 우리가 AI에게 그것들을 합성해내라고 요청하면, AI는 그것을 수행할 수 없다.
그리고 이러한 이유로 인해, 미드저니, 스테이블 디퓨전, 레오나르도 AI, 런웨디ML과 같은 텍스트-이미지 변환 AI 도구들은 현재로서는 내 펜 드로잉 스타일(그림 5.07)에 맞춘 완전히 새로운 이미지를 생성하거나, 내 드로잉에 새로운 부분을 덧붙여 확장하거나, 특정 부분을 내 스타일에 맞게 새로운 내용으로 완벽히 대체하는 일을 수행할 수 없다(예: 내 드로잉의 디지털 사진을 대상으로 유용한 아웃페인팅이나 인페인팅을 수행하지 못한다).
그 대신, 이러한 AI 도구들은 내가 자주 그리는 것보다 훨씬 더 일반적인 형태의 대상들을 생성하거나, 모호하긴 하지만 흥미롭지 않은 이미지를 만들어낸다(그림 5.08 참조).
나는 내 드로잉에서 표현된 스타일과 세계관이 완전히 독창적이라고 주장하는 것은 아니다. 내 작품 역시 특정한 문화적 경험, 내가 관찰한 것들, 그리고 내가 주목한 것들의 결과물이다. 하지만 이 스타일이 흔하지 않기 때문에(즉, 예측하기 어려운 것이기 때문에), AI는 이를 시뮬레이션하는 데 어려움을 겪는다. 적어도, 내 드로잉을 추가 학습(fine-tuning)하지 않은 상태에서는 그렇다.
여기서 우리는 생성형 AI 도구를 사용하는 창작자들이 직면하는 핵심적인 장애물을 발견하게 된다. 이 문제는 AI 이미지 생성뿐만 아니라 모든 유형의 AI 생성 미디어에도 적용된다.
생성형 AI는 우리가 의도한 것보다 더 스테레오타입이거나 이상화된 미디어를 생성하는 경향이 있다.
이러한 문제는 내용의 구체적인 요소, 조명 방식, 명암 기법(크로스해칭 등), 분위기, 공간 구조, 3D 형태의 세부 사항 등 이미지의 다양한 요소에 영향을 미칠 수 있다. 때로는 이러한 문제를 즉시 인지할 수 있으며, 그럴 경우 사용자는 이를 수정하려 하거나 결과를 폐기할 수 있다. 그러나 많은 경우, 이러한 ‘대체(substitution)’는 너무 미묘하여 쉽게 감지되지 않는다. 이를 식별하려면 광범위한 관찰이 필요하며, 경우에 따라서는 수많은 이미지를 정량적으로 분석할 수 있는 컴퓨터 도구가 필요할 수도 있다.
즉, 최신 AI 생성 미디어 모델은 18세기 이후 통계학과 2010년대 후반부터 본격적으로 발전한 데이터 과학과 마찬가지로, 데이터에서 자주 등장하는 항목과 패턴을 잘 처리하지만, 드물거나 공통적이지 않은 요소에 대해서는 적절한 대응을 하지 못하는 경향이 있다. 우리는 AI 연구자들이 이 문제를 해결할 수 있기를 기대할 수 있지만, 이는 AI의 근본적인 한계 중 하나로 보이며, 그것이 단기간 내에 해결될 것이라고 기대하기는 어려운 것처럼 보인다.
주제와 스타일
예술에서 내용과 형식의 관계는 광범위하게 논의되고 이론화되었다. 이 짧은 섹션은 이러한 모든 논쟁에 참여하거나 모든 관련 이론들과 논의를 시작하려는 목적이 아니다. 대신, 나는 이러한 개념들이 AI의 ‘생성 문화’에서 어떻게 작용하는지 고려하고자 한다. 그러나 내용과 형식 대신, AI 연구 논문과 사용자 간의 온라인 대화에서 더 흔히 사용되는 다른 두 가지 용어인 주제와 스타일을 사용하려고 한다.
한 눈에 보기에는 AI 미디어 도구들이 주어진 재현의 주제와 스타일을 명확히 구별할 수 있는 것처럼 보인다. 예를 들어, 텍스트에서 이미지로의(text-to-image) 모델에서는 동일한 주제의 이미지를 셀 수 없이 많이 생성할 수 있다. 특정 예술가, 매체, 질료 및 예술 역사적 시기의 이름을 추가하는 것만으로도 동일한 주제를 이러한 참고사항에 맞게 다르게 표현할 수 있다. 포토샵 필터는 1990년대에 이미 주제와 스타일을 분리하기 시작했지만, AI 생성 미디어 도구들은 훨씬 더 능력 있다. 예를 들어, 프롬프트에서 "유화"를 지정하면, 생성된 이미지에서 시뮬레이션된 붓놀림이 그려진 물체에 따라 크기와 방향이 달라진다. AI 미디어 도구들은 이전의 필터들이 단순히 각 이미지 영역에 동일한 변환을 적용했던 것과 달리, 재현의 의미론을 ‘이해’하는 것처럼 보인다. 예를 들어, 내가 같은 프롬프트에 “말레비치의 그림”과 “보스의 그림”을 함께 사용했을 때, 미드저니는 말레비치와 같은 추상적인 형태와 보스의 대중적인 그림에서 볼 수 있는 많은 작은 인간 및 동물의 모습을 포함한 공간 이미지를 생성했으며, 이는 모두 원근법에 맞게 적절하게 크기가 조정되었다.
AI 도구는 종종 내가 텍스트 프롬프트에서 명시하지 않은 내용을 이미지에 추가하면서, 내가 요청한 내용을 표현하기도 한다. 이는 특히 "~의 스타일로" 또는 " ~에 의한" 앞에 유명한 시각 예술가나 사진작가의 이름을 추가할 때 자주 발생한다. 한 실험에서는 같은 프롬프트를 148번 사용하면서, 매번 다른 사진작가의 이름을 추가했다. 프롬프트의 주제는 대체로 같았으며, 빈 풍경에 몇 개의 건물, 도로, 전봇대와 수평선으로 뻗은 전선이 포함된 장면이었다. 때때로 사진작가의 이름을 추가해도 생성된 이미지에서 직관적으로 스타일을 나타내는 개념들, 예를 들면 대비, 원근법, 분위기와 같은 요소에는 큰 변화가 없었다. 하지만 가끔씩, 미드저니는 이미지의 내용을 수정하기도 했다. 예를 들어, 특정 사진작가의 유명한 작품에 특정 포즈를 취한 인간이 등장한다면, 그 사진작가는 때때로 그런 인물들을 내 사진에 추가했다. (말레비치와 보스처럼, 이 인물들은 풍경의 공간적 구성을 맞추기 위해 변형되었지, 기계적으로 복제되지는 않았다.) 또한, 미드저니는 유명한 사진작가가 가장 유명한 사진을 찍은 역사적 시기에 맞게 내 이미지의 내용을 변경하기도 했다.
나의 관찰에 따르면, 우리가 미드저니나 비슷한 도구에 특정 예술가의 스타일로 이미지를 만들어 달라고 요청하고, 그 주제가 그 예술가의 전형적인 주제와 관련이 있을 때, 결과물은 매우 성공적일 수 있다. 하지만 프롬프트의 주제와 해당 예술가의 이미지가 매우 다를 경우, 이 스타일로 주제를 "렌더링"하는 데 실패하는 경우가 많다.
"카스파르 다비드 프리드리히의 시든 작약꽃"라는 프롬프트를 미드저니에 입력하면, 생성된 이미지는 예술가의 스타일에서 중요한 특징들, 예를 들어 차가운 색조와 극적인 분위기 같은 요소들을 잘 시뮬레이션한다. 그러나 다른 방식에서는 생성된 이미지가 예술가의 스타일과 상당히 다르게 나타난다. 이 AI 이미지들에서의 선의 종류, 세부 묘사, 그리고 대칭적인 구도는 실제 프리드리히의 그림에서 절대 등장하지 않는다. 또한 AI는 종종 첫 번째 이미지의 오른쪽 상단 코너에 있는 바위 형성처럼 몇 가지 일반적인 객체를 삽입하기도 한다.
요약하자면, 현재의 AI 도구를 사용하여 주어진 특정 시각적 스타일을 성공적으로 시뮬레이션하려면, 당신이 표현하고자 했던 내용을 바꿔야 할 수도 있고, 또는 AI가 원하지 않는 세부요소를 삽입할 것이라는 사실을 받아들여야 할 수도 있다. 다시 말해, 모든 "주제"가 어떤 "스타일"에서 성공적으로 렌더링될 수 있는 것은 아니다. 그리고 AI가 정확히 무엇을 배울 수 있는지는 경우마다 다르다. 그러므로 AI는 종종 예술가의 스타일에서 일부 특징을 성공적으로 배우지만, 다른 특징은 배우지 못한다.
사실, AI 이미지 도구를 2년 동안 사용하고 다른 사람들이 생성한 무수한 이미지를 분석한 결과, 생성형 AI가 미학적으로 유사한 이미지들의 모음에서 "스타일"을 완벽하게 추출할 수 있다는 대중적인 생각은 맞지 않다는 것을 깨달았다. 대신, 훈련 과정에서 시각적 AI 모델은 주어진 예술가의 작품에서 시각적 특성 (즉, 우리가 흔히 "시각 언어"라고 부르는 것)과 그들 작품의 내용 사이의 연관성을 학습하는 것으로 보인다. (만약 주어진 작품이 완전히 추상적이지 않다면) 이는 스타일과 내용을 깔끔하게 분리할 수 있다는 생각 자체에 의문을 제기한다.
이러한 관찰들은 ‘내용’과 ‘스타일’ 개념 사이의 이분법적 대립을 복잡하게 만든다고 생각한다. 일부 예술가의 경우, AI는 그들의 작품 예시에서 적어도 일부 스타일의 측면을 추출하여 이를 다양한 유형의 내용에 적용할 수 있다. 때때로 주어진 예술가의 스타일에서 더 많은 측면을 배우고 새로운 생성에 사용할 수 있지만, 때때로 덜 배울 수도 있다. 그러나 다른 예술가들의 경우, 그들의 스타일과 내용은 분리할 수 없는 것처럼 보인다.
나에게 이러한 관찰과 성찰은 AI 생성 미디어와 같은 새로운 미디어 기술을 사용하고 그것들이 어떻게 작동하는지 배우는 가장 중요한 이유 중 하나이다. 물론, 실천하는 예술가이자 예술 이론가로서 나는 주제와 스타일 (혹은 내용과 형식) 간의 관계에 대해 오랫동안 고민해왔다. 그러나 내가 앞서 설명한 것과 같은 체계적인 실험을 수행할 수 있게 되면서, 새로운 아이디어가 떠오르기도 하고, 문화사의 흐름이나 우리가 익숙하게 여겨온 예술과 문화 이론들을 새로운 방식으로 되돌아볼 수 있게 되었다. (끝)
각주
(10) 예를 들어, 2022~2023년경 AI 모델은 손을 사실적으로 생성하려고 고군분투했다. 2024년이 되자 이는 해결되었지만, 내가 이 글을 쓰고 있는 현재에도 AI는 여전히 수십명의 완전히 사실적인 인물과 얼굴이 자세히 묘사된 매우 복잡한 구성을 생성해 내는 데에는 어려움을 겪고 있다. 숙련된 인간 예술가들은 그 일을 적어도 르네상스 시대부터 했다.
◀ 이전 글 보기 : 재현에서 예측으로: AI 이미지를 이론화하기(1/2)
※ Lev Manovich & Emanuele Arielli, Artificial Aesthetics: Generative AI, Art and Visual Media, https://manovich.net/index.php/projects/artificial-aesthetics, 2024 중 5장 'From Representation to Prediction: Theorizing the AI Image', pp. 75~99.
'번역 아카이브 > 마노비치: 재현에서 예측으로: AI 이미지를 이론화하기' 카테고리의 다른 글
재현에서 예측으로: AI 이미지를 이론화하기(1/2)-생성형 미디어와 데이터베이스 예술 (16) | 2025.05.18 |
---|