● 이 글은 「당신 인생의 이야기」의 작가인 테드 창(Ted Chiang)이 《뉴요커》에 기고한 에세이인 '왜 A.I.는 예술을 만들 수 없는가?'(Why A.I. can't Make Art?, The New Yorker, 2024. 08. 31.) 를 번역한 글입니다.
● 번역은 총 3회로 진행될 예정이며, 순서는
1. 왜 A.I.는 예술을 만들 수 없는가? ①
2. 왜 A.I.는 예술을 만들 수 없는가? ②
3. 테드 창의 논의에 대한 ChatGPT 의 반론
으로 진행됩니다.
※ 본 번역은 비상업적 목적의 연구 및 아카이브용으로 제작되었습니다.
왜 A.I.는 예술을 만들 수 없는가?
소설이나 회화를 창작하기 위해, 예술가는 인공지능에게는 본질적으로 낯선 방식의 선택을 해야 한다.
1953년, 로알드 달(Roald Dahl)은 「위대한 자동 문법기」(The Great Automatic Grammatizator)라는 단편소설을 발표했다. 주인공은 전기공학자로, 비밀스럽게 작가가 되기를 꿈꾼다. 어느 날, 세계에서 가장 빠른 계산기를 완성한 후, 그는 영어 문법이 “거의 수학처럼 엄격한 규칙에 의해 지배된다”는 사실을 깨닫는다. 그는 소설을 써내는 기계를 만든다. 이 기계는 30초 만에 5천 단어짜리 단편소설을 만들어내고, 소설 한 권은 15분이면 완성된다. 단, 유머와 감정의 정도를 조절하기 위해 핸들과 페달을 조작해야 한다. 마치 자동차를 운전하거나 오르간을 연주하는 것처럼. 이 소설들은 엄청난 인기를 끌었고, 1년 안에 영어로 출간되는 소설의 절반이 그의 기계로 만들어진 작품이 된다.
우리는 왜 예술이 단순히 버튼 하나를 누르는 것으로 만들어질 수 없다고 생각할까? 지금 이 순간, ChatGPT 같은 대형 언어 모델이 생성하는 소설은 형편없지만, 앞으로는 더 나아질 수 있다. 그렇다면 얼마나 좋아질 수 있을까? 계산기가 덧셈과 뺄셈에서는 인간보다 뛰어난 것처럼, 이 프로그램들도 소설을 쓰거나 회화나 영화를 만드는 데 인간보다 더 나아질 수 있을까?
예술은 정의하기 어려운 개념이며, 좋은 예술과 나쁜 예술의 차이도 마찬가지로 모호하다. 하지만 나는 하나의 일반화를 제안해보고 싶다. 예술은 수많은 ‘선택’의 결과라는 것이다. 이것은 소설을 예로 들면 가장 이해하기 쉬울 것이다. 소설을 쓸 때, 당신은 의식적으로든 무의식적으로든 거의 모든 단어에 대해 선택을 한다. 단순화해서 말하자면, 만 단어짜리 단편소설을 쓰기 위해서는 약 만 번의 선택이 필요하다고 할 수 있다. 반면, 생성형 A.I. 프로그램에 프롬프트를 입력할 때는 당신은 매우 적은 수의 선택만 한다. 예컨대 100단어짜리 프롬프트를 썼다면, 대략 100개 정도의 선택을 했다고 볼 수 있다.
만약 A.I.가 당신의 프롬프트를 바탕으로 만 단어짜리 이야기를 생성한다면, 그것은 당신이 만들지 않은 모든 선택들을 대신 채워 넣어야 한다. 이를 수행하는 방식에는 여러 가지가 있다. 하나는 인터넷에 존재하는 텍스트를 통해, 다른 작가들이 해온 선택들의 평균값을 따르는 것이다. 이 평균값은 가장 재미없는 선택들과 다르지 않으며, 그래서 A.I.가 만든 텍스트는 종종 매우 밋밋하게 느껴진다. 또 다른 방식은 특정 작가의 선택을 흉내 내도록 프로그램을 지시하는 것이다. 즉, 스타일을 모방하는 방식인데, 이는 대단히 파생적인 이야기를 만들어낸다. 둘 중에 어느 경우든 AI는 흥미로운 예술을 창조하지 못한다.
나는 이와 같은 원리가 시각 예술에도 적용된다고 생각한다. 물론 화가가 하는 선택들을 수량화하기는 훨씬 더 어렵지만 말이다. 진짜 회화 작품에는 방대한 수의 결정들이 담겨 있다. 그에 비해, DALL·E와 같은 텍스트-이미지 생성 프로그램을 사용하는 사람은 “갑옷을 입은 기사와 불을 뿜는 용과 싸운다” 같은 프롬프트를 입력하고, 나머지는 프로그램에 맡긴다. (가장 최신 버전의 DALL·E는 최대 4천 자의 프롬프트를 수용한다. 이는 수백 단어에 해당하지만, 장면의 모든 디테일을 설명하기에는 부족하다.) 결과값 이미지에 담긴 대부분의 선택은 결국 온라인에서 유사한 그림들을 참조하여 가져온 것이다. 이미지가 아무리 정교하게 그려졌더라도, 프롬프트를 입력한 사람이 그 정교함에 대한 공을 인정받을 수는 없다.
일부 평론가들은 이미지 생성기가 시각 문화를 바꿀 것이라 예측하는데, 이는 한때 사진이 등장했을 때와 마찬가지의 영향력을 가질 것이라 말한다. 이런 생각은 겉으로 보기에 그럴듯하지만, 사진과 생성형 A.I.가 비슷하다는 주장은 좀 더 면밀히 검토될 필요가 있다. 사진이 처음 개발되었을 때는, 선택할 것이 많지 않아 예술 매체처럼 보이지 않았을 가능성이 있다. 단순히 카메라를 설치하고 노출을 시작하면 되었기 때문이다. 그러나 시간이 지나면서 사람들은 카메라로 할 수 있는 것이 무궁무진하다는 것을 깨달았고, 사진의 예술성은 결국 수많은 선택 속에 있다는 사실을 알게 되었다. 구체적으로 어떤 선택들이 이루어졌는지 설명하기는 쉽지 않지만, 아마추어의 사진과 전문가의 사진을 비교해 보면 당신은 그 차이를 알 수 있을 것이다.
그렇다면 질문은 이것이다. 텍스트-이미지(text-to-image) 생성기를 사용할 때도 이와 비슷한, 방대한 수의 선택이 가능한가? 나는 “아니다”라고 생각한다. 예술가는 디지털이든 전통 회화든 수백 단어짜리 프롬프트로는 담을 수 없는 수많은 결정을 작품 과정에서 암묵적으로 내린다.
우리는 이렇게 상상해볼 수 있다. 텍스트-이미지 생성기가 수많은 세션을 거쳐 수만 단어에 이르는 텍스트 입력을 받아, 이미지에 대해 극도로 정교한 조절을 가능하게 해주는 경우다. 이는 마치 포토샵을 순전히 텍스트 기반 인터페이스로 사용하는 것과 유사할 것이다. 나는 그런 프로그램을 사용하는 사람이라면 여전히 예술가라 불릴 자격이 있다고 생각한다. 영화감독 베넷 밀러(Bennett Miller)는 DALL·E 2를 사용해 매우 인상적인 이미지를 생성했고, 그것들은 가고시안 갤러리(Gagosian Gallery)에 전시되었다. 그는 이를 위해 정교한 텍스트 프롬프트를 작성했고, DALL·E에게 생성된 이미지를 수차례 수정하고 조작하라고 지시했다. 그렇게 생성한 이미지가 십만 장이 넘었고, 그 중에서 갤러리에 전시된 이미지는 20장이었다. 하지만 그는 이후 버전의 DALL·E에서는 비슷한 결과를 얻지 못했다고 밝혔다. 내 생각에 이는 밀러가 DALL·E를 원래 의도된 방식이 아닌, 다른 방식으로 사용했기 때문일 수 있다. 마치 마이크로소프트 페인트를 해킹해서 포토샵처럼 작동하게 만들었는데, 새로운 페인트 버전이 나오자 그 해킹이 더 이상 통하지 않게 된 것과 같다. 오픈AI는 아마도 밀러처럼 사용하는 사람들을 위한 제품을 만들려는 게 아닐 것이다. 몇 달에 걸쳐 한 이미지를 만들기 위해 사용자가 고된 작업을 해야 하는 제품은 대중적으로 매력적이지 않기 때문이다. 오픈AI는 최소한의 노력으로 이미지를 생성해주는 제품을 만들고자 한다.
여러 세션에 걸쳐 당신이 좋은 소설을 쓰는 데 도움을 주는 프로그램은 상상하기조차 어렵다. 그런 가상의 프로그램은, 사용자가 십만 단어에 달하는 프롬프트를 입력해야만, 그와는 전혀 다른 새로운 십만 단어짜리 소설을 생성할 수 있을 것이다. 그런 프로그램이 구체적으로 어떻게 작동할지는 나로서는 잘 그려지지 않는다. 이론적으로 그런 프로그램이 존재한다면, 사용자는 작가로 불릴 자격이 있을 수도 있겠다. 그러나 다시 말하지만, 오픈AI와 같은 기업들은 사용자에게 소설을 처음부터 끝까지 쓰는 것과 맞먹는 노력을 요구하는 ChatGPT 버전을 만들고 싶어 하지 않을 것이다. 생성형 A.I.의 판매 포인트는, 사용자가 입력한 것보다 훨씬 더 많은 것을 생성해준다는 데 있다. 하지만 바로 그 점이, 이 프로그램들이 예술가들에게는 효과적인 도구가 되지 못하는 이유이기도 하다.
생성형 A.I.를 홍보하는 기업들은 이 기술이 창의성을 해방시킬 것이라고 주장한다. 본질적으로 그들은 예술이 ‘영감만 있고, 수고는 필요 없는’ 일이 될 수 있다고 말하는 셈이다. 하지만 이 둘은 그렇게 쉽게 분리될 수 없다. 내가 말하고자 하는 것은 예술이 반드시 지루하고 고된 과정이어야 한다는 뜻이 아니다. 예술이란 크고 작은 모든 층위에서 ‘선택’을 요구하는 행위이며, 창작 구상의 몇 가지 큰 선택만큼이나, 구현 과정에서 이루어지는 수많은 미세한 선택들도 최종 결과에 있어 결정적으로 중요하다는 것이다. 예술 창작에서 ‘대규모 선택’을 ‘중요한 선택’이라고 단순히 동일시하는 것은 잘못이다. 진정한 예술성은 크고 작은 선택들이 서로 맞물리는 그 관계 속에 존재한다.
나는 ‘영감이 모든 것을 압도한다’고 믿는 사람이 있다면, 그 사람은 그 매체를 제대로 이해하지 못하고 있다고 생각한다. 이것은 단순히 고급 예술을 창작할 때만 해당되는 이야기가 아니다. 오락적인 콘텐츠를 만드는 경우에도 마찬가지다. 사람들은 종종 ‘재미를 주는 일’에 얼마나 많은 노력이 필요한지 과소평가한다. 스릴러 소설이 카프카가 말한 “우리 안의 얼어붙은 바다를 깨뜨리는 도끼”처럼 심오한 작품은 아닐 수 있지만, 스위스 시계처럼 정밀하게 만들어질 수는 있다. 훌륭한 스릴러는 단순한 설정이나 줄거리만으로 완성되지 않는다. 그 안의 문장 하나하나가 중요하다. 스릴러 소설의 문장들을 의미상 동등한 다른 문장으로 바꾼다고 해도, 그렇게 만들어진 소설이 원래의 재미를 그대로 유지하기는 어렵다. 이것은 바로 문장들, 그리고 그 문장이 담고 있는 미세한 선택들이 스릴러의 완성도에 기여하고 있다는 증거다.
많은 소설가들은 멋진 아이디어가 있다며, 아이디어를 줄 테니 인세를 반씩 나누자고 제안하는 사람을 종종 만난다. 이런 사람들은 문장을 구성하는 일이 산문에서 이야기를 풀어가는 데 핵심적인 요소라기 보다는, 귀찮은 일에 불과하다고 여긴다는 사실을 무심코 드러내는 것이다. 생성형 A.I.는 어떤 매체에서 실제로 작업하지 않으면서도 그 매체를 통해 자신을 표현할 수 있다고 여기는 사람들에게 매력적으로 다가간다. 반면 전통적인 소설, 회화, 영화의 창작자들은 각 매체가 지닌 고유한 표현 가능성에 이끌려 그 예술 형식에 몸을 담는다. 그리고 바로 그 표현 가능성을 최대한 발휘하고자 하는 열망이, 그들의 작업을 예술이든 오락이든 간에 의미 있게 만드는 것이다.
물론 대부분의 글—기사든, 보고서든, 이메일이든—수천 번의 선택이 담긴 작품처럼 읽히길 기대하지 않는다. 그렇다면 이런 경우에 자동화를 하는 것이 무슨 해로움이 있을까? 나는 또 하나의 일반화를 제시하고 싶다. 독자로서 당신의 주의를 받을 만한 모든 글은, 그것을 쓴 사람이 기울인 노력의 결과물이다. 글을 쓰는 과정에서의 노력이 그 글을 읽을 가치가 있게 만든다고 보장할 수는 없지만, 가치 있는 글은 그런 노력이 없다면 결코 만들어질 수 없다. 우리가 친구에게 보내는 개인 이메일을 읽을 때와, 업무 보고서를 읽을 때의 ‘주의의 형태’는 다르지만, 두 경우 모두 글쓴이가 어느 정도 고민을 담았을 때에만 그 글에 주의를 기울일 이유가 생긴다.
최근 구글은 파리 올림픽 중에 자사의 GPT-4 경쟁 모델인 제미나이(Gemini)를 홍보하는 광고를 방영했다. 광고 속에서 한 아버지는 딸이 감명받은 올림픽 선수에게 팬레터를 쓰는 데 도움을 주기 위해 제미나이를 사용한다. 이 광고는 방영 이후 시청자들의 큰 반발을 불러일으켰고, 결국 구글은 광고를 철회했다. 한 미디어학 교수는 이 광고를 “내가 본 것 중 가장 소름 끼치는 광고 중 하나”라고 평했다. 흥미로운 점은, 이 사례에서 제미나이가 대체한 능력이 예술적 창의성도 아니었다는 점이다. 누구도 어린아이의 팬레터가 특별할 것이라 기대하지 않는다. 만약 그 소녀가 직접 썼다면, 수많은 다른 팬레터들과 별반 다르지 않았을 것이다. 하지만 팬레터의 의미는—그것을 쓰는 아이에게나 그것을 받는 운동선수에게나—그 표현이 유창하거나 문학적이어서가 아니라, 진심에서 비롯되었기 때문에 발생한다.
우리 대부분은 시중에서 구매한 인사카드를 누군가에게 보낸 경험이 있다. 우리는 상대도 그 문장을 우리가 직접 쓴 것이 아니라는 걸 알 거라는 전제로 카드를 보낸다. 하지만 같은 문장을 우리 손으로 베껴 쓴다면, 어딘가 부정직하다고 느껴질 것이다. 프로그래머 사이먼 윌리슨(Simon Willison)은 대형 언어 모델의 훈련 방식을 “저작권이 있는 데이터를 돈세탁하듯 사용하는 것”이라고 표현했는데, 나는 이것이 생성형 A.I. 프로그램의 매력을 설명하는 데 유용한 비유라고 생각한다. 이 프로그램은 우리가 일종의 표절을 하게 하면서도, 스스로 그것이 복사인지조차 명확하지 않기 때문에 죄책감을 느끼지 않게 만든다.
어떤 사람들은 대형 언어 모델이 훈련 데이터를 ‘세탁’하는 것이 아니라, 인간 작가들이 책을 통해 배운 것처럼 단순히 ‘학습’하는 것뿐이라고 주장한다. 하지만 언어 모델은 작가가 아니다. 그것은 심지어 언어의 ‘사용자’조차 아니다. 언어는 본질적으로 소통의 수단이며, 의도를 전제로 한다.(※) 당신의 휴대폰 자동완성 기능이 괜찮은 제안을 하든, 엉뚱한 제안을 하든, 그것은 당신이나 상대방에게 무언가를 말하려는 ‘의도’가 있는 것은 아니다. ChatGPT가 문법적으로 그럴듯한 문장을 생성한다고 해서, 그것이 언어를 이해한다고 착각해서는 안 된다. 그것은 휴대폰 자동완성과 마찬가지로, 소통하려는 의도를 가진 존재가 아니다.
ChatGPT에게 “I am happy to see you.” 같은 문장을 출력하게 하는 것은 아주 쉽다. 우리는 대형 언어 모델이 정확히 어떻게 작동하는지에 대해 많은 것을 알지 못하지만, 한 가지 확실한 것은 ChatGPT는 당신을 만나서 기뻐하지 않는다는 사실이다. 개나 언어 이전 단계의 유아는 비록 언어를 사용하지 못해도 당신을 만나 반가워할 수 있다. 반면 ChatGPT는 아무런 감정을 느끼지 않고, 아무것도 바라는 것이 없다. 바로 이 의도의 부재 때문에, ChatGPT는 실제로 ‘언어’를 사용하고 있다고 할 수 없다. “I’m happy to see you”라는 문장이 언어적 발화가 되는 이유는, 그것이 문법적으로 올바른 단어들의 조합이기 때문이 아니라, 누군가가 그 말을 통해 무언가를 전달하려는 의도를 가졌기 때문이다.
언어가 우리에게 너무도 자연스럽게 주어지다 보니, 우리는 그것이 주관적인 감정과 그 감정을 전달하려는 욕구 같은 경험들 위에 놓여 있다는 사실을 쉽게 잊곤 한다. 우리는 언어 모델이 문장을 그럴듯하게 출력할 때, 거기에 감정이나 의도가 있다고 착각하기 쉽다. 하지만 이것은 ‘모방’이라는 함정에 빠지는 것이다. 이는 마치 나비가 날개에 커다란 어두운 반점을 지니고 있어, 새로 하여금 그것을 맹수의 눈으로 착각하게 만드는 것과 같은 현상이다. 물론 이 반점은 특정 맥락에서는 효과가 있다. 새는 커다란 검은 반점을 가진 나비를 공격할 가능성이 적고, 나비는 그 이유가 무엇이든 살아남기만 하면 된다. 하지만 진짜 위협이 되는 맹수와, 그 맹수를 흉내 내는 나비 사이에는 엄청난 차이가 있다.
생성형 A.I.를 활용해 글을 쓰는 사람은, 자신이 언어 모델이 학습한 텍스트로부터 영감을 받았다고 주장할 수 있다. 하지만 나는 이것이 우리가 보통 말하는 ‘작가가 다른 작가로부터 영감을 받는다’는 의미와는 다르다고 본다. 예를 들어 어떤 대학생이 다섯 페이지짜리 과제물에 한 권의 책에서 인용한 다섯 페이지를 그대로 제출하며, “이 인용문이 내가 말하고자 했던 것을 나보다 훨씬 잘 표현했다”고 말한다고 해보자. 이 학생이 교수에게 이 사실을 솔직하게 밝힌다 해도, 그녀가 그 책으로부터 ‘영감을 받았다’고 말할 수는 없을 것이다. 거대 언어 모델이 그 인용문을 바꿔서 원본 출처를 알아볼 수 없게 만든다고 해도, 이 상황의 본질은 달라지지 않는다.
언어학자 에밀리 M. 벤더(Emily M. Bender)는 이렇게 말한 바 있다. 교사가 학생에게 에세이를 쓰게 하는 이유는, 세상이 더 많은 학생 에세이를 필요로 해서가 아니다. 에세이를 쓰는 목적은, 학생들의 비판적 사고 능력을 기르는 데 있다. 이는 마치 어떤 운동을 하든 근력 운동이 도움이 되는 것처럼, 글쓰기가 학생이 미래에 어떤 직업을 갖든 필요한 기술(skills)을 길러주기 때문이다. 그런 점에서 ChatGPT를 활용해 과제를 완성하는 것은, 체육관에 지게차를 몰고 들어오는 것과 같다. 그렇게 해서는 결코 당신의 인지적 체력은 향상될 수 없다.
모든 글이 창의적이거나, 진심이 담겨 있거나, 심지어 특별히 훌륭할 필요는 없다. 때로는 단지 존재해야만 하는 글도 있다. 그런 글은 광고 수익을 위해 조회수를 유도하거나, 행정적 요건을 충족시키는 등 다른 목적을 위한 수단일 수 있다. 사람들이 그런 글을 작성해야 할 때, 그 과정을 빠르게 끝내려고 어떤 도구를 사용하는 것을 탓하기는 어렵다. 하지만 최소한의 노력만으로 만들어진 문서가 더 많아지는 것이 과연 세상에 좋은 일일까? 우리가 거대 언어 모델을 사용하지 않는다고 해서, 질 낮은 텍스트를 생산해야 하는 요구 자체가 사라질 것이라고 주장하는 것은 비현실적이다. 그러나 이런 요구들을 채우기 위해 A.I.를 사용할수록, 오히려 그러한 요구는 점점 더 늘어나게 될 것이라는 점은 거의 불가피하다. 우리는 지금 누군가가 글머리표 몇 개를 기반으로 문서를 생성형 A.I.로 만들어 보내고, 그 문서를 받은 사람이 또 A.I.를 이용해 요약해 다시 글머리표로 만드는 시대에 진입하고 있다. 이것을 과연 ‘진보(improvement)’라고 진지하게 주장할 수 있는 사람이 있을까?
언젠가 컴퓨터 프로그램이 인간이 할 수 있는 모든 일을 할 수 있게 될 날이 올지도 모른다. 하지만 A.I.를 홍보하는 기업들의 주장과는 달리, 그것은 적어도 가까운 몇 년 안에는 실현되지 않을 것이다. 창의성과는 전혀 관계없는 영역에서도, 현재의 A.I. 프로그램들은 심각한 한계를 가지고 있으며, 우리는 그것들이 ‘지능적(intelligent)’이라고 불릴 자격이 있는지 의심할 정당한 이유가 있다.
컴퓨터 과학자 프랑수아 숄레(François Chollet)는 다음과 같은 구분을 제안한 바 있다. ‘기술(skill)은 어떤 작업을 얼마나 잘 수행하느냐를 뜻하고, 지능(intelligence)은 새로운 기술을 얼마나 효율적으로 배우느냐’를 의미한다. 나는 이 정의가 인간에 대한 우리의 직관(intuitions)을 잘 반영한다고 생각한다. 대부분의 사람은 충분한 연습만 있다면 새로운 기술을 배울 수 있다. 그러나 그 기술을 더 빠르게 익히는 사람일수록 우리는 그 사람이 더 ‘똑똑하다’고 판단한다. 이 정의의 흥미로운 점은, I.Q. 테스트와는 달리 인간이 아닌 존재에게도 똑같이 적용할 수 있다는 것이다. 예를 들어, 개가 어떤 재주를 빠르게 배운다면, 우리는 그것을 지능의 신호로 간주한다. (2부에 계속)
(※) 의도 intention 의 번역에 관해: intention 은 현상학적 의미로는 '지향'으로, 일상적 의미로는 '의도'로 번역된다. 의식은 항상 '무엇에 대해' 향해 있다는 대상 지향적인 의미를 우선 고려하면 '지향'으로, 어떤 목적이나 목표를 가지고 무언가를 하려는 마음을 의미하면 '의도'로 번역된다. 테드 창의 글에서 'intention'은 두 가지 의미를 모두 포함한다.
'번역 아카이브 > 테드 창: AI와 예술' 카테고리의 다른 글
[테드 창 번역] 테드 창의 논의에 대한 ChatGPT 의 반론 (3/3) (0) | 2025.04.22 |
---|---|
[테드 창 번역]-왜 A.I.는 예술을 만들 수 없는가(2/3): 예술의 의미 (0) | 2025.04.22 |