컨텐츠 바로가기

[Tech Talk] 어쩌다? 제너레이티브(Generative) AI


인공지능아, 나 대신 그림 숙제 해 줄래?


2022.06.14

현대카드·현대커머셜 뉴스룸의 모든 콘텐츠는
미디어에 활용하실 수 있습니다.
콘텐츠 활용 시에는 출처
(현대카드·현대커머셜 뉴스룸)표기를 부탁 드립니다.

현대카드∙현대커머셜 뉴스룸이 디지털, 테크 트렌드를 소개하는 ‘Tech Talk’ 시리즈를 선보입니다. 이번에는 글도 쓰고, 그림도 그리고, 사진도 만들어내는(?) 인공지능(AI)에 대해 이야기 합니다. 이른바 ‘창작 활동’을 하는 건데요. 이요훈 IT칼럼니스트가 소개하는 ‘제너레이티브 AI’의 세계를 들여다보시죠.




<출처 = https://openai.com/dall-e-2/>
인공지능 DALL E2가 그린 ‘An astronaut, riding a horse, in a photorealistic style’ 그림

아직 웹 3.0으로 넘어가지 못한 웹 2.0 시대, 글 쓰는 사람이 매일 아침 눈 뜨면서 하는 고민은 딱 하나다. ‘오늘은 뭘 쓰지?’ 이럴 땐 누가 ‘요즘 이런저런 아이템이 인기 있으니, 오늘은 A나 B 혹은 C 중에서 쓰면 어때요?’하고 제안하면 좋겠다.

글에 들어갈 이미지를 만들어 줄 사람은 없을까? ‘인공지능이 해변에서 글 쓰는 모습’하고 주문하면, 딱 그에 맞는 이미지를 그려주는 거다. 글만 쓰면 알아서 영상으로 만들어서, 적당한 BGM과 함께 유튜브에 올려주는 사람은 없을까? 그럼 정말 행복할 것 같은데.

황당한 이야기 같지만 이미 존재한다. 사람 대신 인공지능이 이런 일을 한다. 글도 대신 써주고, 그림도 대신 그려주고, 음악도 대신 작곡하고, 영상도 대신 만들어준다. 때론 설계나 디자인을 대신해 주기도 한다. 불완전한 부분이 많아서 사람이 마무리 작업을 해야 하지만, 초안을 잡거나 새로운 아이디어를 던져주는 역할로는 충분하다.

이렇게 우리가 요구하는 글이나 음악, 이미지 등을 만드는 인공지능을 제너레이티브 AI(Generative AI) 또는 생성 AI라고 부른다. 농담으로 짝퉁 제조기라고 설명할 때도 있다.

그렇다면 어쩌다가 글, 그림, 음악을 만들어주는 다재다능한 인공지능이 태어난 걸까? 알고 보면 꽤 역사가 길다. 최초의 컴퓨터 작곡 음악은 1957년에 발표된 ‘일리악 모음곡(Illiac Suite)’이다. 미국 일리노이 대학교 어바나 샴페인에서 보유하던 일리악 컴퓨터를 작곡하도록 프로그래밍해 쓴 곡이다. 그때 당시 처음으로 인공지능 붐이 일었기 때문이다.

컴퓨터가 쓴 최초의 시 ‘하우스 오브 더스트(House of Dust)’는 1967년에 시각 예술가 앨리슨 놀즈가 만들었다. 컴퓨터와는 관계없지만, 1950년대 중반 프랑스 예술가 장 팅겔리는 메타매틱스(Métamatics)라는 로봇 기계를 만들어 무작위 추상화를 그리기도 했다.

<출처=https://youtu.be/VxoqVvQeil0>
At the Kaplan Gallery, Jean Tinguely demonstrates his Meta-Matics machines which produce movement and create their own 'do it yourself' abstract art. 1959

예술가들이 많이 참여한 사실에서 알 수 있듯, 이 때 만들어진 것들은 대부분 실험작이다. 기계가 뭔가를 스스로 만들어 낸다는 아이디어는 흥미로웠지만, 기술 수준이 높지 않았다. 의도적으로 어떤 것을 창작했다고 하기 보다 그저 컴퓨터나 기계가 우연히 선택한 것을 주어진 규칙에 맞게 늘어 놓았다고 할까?

이때 등장한 아이디어는 나중에 컴퓨터 음악이나 디지털 시(詩), 그리고 컴퓨터 그래픽 등으로 계속 발전하긴 하지만, 창작을 돕는 도구이지 스스로 뭔가를 만드는 존재는 못됐다. 21세기, 새로운 인공지능 붐이 일어나기 전까지는.

딥드림, 페이스제너레이터∙∙∙AI가 만들어주는 당신의 ‘가짜’ 얼굴

<출처=https://www.youtube.com/watch?v=kSLJriaOumA>
Tero Karras, Progressive Growing of GAN for Improved Quality, Stability, and Variation

인공지능이 잘하는 건 뭘까? 기본적인 목표는 ‘사람처럼 생각하기’지만, 솔직히 지구 정복만큼이나 이루기 어려운 꿈이다. 요즘 인공지능이 잘하는 건 패턴 분석이다. 사람이 보고 듣고 이해하는 것처럼, 데이터를 잔뜩 넣으면 그걸 모아 스스로 분석해서 필요한 패턴을 찾는다.

보는 걸 잘하면 재활용 쓰레기에서 페트병과 캔을 구분할 수 있다. 분석을 잘하면 내일 우리 가게 예상 매출은 얼마일지를 말해 준다. 듣기를 잘하면 사람 목소리만 골라서 이해하거나, 번역할 수 있다.

21세기는 지난 세기와 크게 다르다. 먼저 인터넷과 스마트 기기가 널리 쓰이면서, 쉽게 빅데이터를 구할 수 있게 됐다. AI 프로그램을 실행하는 컴퓨터 성능도 크게 좋아졌다. 이 때문에 데이터만 넣으면 알아서 분석하는 머신러닝 기술을 쓰기 쉬워졌다. 여기에 더해 데이터가 적어도 스스로 공부해서 분석하는 딥러닝 기술까지 널리 쓰게 됐다.

제너레이티브 AI는 딥러닝에서 쓰는 방법의 일부다. 여러 자료에서 패턴을 추출한 다음 다른 곳에 응용하거나, 학습된 패턴을 이용해 이미지나 소리를 만들어 낸다. 최근에는 서로 다른 사물이나 글, 아이디어 사이의 관계를 추론하는 학습 모델도 쓰고 있다.

그렇다면 제너레이티브 AI는 어떤 곳에서 사용될까? 이미지 제작에서 가장 유명한 제품은 구글이 만든 딥드림(Deep Dream)이다. 2016년 샌프란시스코 미술 경매에서 딥드림이 그린 작품이 9만7000달러에 팔리면서 많이 알려졌다. 제너레이티브 AI를 이용해 그림을 그리는 기술로, 두 가지 이미지를 넣으면 합성해서 새로운 이미지로 만들어준다. 딥드림에 접속하면, 실제로 사용해 볼 수 있다.

딥드림 제너레이터로 편집한 사진 딥드림 제너레이터로 편집한 사진

딥드림 제너레이터로 편집한 사진

일본 이미지 네비에서는 IMAI 모델이란 서비스를 제공한다. 생성 AI를 통해 합성한, 세상에 없는 가상 인물 모델 사진을 제공하는 서비스다. 이를 통해 광고 모델과 계약하지 않고도, 사업에 필요한 광고 사진을 제작하는 일이 가능하다. 아래 사진에 등장하는 얼굴은 모두 합성된 얼굴이다. 실제 사람이 아니다. 제네레이티드 포토스에 접속하면 얼굴을 만들어 볼 수 있다.

<출처: IMAI MODEL>
AI가 만든 사람 얼굴

예전에 인기를 끌었던 내 얼굴 사진을 노인이나 어린이로 바꿔주는 앱도 여기에 속한다. 흑백 사진을 컬러로 바꿔주거나, 인물 사진을 만화 주인공처럼 바꿔주거나 하는 일도 가능하다. 그 밖에 저해상도 사진을 고해상도 사진으로 바꿔주거나, 얼굴을 딴 사람으로 바꾸는 딥페이크도 제너레이티브 AI가 쓰이는 곳이다.

이요훈 칼럼니스트의 흑백 사진을 컬러사진으로 변환한 사례 이요훈 칼럼니스트의 흑백 사진을 컬러사진으로 변환한 사례

이요훈 칼럼니스트의 흑백 사진을 컬러사진으로 변환한 사례

구글이 최근 발표한 글을 이미지로 바꿔주는 AI인 IMAGEN을 이용하면, 정말로 글만 쓰면 그에 맞는 그림을 그려준다.

<출처: IMAGEN 웹사이트 캡처>

이 밖에도 쓰이는 분야는 꽤 많다. 먼저 동영상 화질을 업스케일링 하는 복원 용도로 쓰이거나, 자동으로 동영상을 파악해 자막을 달아 주기도 한다. 글쓰기에서도 혁신이 가속화되고 있다. 오픈AI에서 발표한 GPT-3라는 인공 지능 자연어처리 모델을 이용하면, (비록 영어지만) 사람이 쓴 듯한 느낌의 언론 기사나 블로그 콘텐츠를 작성할 수 있다. 수많은 다른 언어로 쓰인 인터넷 글을 더 자연스럽게 번역할 수도 있다. 나중에는 말을 하면 간단한 앱을 만들 가능성도 보여줬다.

작곡은 어떨까? 불완전한 형태지만 AI가 작곡하거나 작사한 곡을 부르는 가수는 조금씩 늘고 있다. 가장 유명한 AI 작곡 플랫폼은 틱톡에 인수되었고, 앰퍼(amper)나 AIVA 같은 작곡 플랫폼은 이미 널리 쓰이고 있다. 유튜브 같은 플랫폼에 올릴 ‘저작권 걱정 없는’ 짧은 배경 음악 수요가 꽤 있는 탓이다.

한번 만들어진 음악을 간단히 팝 음악 스타일이나 재즈, 클래식 스타일 등으로 바꿀 수도 있다. AI가 합성한 연예인 목소리는 이미 여기저기서 들을 수 있다. 당장 유튜브만 둘러봐도 합성 목소리로 더빙된 영상이 하늘을 찌를 만큼 많다.

여기가 끝이 아니다. 제너레이티브 AI가 할 수 있는 일은 생각보다 더 많다. 엔비디아에서는 게임 속 가상 세계를 자동으로 생성할 수 있는 기술을 시연한 적이 있다.  이런 기술이 발전하면, 앞으로 게임이나 메타버스를 만들기가 더 쉬워진다. 영화 ‘매트릭스4’를 기반으로 한 데모 게임에서 이를 이용한 모습을 보여줬다.

앞으로 가장 활발하게 쓰일 분야 중 하나는, 가상 데이터 제작이다. 개인정보가 점점 더 민감하게 취급되는 상황에서, 실제 자료에 기초한 가상 데이터를 생성, AI가 학습할 자료로 쓰는 방법이다. 실제로 영국 금융행위청(Financial Conduct Authority∙FCA)에선 결제 부정행위 적발을 위해, 500만 개의 실제 결제 자료를 바탕으로 새로운 가장 결제 명세를 생성해 분석한 적이 있다.

제너레이티브 AI 채용하려고요? 아직은 인턴입니다

제너레이티브 AI는 인공지능이 실제로 어떻게 우리 사회에서 쓰이고 있고, 쓰게 될지를 보여준다. 여기까지만 보면 굉장히 대단한 것 같지만, 이쯤에서 미안한 이야기를 하나 하자. 대단하긴 한데, 많이 부족하다. 앞서 소개한 구글 IMAGEN을 보면, 하나같이 귀여운 이미지인 걸 볼 수 있다. 그동안 제너레이티브 AI가 만든 새로운 인물이나 회화가, 때론 사람들이 싫어할 이미지를 만들어 내서 그렇다. 기분 나쁜 감정의 골짜기를 건드렸달까.

음악도 마찬가지다. 얼핏 들으면 그럴듯한데 듣다 보면 모자란 부분이 몇 군데 있다. 텍스트는 말할 것도 없다. GPT-3가 등장하면서 많이 좋아졌지만, 아직 ‘사람’을 느낄 수 있는 글을 쓰진 못한다. 소설이나 대본은 말할 것도 없고.

초기 컴퓨터 예술은 기술적 한계로 인해, 컴퓨터를 제작 도구로 이용하는 선에서 머물렀다. 인공지능은 이를 한 단계 발전시켰지만, 아직 망치 같은 도구에서 어시스턴트가 되기 위해 노력하는 정도다. 아직 일을 배워야 하는 인턴이라고 생각하면 좋겠다.

다른 문제도 있다. 나쁜 놈들은 부지런해서, 인터넷 사기나 가짜 뉴스 배포, 성희롱, 해킹 사이트 등에 열심히 쓰고 있다. AI가 이런 콘텐츠를 만든 이유를 알기 어렵다는 문제도 있다. 기계가 스스로 학습하며 생성한 콘텐츠라서, 설명할 방법이 없다. 완전히 새로운 콘텐츠를 만들기 어렵기도 하다. 제너레이티브 AI는 결국 자신이 학습한 자료에 기반에 뭔가를 만들어 낸다.

부족한 점은 많지만, 이미 쓰이는 곳이 꽤 많다. 모든 것을 할 수는 없지만, 적당히 쓰려면 또 쓸 수 있는 탓이다. 그리고 기술이 발전할수록 점점 더 쓰는 곳이 많아질 것이다. 여전히 아침에 눈뜰 때, ‘오늘은 뭘 쓰지?’ 하는 고민을 해결할 수는 없겠지만.

이요훈 IT 칼럼니스트


이 콘텐츠를 평가해 주세요.

등록완료

맨 위로 가기