본문 바로가기

위즈덤 프로젝트/인공지능(Ai)

멀티모달 Ai가 온다.

조만간 소개될 GPT-4는 현재 다들 많이들 경험한 챗GPT의 차기 버전이다. 그런데 이게 "멀티모달(multimodal)"이 될 가능성이 있다는 소문을 들었다. 아니나다를까, 트위터 등에서 관계자들이 암시하는 이야기들을 들어보면, 적어도 부분적으로, 그리고 초보적으로나마 이번에 뭐가 되기는 될 모양이다.

멀티모달, 그게 무슨 뜻이며, 뭐가 어떻게 얼마나 달라진다는 것일까. 생각난 김에 몇 자 적어본다.

텍스트뿐 아니라 음성, 이미지, 비디오 등 다양한 형태의 데이터를 복합적으로 이해하고 생성까지도 하는 Ai를 말한다. 사용자가 입력한 텍스트에 관련된 이미지나 비디오를 만들어주거나, 반대로 이미지나 비디오를 보고(?) 텍스트로 설명을 써줄 수도 있고 뭐 그렇다. 여기까지는 다들 안다.

그럼 이제부터 뭐가 달라지나?

Ai에게 사진을 보여주면서 "이런 비슷한 사진을 찾아줘" 정도는 요즘 기본이다. 그런데 앞으로는 "이 사진에 나오는 무언가를 다른 무언가로 바꿔줘. 배경은 지워주고." 등의 작업을 그냥 말씀만으로(?) 이룰 수 있다. 혹은 "이런 그림을 그려줘", "이런 영상을 찾아줘", "만들어줘", "합성해줘", "패러디 해줘", "영상에서 대사만 추출해서 텍스트로 저장해줘", "이 강의 영상에서 자막 뽑아서 3천 자로 요약해줘", "이 영상에 나오는 누군가를 이 사진 속의 얼굴로 대체한 뒤, 이러이러한 말을 하는 영상으로 만들어줘" 등의 온갖 요사스러운 짓이 다 가능해진다는 뜻이다.

* 물론 지금 말하는 것들이 GPT-4 버전에서 바로 될 것 같진 않지만, 멀티모달은 결국 그런 방향으로 발전해 나갈 것이다.  GPT-4 버전에서 그 가능성이 엿보일 것으로 관계자들은 기대하고 있다.

또, 기존에 '음성 인식'이나 '화상 인식'은 이미 우리에게 익숙하다. 음성 타이핑은 일상이 됐고, 화상을 이용한 자율주행도 상당한 수준까지 올라왔다. 그런데 듣는 것과 보는 것이 각각 따로 굴러가던 것에서, 이제는 하나의 Ai가 "보고 듣는" 것을 동시에 하겠다는 것이 멀티모달이다. 보는 놈과 듣는 놈이 따로 있고, 양쪽의 정보를 모아서 해석하는 놈이 또 따로 있던 기존 방식이 아니라, 이제는 머리 하나가 이걸 다 하는 것이다.

그런 Ai는 주위 상황을 종합적으로 파악, 해석할 수 있다. 예를 들어 얘가 아이폰 '시리'를 대체한다고 가정해보자. 사람의 의도를 훨~씬 정확하게 파악할 수 있다. 지금처럼 음성인식만으로 정해진 몇몇 대답만 소심하게 해주는 시리가 더 이상 아닐 것이다. 이를테면, 폰카로 뭔가를 비추면서, "야 이거 뭐야? 무서워.. 어떻게 하는 거야??"라고만 말해도 알아 먹고 도움을 주는 시리가 되어줄 거란 이야기이다. 

네, 그건 약병인데, 뚜껑을 누르면서 왼쪽으로 돌려야 열리도록 되어있어요.
어린이가 함부로 열 수 없도록 그렇게 만들어졌네요.


그게 다가 아니다. 음성, 사진, 비디오 외에도 숫자로 된 다른 데이터까지 함께 해석할 수 있는 것이 멀티모달의 개념이다. 그렇다면 '생체 데이터'가 붙으면 어떻게 될까? 많이들 팔목에 차고 있는 스마트워치의 정보가 멀티모달 Ai에 결합되면, 맥박이나 산소포화도 등을 채크하고 얼굴 표정을 읽고 목소리 떨림을 분석해서, '거짓말탐지기' 정도는 쉽게 만들 수 있다. 인간의 감정에 관련된 일들을 Ai가 상당한 신뢰도로 처리할 수 있게 된다는 뜻이다.

그 밖에도 상상력의 폭에 따라 뭐가 참 많을 것이다. 위치정보를 기반으로 수집 가능한 수치 데이터들은 이미 넘쳐난다. 온도, 습도, 고도, 미세먼지 데이터, 주위 소음, 진동 등이 화상정보와 함께 해석된다면 스마트폰은 주인이 지금 지하철인지, 등산 중인지, 병원에 누워있는지, 물에 빠졌는지, 위급한지 아닌지, 도서관에서 무음으로 바꾸는 걸 잊었는지, 지금 하는 말이 잠꼬대인지 진짜 명령인지, 반어법인지, 싸우고 있는지, 우울증인지 등을 구별할 수 있게 된다.

그런 Ai가 만약에 스마트폰이 아니라 안경에 붙으면 어떻게 될까? 작은 로봇 인형에 들어가면? 드론이라면? 혹은 인간형 로봇에 장착된다면?? 상상하기에 따라 훨씬 더 놀랍고 골 때리고 어처구니 없는 서비스 기획까지도 가능할 것이다.

당장에 올해, 아마도 이런 멀티모달을 적용한 초창기 서비스가 스마트폰 앱에서부터 구현되기 시작할 것인 바, 당최 우리가 사용할 마음의 준비는 됐는지 모르겠다. 어느 회사에서 뭐가 먼저 나올지는 모르겠으나, 챗GPT 그 이상의 관심을 단시간에 얻을 것은 분명하다. 멀티모달을 활용한 본격적인 서비스가 나오면 무슨 정보를 찾을 때 자연스럽게 "검색"을 해보는 것만큼이나, 아니 그보다도 더 자주 이용하는 서비스가 될 것이 거의 분명하다. 텍스트 기반의 챗GPT나 Bing 채팅이 그저 "와 신기하다, 이런 것도 되네?" 정도였다면, 앞으로 나올 서비스는 뭐가 하나씩 나올 때마다 '충격과 공포'로 다가올 것이다. 그리고 그날 이후 사람들의 라이프 스타일은, 이전과는 상당히, 솔찬히, 달라져있을 것이다.

뭔가 좀, 너무 아직 우리에게 뭐 정리된 게 별로 없는데 뭐가 너무 빠르게만 돌아가고 있는 듯해서, 마음 한 구석이 영 찝찝하다.

 

- - - 

3.14 업데이트: 결국 멀티모달임이 오피셜로 밝혀졌다. https://joyance.tistory.com/514

 

GPT-4 등등, Ai 모델들의 경쟁적인 출시 (2023.3.14)

MS의 새 서비스 "디자이너"가 베타테스터를 모집한다는 소식을 듣고 이메일로 신청했다. MS가 이번에 아주 작심을 했는지 이것 저것 닥치는 대로 출격시키는 중이다. 스터디 모임에 몇 시간 다녀

joyance.tistory.com