멀티모달
텍스트뿐 아니라 이미지, 음성, 영상 등 여러 종류의 정보를 동시에 입력받거나 출력할 수 있는 AI의 능력.
쉽게 말하면
사진을 찍어서 AI에게 보여준 뒤 “이게 뭔가요?”라고 물어보신 적 있으신가요? 아니면 음성으로 AI와 대화해보셨거나, 텍스트로 설명하면 그림을 그려주는 서비스를 써보셨을 수도 있습니다. 이게 다 멀티모달이 가능해서 생긴 일입니다.
초기 AI는 텍스트만 읽고 텍스트만 뱉었습니다. 마치 타이핑으로만 소통할 수 있는 사람처럼요. 멀티모달은 그 사람에게 눈과 귀와 목소리를 함께 주는 것과 비슷합니다. 텍스트 한 가지 감각만 있을 때와, 텍스트에 이미지를 더하면 세상을 파악하는 방식 자체가 달라집니다.
좀 더 정확히
“모달(modal)“은 정보의 형태를 뜻합니다. 텍스트, 이미지, 오디오, 영상이 각각 하나의 모달이고, 이 여러 모달을 함께 다룰 수 있으면 멀티모달이라 부릅니다.
멀티모달 AI가 할 수 있는 일의 예시입니다.
- 사진을 보여주고 설명을 요청 (이미지 입력 → 텍스트 출력)
- 텍스트로 이미지 생성 요청 (텍스트 입력 → 이미지 출력)
- 음성으로 질문하면 음성으로 답변 (오디오 입력 → 오디오 출력)
- 영수증 사진을 찍어 금액 합계 계산 요청 (이미지 입력 → 텍스트 출력)
- 영상 속 장면을 설명하거나 자막 생성 (영상 입력 → 텍스트 출력)
ChatGPT(OpenAI), Gemini(Google)는 멀티모달을 핵심 기능으로 내세우는 대표적인 서비스입니다. Claude 역시 이미지 이해 기능을 제공합니다. 미드저니나 DALL-E처럼 텍스트에서 이미지를 만드는 것도 멀티모달의 한 형태입니다.
중요한 점은, 모달이 늘어난다고 해서 AI의 기본 작동 원리가 달라지는 건 아닙니다. 이미지나 음성도 결국 숫자로 변환되어(벡터화) 처리됩니다. 다양한 형태의 정보를 같은 방식으로 다룰 수 있게 모델을 설계하고 학습시킨 결과입니다.
이걸 왜 알아야 하나요?
우리가 실생활에서 정보를 주고받는 방식을 생각해보면, 텍스트만 쓰는 경우는 많지 않습니다. 식당에서 메뉴판 사진을 찍어 번역을 물어보거나, 아이 숙제 사진을 보여주고 도움을 요청하거나, 피부 트러블 사진으로 조언을 구하거나. 이런 일이 이제 AI로 가능해졌습니다.
멀티모달을 안다는 건, AI에게 텍스트 질문만 해야 한다는 생각에서 벗어나는 것입니다. 이걸 알면 AI를 훨씬 폭넓게 활용할 수 있는 상황들이 보이기 시작합니다.
직접 해보기
스마트폰에서 시도해볼 수 있는 것들입니다.
- ChatGPT 앱에서 카메라 아이콘을 눌러 주변 사물 사진을 찍은 뒤 “이게 뭔가요?”라고 물어보기
- 냉장고를 열고 안을 사진 찍은 뒤 “이 재료로 만들 수 있는 요리가 있을까요?”라고 묻기
- 영문 안내문이나 약 설명서 사진을 찍어 번역 요청하기
- Gemini 앱에서 마이크 버튼을 눌러 음성으로 질문해보기
처음에는 어색할 수 있지만, 한 번 해보면 어떤 상황에서 쓸 수 있을지 자연스럽게 감이 옵니다.