AI의 종류들

생성형 AI는 텍스트만 다루지 않는다. 이미지, 영상, 음성, 검색까지, 각 영역에 특화된 AI가 이미 일상 곳곳에 있다.

쉽게 말하면

“AI 쓴다”고 하면 많은 분들이 ChatGPT에 질문하는 장면을 떠올리십니다. 그런데 스마트폰 카메라가 사람 얼굴을 자동으로 보정하거나, 유튜브가 다음 영상을 추천하거나, 내비게이션이 목소리로 안내하는 것도 모두 AI가 작동하는 장면입니다. AI가 텍스트만 다루는 게 아니라는 뜻입니다.

도구 상자를 생각하면 이해가 쉽습니다. 텍스트 AI, 이미지 AI, 영상 AI, 음성 AI는 같은 상자에 들어있는 서로 다른 도구입니다. 쓰임새가 다르고 생긴 것도 다르지만, 같은 원리로 만들어진 경우가 많습니다. 이 글에서는 이런 생성형 AI의 종류를 살펴봅니다.

좀 더 정확히

텍스트 AI (LLM 계열)

언어를 읽고 쓰는 데 특화된 AI입니다. 질문에 답하고, 글을 요약하고, 코드를 작성합니다. ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google), DeepSeek이 대표적입니다. 내부적으로는 LLM 구조를 씁니다.

이미지 AI

텍스트 설명이나 다른 이미지를 입력받아 새 이미지를 만들거나, 이미지를 분석합니다. 미드저니(Midjourney), DALL-E(OpenAI), Stable Diffusion이 잘 알려져 있습니다. 텍스트로 “노을이 지는 바닷가” 하나 입력하면 그에 맞는 이미지가 생성됩니다.

영상 AI

짧은 텍스트 프롬프트나 이미지를 받아 영상을 생성하거나 편집합니다. OpenAI의 소라(Sora), 런웨이(Runway), Kling 등이 있습니다. 아직 완성도 차이가 있고 빠르게 발전하는 영역이지만, 이미 광고나 숏폼 제작에 쓰이기 시작했습니다.

음성 AI

크게 두 방향이 있습니다. 하나는 음성을 텍스트로 변환하는 음성 인식(STT, Speech-to-Text)이고, 다른 하나는 텍스트를 음성으로 변환하는 음성 합성(TTS, Text-to-Speech)입니다. Whisper(OpenAI), ElevenLabs, CLOVA Voice(네이버)가 이 영역에 있습니다. AI 아나운서, 자동 자막, AI 고객센터 음성이 여기서 나옵니다.

검색 AI

텍스트 AI와 비슷해 보이지만, 실시간 웹 검색을 핵심으로 삼는 서비스입니다. 퍼플렉시티(Perplexity)가 대표적으로, 검색 결과를 요약해 출처와 함께 제공합니다. ChatGPT나 Claude도 검색 기능을 연동할 수 있지만, 퍼플렉시티는 처음부터 검색이 중심 기능으로 설계됐습니다.

멀티모달 AI

텍스트, 이미지, 음성 등 여러 종류의 입출력을 하나의 모델에서 처리합니다. ChatGPT, Gemini, Claude 등 최신 서비스들이 여기에 해당합니다. 사진을 보여주며 “이 음식 뭐야?”라고 물으면 텍스트로 답하는 게 멀티모달 동작의 예입니다. 멀티모달에서 더 자세히 다룹니다.

이걸 왜 알아야 하나요?

AI를 텍스트 도구로만 인식하면 실제로 활용 가능한 범위가 훨씬 좁아 보입니다. 자녀의 발표 자료에 쓸 이미지를 만들거나, 목소리를 흉내 낸 사기 전화를 알아채거나, 영상 편집에 AI를 쓸 수 있다는 걸 알면 활용 가능성도, 주의해야 할 지점도 달라집니다. AI의 전체 지형을 파악하는 것이 출발점입니다.

어떤 서비스가 어느 유형에 속하는지 알면, 주요 서비스 비교를 볼 때도 선택이 쉬워집니다.

관련 개념