LLM
수천억 개의 파라미터로 언어 패턴을 학습한 대형 모델. ChatGPT, Claude, Gemini가 모두 여기에 속한다.
먼저 읽으면 좋은 글
AI란 무엇인가를 읽고 오시면 이 글이 더 쉽게 느껴집니다.
쉽게 말하면
ChatGPT나 Claude에 질문을 입력하면 그럴듯한 답이 돌아오는데, 그게 어떻게 가능한 건지 의아하셨을 수 있습니다. 이 모델들은 수천억 페이지 분량의 글을 읽고, “이런 맥락 다음엔 보통 이런 말이 온다”는 확률 구조를 내부에 쌓은 겁니다. 마치 수십 년 치 신문과 책을 독파한 편집자가 문장의 흐름을 본능적으로 파악하는 것과 비슷하지만, 실제로는 그 패턴을 수치로 저장한 겁니다.
좀 더 정확히
LLM에서 “L(Large)“은 두 가지 의미에서 큽니다. 첫째는 학습에 사용한 데이터의 규모이고, 둘째는 모델 내부의 파라미터 수입니다. 파라미터란 학습을 통해 조정된 수치들로, AI 내부의 조절 나사와 같습니다. 나사가 많을수록 더 정밀한 조정이 가능하듯, 수십억에서 수천억 개에 이르는 파라미터가 모이면 “이 문맥 뒤에는 이런 말이 자연스럽다”는 판단력이 만들어집니다. 편집자가 수만 편의 글을 읽으며 쌓은 직관이 수치로 저장된 셈입니다. 단, 편집자는 의미를 이해하고 판단하지만 AI는 패턴을 계산하는 것이라는 차이가 있습니다.
“Language Model(언어 모델)“이라는 말은, 이 모델이 처리하는 대상이 언어라는 뜻입니다. 입력된 텍스트를 토큰이라는 단위로 잘라 읽고, 다음에 올 가능성이 높은 토큰을 확률적 생성 방식으로 골라냅니다. 의미를 이해하는 게 아니라, 통계적으로 자연스러운 언어를 조합하는 구조입니다.
오늘날 많이 쓰이는 LLM으로는 OpenAI의 GPT 시리즈(ChatGPT), Anthropic의 Claude, Google의 Gemini, Meta의 Llama, DeepSeek 등이 있습니다. 서비스 이름은 다르지만 핵심 작동 원리는 같은 계열에 속합니다.
흔한 오해
LLM이 모든 AI를 대표한다고 생각하기 쉽습니다. 하지만 이미지를 생성하는 AI(미드저니, DALL-E), 영상을 만드는 AI(소라, 런웨이), 음성을 인식하고 합성하는 AI는 LLM과 다른 구조를 씁니다. LLM은 언어 처리에 특화된 유형이고, AI의 종류들은 훨씬 다양합니다.
LLM이 인터넷을 실시간으로 검색한다고 여기는 경우도 많습니다. 기본 LLM은 학습이 끝난 시점까지의 정보만 갖고 있습니다. 다만 ChatGPT나 Claude 같은 서비스는 필요에 따라 검색 기능을 추가로 붙이는 방식을 택하기도 하며, 퍼플렉시티(Perplexity)처럼 검색이 중심인 서비스도 있습니다. 이는 LLM 위에 기능을 얹은 것이지, LLM 자체가 검색을 한다고 보기는 어렵습니다.
이걸 왜 알아야 하나요?
“ChatGPT”와 “AI”를 같은 말처럼 쓰는 경우가 많습니다. 하지만 ChatGPT는 하나의 서비스이고, LLM은 그 아래에 있는 구조입니다. 이 차이를 알면 다른 서비스를 쓸 때도 “어떻게 작동하는 건지” 감을 잡기가 쉬워집니다. Claude가 왜 다르게 답하는지, Gemini가 왜 다른 특성을 가지는지, 이런 차이가 어디서 오는지 맥락이 잡힙니다.