학습 데이터
AI 모델이 만들어지는 과정에서 읽고 패턴을 익히는 데 쓰인 방대한 텍스트와 데이터의 총체.
쉽게 말하면
인터넷에서 글을 읽다 보면 비슷한 표현이 반복된다는 느낌을 받아보신 적 있으신가요? AI는 그 인터넷 전체를 — 뉴스 기사, 블로그, 책, 논문, 코드까지 — 수천억 단어 분량으로 읽으며 만들어집니다. 마치 도서관 수십 개를 통째로 읽은 사람처럼, AI는 그 과정에서 언어의 패턴을 익혔습니다.
좀 더 정확히
ChatGPT나 Claude 같은 AI 모델은 공개된 웹 페이지, 디지털화된 책, 학술 논문, 프로그래밍 코드 등 다양한 출처의 텍스트를 이용해 만들어집니다. 이 과정을 **사전학습(pre-training)**이라고 합니다. 이때 AI는 “다음에 올 단어가 무엇인가”를 수없이 예측하면서 언어의 구조와 세계에 대한 광범위한 지식을 습득합니다.
중요한 구분이 있습니다. 이 “학습”은 AI 모델 자체를 만드는 단계에서 일어나는 일입니다. 반면 여러분이 지금 ChatGPT에 메시지를 보내는 것은 학습이 아닙니다. 그것은 이미 완성된 모델에게 대화 맥락을 제공하는 것입니다. 여러분의 대화가 모델 자체를 바꾸지는 않습니다.
또한 학습 데이터에는 수집 기한(cutoff)이 있습니다. 2024년 초까지의 데이터로 학습된 모델은 그 이후에 벌어진 일을 알지 못합니다. 학습된 이후에 벌어진 일은 처음부터 모델에 포함되지 않은 것입니다.
흔한 오해
“내가 입력한 내용을 AI가 학습해서 다음에 더 잘 대답한다”고 생각하기 쉽지만, 일반적인 서비스 환경에서는 그렇지 않습니다. 여러분의 대화는 해당 세션이 끝나면 사라지며, 모델의 가중치 자체는 변하지 않습니다.
“AI는 최신 정보를 다 알고 있다”고 생각하기 쉽지만, 학습 데이터에는 기한이 있습니다. 작년에 일어난 사건이나 오늘 발표된 뉴스는 모델이 처음부터 모를 수 있으며, 이 경우 환각이 일어나기도 합니다.
“학습 데이터는 깨끗하고 중립적이다”고 생각하기 쉽지만, 데이터는 인터넷에서 수집된 것이므로 인간 사회의 편견과 오류가 그대로 섞여 있습니다. 그 편향이 AI의 출력에도 영향을 미칩니다.
이걸 왜 알아야 하나요?
AI가 모르는 것이 있거나 오래된 정보를 말할 때, “AI가 이상하다”고 생각하기 전에 “이게 학습 데이터 기한 밖의 일이구나”라고 파악할 수 있습니다. ChatGPT에 “2025년 이후 사건”을 물어볼 때 어떤 한계가 있는지 미리 예상할 수 있게 됩니다. 또한 AI의 출력을 무조건 신뢰하기보다 검증하는 습관을 갖는 데에도 이 이해가 바탕이 됩니다.