컨텍스트 오염

대화가 길어지면서 컨텍스트 윈도우 안에 서로 간섭하는 내용이 쌓여 응답 품질이 점차 낮아지는 현상.

쉽게 말하면

대화 초반에는 잘 따르던 지시가 한참 뒤에는 무시되는 경험을 하신 적 있으신가요? 처음에는 “반말로 답해줘”라고 했는데 어느 순간 다시 존댓말로 돌아와 있다거나, 중간에 다른 주제로 잠깐 넘어갔다가 돌아왔더니 AI가 맥락을 뒤죽박죽 섞어 답하는 경우입니다.

여러 사람이 동시에 다른 지시를 내리는 상황을 떠올려 보면 이해가 됩니다. 한 사람은 “조용히 해”라고 하고, 다른 사람은 “크게 말해”라고 합니다. 지시가 모순되면 어떻게 따라야 할지 판단이 어렵습니다. AI도 컨텍스트 윈도우 안에 서로 충돌하거나 무관한 내용이 많아지면 비슷한 상황에 처합니다.

좀 더 정확히

AI는 응답을 생성할 때 컨텍스트 윈도우 안에 있는 모든 텍스트를 참조합니다. 대화가 길어질수록 그 안에는 서로 다른 주제, 서로 모순된 지시, 이미 수정된 정보의 이전 버전, 불필요한 중간 과정 등이 함께 쌓입니다.

이 상황에서 두 가지 문제가 발생할 수 있습니다.

첫째, 초반에 내린 지시가 이후 내용에 희석됩니다. AI는 가장 최근 내용과 가장 앞부분에 상대적으로 더 주의를 기울이는 경향이 있습니다. 그래서 긴 대화의 중간에 끼인 지시는 점차 영향력을 잃을 수 있습니다.

둘째, 잘못된 정보가 수정 이후에도 영향을 줄 수 있습니다. “앞에서 말한 내용은 틀렸어”라고 수정하더라도, 원래 내용과 수정 내용이 모두 컨텍스트 안에 공존합니다. AI가 이 둘 중 어느 쪽에 더 비중을 두느냐에 따라 응답이 달라집니다.

한눈에 보기


flowchart TB
    A["대화 길어짐"] --> B["지시/정보 누적"]
    B --> C["충돌 신호 증가"]
    C --> D["응답 일관성 저하"]
    D --> E["핵심 지시 재명시 또는 새 세션"]

흔한 오해

“AI가 내 지시를 무시하는 건 버그 아닌가요?”라는 반응이 많습니다. 의도적으로 무시하는 것이 아니라, 컨텍스트 안에 경쟁하는 신호가 너무 많아져서 어느 것을 우선할지 판단이 불명확해지는 구조의 문제입니다.

또한 “컨텍스트 윈도우가 크면 이 문제도 없어지지 않나요?”라는 오해도 있습니다. 컨텍스트 윈도우가 클수록 더 많은 내용을 담을 수 있지만, 그만큼 더 많은 충돌 신호도 함께 쌓일 수 있습니다. 윈도우 크기는 용량의 문제이고, 컨텍스트 오염은 내용의 질 문제입니다.

이걸 왜 알아야 하나요?

이 현상을 알면 AI 응답이 이상해졌을 때 원인을 진단하는 시각이 생깁니다. AI가 잘못 답하고 있다면, 모델의 능력 문제인지 아니면 대화가 너무 오래 누적되어 생긴 구조 문제인지 구분할 수 있습니다.

실용적으로는 두 가지 습관이 도움이 됩니다. 주제가 달라지면 새 대화를 시작하는 것, 그리고 핵심 지시는 대화 맨 앞에 한 번 명시하는 것입니다.

다만, 매번 새 대화를 열 필요는 없습니다. 같은 프로젝트 안에서 연관된 작업을 이어가거나, 짧은 질의응답을 주고받는 정도라면 하나의 대화를 계속 써도 괜찮습니다. 새 세션으로 전환이 좋은 경우는, 작업의 목적 자체가 바뀔 때입니다. 예를 들어 기능 개발을 하다가 완전히 다른 주제의 버그 수정으로 넘어간다면, 새 대화를 여는 편이 훨씬 깔끔합니다.

특히 ChatGPT나 Claude처럼 대화 기록이 쌓이는 서비스에서는, 같은 창을 며칠씩 계속 쓰는 것보다 작업 단위로 새 대화를 여는 편이 응답 품질을 유지하는 데 유리한 경우가 많습니다.

직접 해보기

긴 대화 vs 새 대화를 직접 비교해볼 수 있습니다.

ChatGPT나 Claude에서 한 대화 창에 10번 이상 주고받은 뒤, 처음에 했던 요청을 다시 반복해 보세요. 초반 지시가 얼마나 반영되는지 확인합니다.
같은 요청을 새 대화 창에서 시작해 보세요. 응답의 일관성이나 정확도가 달라지는지 비교합니다.

두 결과의 차이가 크다면, 이전 대화에 컨텍스트 오염이 발생했을 가능성이 있습니다.

1나노AI

탐색기

컨텍스트 오염 — 대화가 길어지면 답이 흐려지는 이유