태그 보관물: 지식증류

양자화와 증류 모델을 섞어 썼는데 성능이 튀는 이유 — ‘지능의 압축’과 ‘정밀도의 손실’ 사이의 간극

대표 이미지

양자화와 증류 모델을 섞어 썼는데 성능이 튀는 이유 — '지능의 압축'과 '정밀도의 손실' 사이의 간극

단순히 모델 크기를 줄이는 것이 아니라, 추론 속도와 추론 능력의 트레이드오프를 결정하는 두 가지 핵심 최적화 전략의 실무적 차이를 분석합니다.

로컬 환경에서 LLM을 돌려보신 분들이라면 한 번쯤 겪으셨을 거예요. 8-bit나 4-bit로 양자화된 모델을 썼을 때, 벤치마크 점수는 꽤 괜찮은데 막상 실제 대화를 해보면 “어? 방금 대답은 왜 이래?” 싶은 미묘한 일관성 부족이 느껴지는 순간 말이죠. 특히 모델 사이즈가 8B 정도로 작아질수록 이런 변동성은 더 눈에 띄게 나타나곤 합니다 [4].

여기서 우리가 놓치지 말아야 할 핵심이 있어요. 양자화는 수치적 정밀도를 낮춰 메모리와 속도를 얻는 ‘포맷 변경’인 반면, 증류는 지식의 핵심을 작은 구조로 재학습시키는 ‘설계 변경’이라는 점입니다. 지향점이 완전히 다르기 때문에, 내가 해결하려는 문제가 ‘단순 속도’인지 ‘효율적인 지능’인지에 따라 선택 전략을 완전히 다르게 가져가야 합니다.

모델 다이어트의 두 갈래: 양자화(Quantization) vs 증류(Distillation)

모델을 가볍게 만드는 방법은 크게 두 가지 길로 나뉩니다. 하나는 이미 만들어진 모델의 ‘숫자 표현 방식’을 바꾸는 것이고, 다른 하나는 ‘더 작은 뇌’를 새로 설계해 가르치는 것이죠.

먼저 양자화는 가중치의 수치 정밀도를 낮추는 방식입니다. 예를 들어 FP32(32비트 부동소수점)로 저장된 숫자를 INT8(8비트 정수)로 바꾸는 식이죠. 이렇게 하면 메모리 풋프린트가 획기적으로 줄어들고 계산 속도가 빨라집니다 [3]. 주로 학습이 끝난 모델에 적용하는 사후 처리(Post-training) 방식이라 적용 속도가 매우 빠르다는 장점이 있습니다.

반면 증류는 조금 더 정성스러운 과정입니다. 거대한 ‘교사(Teacher)’ 모델이 가진 지식을 작은 ‘학생(Student)’ 모델이 모방하도록 아예 새로 학습시키는 과정이거든요 [2]. 단순히 정답만 맞히는 게 아니라, 교사 모델이 내놓는 확률 분포인 ‘소프트 타겟(Soft targets)’을 학습함으로써 정답 너머의 풍부한 패턴까지 흡수하게 만듭니다 [2].

결국 두 기술의 차이는 이렇게 요약할 수 있습니다.

“Distillation focuses on compressing models while keeping their intelligence intact, quantization aims at reducing numerical precision to speed up inference.”

(증류는 지능을 유지하며 모델을 압축하는 데 집중하고, 양자화는 추론 속도를 높이기 위해 수치적 정밀도를 낮추는 데 목적이 있습니다.) [3]

쉽게 말해 양자화는 ‘추론 속도와 메모리’라는 물리적 효율에, 증류는 ‘모델 복잡도 감소와 효율적 지능 유지’라는 구조적 최적화에 초점을 맞춘 전략입니다.

언제 무엇을 선택해야 하는가: 실무적 결정 트리

그럼 실무에서는 어떤 기준으로 선택해야 할까요? 제가 추천하는 가이드라인은 이렇습니다.

가장 먼저, “당장 내일 배포해야 하고, 메모리 사용량을 줄이는 게 최우선이다”라면 고민할 것 없이 양자화가 정답입니다. 재학습 시간이 필요 없고, 어느 정도의 정확도 손실만 감수할 수 있다면 가장 빠르게 적용할 수 있는 방법이니까요 [6].

하지만 “특정 도메인(예: 의료, 법률)에서 높은 정확도를 유지하면서 모델 크기를 획기적으로 줄여야 한다”면 증류가 훨씬 유리합니다. 특정 태스크에 최적화된 작은 모델을 만들 수 있기 때문이죠.

여기서 주의할 점이 하나 있어요. 증류 모델은 특정 분야에서는 뛰어나지만, 광범위한 일반 지식이나 아주 복잡한 추론이 필요한 태스크에서는 원본 모델의 범용성을 따라가지 못하는 한계가 있습니다 [2]. “똑똑한 일반인 한 명”을 “특정 분야에 능숙한 전문가 여러 명”으로 쪼개는 과정에서 오는 손실이라고 보시면 됩니다.

가장 이상적인 파이프라인은 무엇일까요? 제가 본 바로는 ‘선 증류 후 양자화’ 전략이 최상입니다. 먼저 지식 증류를 통해 효율적인 작은 구조의 모델을 만들고, 그 모델을 다시 양자화해서 하드웨어 효율을 극대화하는 방식이죠.

성능의 함정: 증류 모델이 ‘멍청해지는’ 순간과 양자화의 ‘정밀도 붕괴’

무턱대고 모델을 깎아내다 보면 예상치 못한 ‘함정’에 빠지게 됩니다.

증류 모델의 가장 큰 약점은 ‘범위 외 태스크(Out-of-scope)’ 처리 능력의 저하입니다. 교사 모델이 가르쳐준 범위 내에서는 완벽해 보이지만, 조금만 궤도를 벗어난 질문을 던지면 추론 능력이 급격히 떨어지거나 미묘한 뉘앙스를 놓치는 경우가 많아요 [2].

양자화는 ‘정밀도 붕괴’라는 다른 문제를 일으킵니다. 수치를 강제로 뭉뚱그리다 보니 ‘양자화 오류(Quantization Error)’가 발생하고, 이것이 출력의 미세한 변동성으로 이어집니다. 특히 8B 이하의 작은 모델에 과도한 양자화를 적용하면, 문장의 의미적 일관성이 깨지는 현상이 나타나기도 하죠.

재밌는 사례가 하나 있는데, 비디오 생성 모델 같은 복잡한 구조에서 이런 부작용이 더 심합니다. 양자화된 비디오 모델을 보면 개별 프레임은 아주 선명한데, 정작 영상이 재생되면 피사체가 서서히 화면 밖으로 밀려나거나 프롬프트에 적은 내용이 무시되는 ‘피사체 드리프트’ 현상이 발생하곤 합니다 [5]. 숫자의 정밀도가 깨지면서 시간축의 연속성을 유지하는 능력이 손실된 결과라고 볼 수 있습니다.

최신 트렌드: 하이브리드 압축과 정확도 회복 전략

다행히 최근에는 이런 손실을 최소화하는 기법들이 많이 나오고 있습니다. Llama 3.1 시리즈가 대표적인데, 4-bit나 8-bit 양자화 모델임에도 불구하고 Arena-Hard 같은 까다로운 벤치마크에서 풀 정밀도 모델에 근접하는 정확도 회복력을 보여주었습니다 [4].

최근의 핵심 전략은 ‘무조건 깎는 것’이 아니라 ‘영리하게 보호하는 것’입니다. 예를 들어, 모델의 입력단에 해당하는 민감한 레이어(Entrance layers)는 양자화하지 않고 보호하거나, 분포 매칭 증류(Distribution-matching distillation)를 통해 학생 모델의 활성화 분포를 교사와 최대한 맞추는 방식을 씁니다 [5].

특히 중요한 포인트는, 증류된 학생 모델을 기준으로 양자화를 수행하는 것입니다. 이렇게 하면 추론 시 발생하는 활성화 분포의 불일치를 줄일 수 있어 훨씬 안정적인 성능이 나옵니다 [5].

실제로 이런 파이프라인을 구현할 때 참고할 만한 설정 예시를 보여드릴게요. vLLM 같은 추론 엔진을 사용할 때, 단순히 모델만 올리는 게 아니라 양자화 방식에 맞는 최적의 설정을 맞추는 것이 중요합니다.

# vLLM을 사용하여 4-bit 양자화 모델(AWQ 방식)을 배포하는 예시
# --quantization awq: 가중치가 4-bit로 양자화되었음을 명시
# --max-model-len: 메모리 부족을 방지하기 위해 컨텍스트 길이를 적절히 제한
# --gpu-memory-utilization: GPU 메모리 점유율을 설정하여 OOM 방지

python -m vllm.entrypoints.openai.api_server \
    --model neuralmagic/Meta-Llama-3.1-8B-Instruct-INT4-AWQ \
    --quantization awq \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.90 \
    --port 8000

이 설정은 8B 모델을 4-bit로 압축해 메모리 사용량을 획기적으로 줄이면서도, vLLM의 최적화 커널을 통해 추론 속도를 높이는 구성입니다. 여기서 핵심은 모델의 양자화 포맷(AWQ, GPTQ 등)과 추론 엔진의 옵션을 정확히 일치시키는 것입니다.

짚고 넘어갈 한계와 안티패턴

여기서 많은 분이 오해하시는 두 가지 포인트를 짚고 갈게요.

첫째, “양자화하면 무조건 성능이 떨어진다”는 생각입니다. 최신 기법들을 적용한 Llama 3.1 같은 모델들은 풀 정밀도 모델과 체감 차이가 거의 없는 수준까지 성능을 회복했습니다 [4]. 즉, 양자화 자체가 문제가 아니라 ‘어떤 알고리즘으로 어떻게 양자화했느냐’가 핵심입니다.

둘째, “증류만 하면 작은 모델도 무조건 똑똑해진다”는 믿음입니다. 증류는 마법이 아닙니다. 복잡한 다중 도메인 지식이나 고도의 추론 능력이 필요한 작업에서는 아무리 증류를 잘해도 모델의 물리적인 파라미터 수(용량)가 주는 한계를 극복하기 어렵습니다 [2].

핵심 요약

  • 양자화는 ‘어떻게 저장하는가’의 문제(포맷 변경)입니다. 빠르고 메모리 절감 효과가 크지만 미세한 정밀도 손실이 따릅니다.
  • 증류는 ‘무엇을 배우는가’의 문제(구조 변경)입니다. 준비 과정은 느리지만 효율적인 지능을 가진 작은 모델을 만들 수 있습니다.
  • 범용 LLM을 로컬에서 빠르게 돌리고 싶다면 4-bit/8-bit 양자화가 가장 현실적인 선택입니다.
  • 특정 목적의 가벼운 전문 모델을 만들고 싶다면 ‘증류 후 양자화’ 전략을 취하세요.
  • 압축 후에는 단순 벤치마크 점수가 아니라, 실제 서비스에서 어떤 ‘실패 모드’가 나타나는지 세부적으로 점검해야 합니다.

단순히 “모델이 가벼워졌다”는 수치에 안주해서는 안 됩니다. 우리가 깎아낸 것이 단순한 ‘숫자의 정밀도’였는지, 아니면 모델이 세상을 이해하는 ‘사고의 깊이’였는지를 끊임없이 질문해야 해요. 결국 중요한 건 벤치마크 점수가 아니라, 실제 사용자가 느끼는 경험이니까요.


참고 자료 (References)

1. [medium.com] Why Quantized Models and Distilled Models Run Differently on Your Computer — https://medium.com/@nithinellanki/why-quantized-models-and-distilled-models-run-differently-on-your-computer-62d7ee832a29 2. [exxactcorp.com] What is LLM Distillation vs Quantization | Exxact Blog — https://www.exxactcorp.com/blog/deep-learning/what-is-llm-distillation-vs-quantization 3. [mayanknauni.com] Distillation vs Quantization: Optimizing AI Models for Efficiency Cloud Whisperer — https://mayanknauni.com?p=5033 4. [developers.redhat.com] We ran over half a million evaluations on quantized LLMs—here’s what we found — https://developers.redhat.com/articles/2024/10/17/we-ran-over-half-million-evaluations-quantized-llms 5. [arxiv.org] Collaborative Few-Step Distillation and Low-Bit Quantization for Wan2.2 Dual-Expert Video Diffusion Models — https://arxiv.org/html/2606.00658v1 6. [labelyourdata.com] Model Distillation: Teacher-Student Training Guide 2026 | Label Your Data — https://labelyourdata.com/articles/machine-learning/model-distillation

관련 글 추천

  • https://infobuza.com/2026/06/09/20260609-e88f8t/
  • https://infobuza.com/2026/06/09/20260609-y260sc/

FAQ

양자화와 증류의 가장 핵심적인 차이점은 무엇인가요?

양자화는 가중치의 수치 정밀도를 낮추어 메모리와 속도를 얻는 '포맷 변경' 방식인 반면, 증류는 거대 모델의 지식을 작은 모델이 모방하도록 재학습시키는 '설계 변경' 방식입니다.

빠른 배포와 메모리 절감이 최우선일 때는 어떤 방법을 선택해야 하나요?

재학습 시간이 필요 없고 빠르게 적용할 수 있는 양자화가 정답입니다.

특정 도메인에서 높은 정확도를 유지하며 모델 크기를 줄이고 싶을 때는 어떻게 해야 하나요?

특정 태스크에 최적화된 작은 모델을 만들 수 있는 증류 방식이 훨씬 유리합니다.

가장 이상적인 모델 압축 파이프라인은 무엇인가요?

먼저 지식 증류를 통해 효율적인 작은 구조의 모델을 만들고, 그 모델을 다시 양자화하여 하드웨어 효율을 극대화하는 '선 증류 후 양자화' 전략이 최상입니다.

양자화와 증류 적용 시 각각 주의해야 할 성능 저하 현상은 무엇인가요?

증류 모델은 교사 모델이 가르쳐준 범위를 벗어난 '범위 외 태스크' 처리 능력이 저하될 수 있으며, 양자화는 수치를 뭉뚱그리는 과정에서 '양자화 오류'가 발생해 문장의 의미적 일관성이 깨지는 정밀도 붕괴가 나타날 수 있습니다.

보조 이미지 1

보조 이미지 2