합성 데이터가 인간의 데이터를 이겼다? LLM 학습 데이터의 치명적 트레이드오프

단순한 양적 팽창을 넘어, 합성 데이터의 전략적 믹스와 큐레이션이 모델 성능을 결정짓는 메커니즘을 분석합니다.

최근 AI 업계에서 정말 흥미로운 결과가 나왔습니다. 특정 분류 태스크, 특히 결함 탐지 같은 영역에서 합성 데이터로 학습시킨 모델이 사람이 직접 작성한 데이터를 쓴 모델보다 F1-score 성능을 최대 41.4%나 끌어올렸다는 보고가 있었거든요 [1]. “결국 사람이 만든 데이터가 최고 아니야?”라고 생각했던 제 상식을 완전히 깨는 결과였습니다.

하지만 여기서 우리가 놓치지 말아야 할 핵심이 있습니다. 합성 데이터가 특정 상황에서 인간을 능가하는 효율을 보이는 건 맞지만, 그렇다고 무작정 들이부었다가는 ‘모델 붕괴(Model Collapse)’라는 치명적인 늪에 빠질 수 있다는 거예요. 결국 정교한 믹스 비율을 설계하고 인간이 큐레이션하는 과정이 필수적이라는 점, 이것이 제가 오늘 강조하고 싶은 본질입니다.

데이터 기근의 시대, 왜 ‘합성 데이터’인가?

사실 요즘 LLM 개발자들의 가장 큰 고민은 “더 이상 먹일 데이터가 없다”는 겁니다. 인터넷에 있는 웬만한 고품질 텍스트는 이미 다 긁어다 썼거든요. 실제로 연구자들 사이에서도 고품질 자연어 텍스트의 유한함이 점점 분명해지고 있다는 우려가 나오고 있습니다 [2].

“The finite nature of high-quality natural text becomes increasingly apparent” [2]

고품질의 자연어 텍스트가 한정되어 있다는 사실이 점점 더 명확해지고 있습니다.

여기에 현실적인 제약들이 더해집니다. 사람이 일일이 데이터를 고르고 라벨링하는 건 비용과 시간이 너무 많이 들고, 의료 데이터 같은 경우는 HIPAA 같은 엄격한 개인정보 보호 규제 때문에 접근조차 힘든 경우가 많죠 [3].

이런 상황에서 ‘합성 데이터’는 가뭄의 단비 같은 존재입니다. LLM을 활용하면 데이터가 부족한 희소 도메인에서도 전문적인 쿼리를 다양하게 만들어낼 수 있거든요. 전통적인 수집 방식이 느리고 비용이 많이 들며 윤리적으로 복잡했다면, 합성 데이터는 이 모든 허들을 한 번에 뛰어넘을 수 있는 대안이 됩니다 [3].

합성 데이터의 역설: 인간을 능가하는 성능의 조건

그럼 합성 데이터는 무조건 좋은 걸까요? 아닙니다. ‘어떻게’ 만드느냐가 관건이에요. 단순히 양만 늘리는 게 아니라, 모델의 행동을 능동적으로 설계하는 ‘데이터 디자인’ 관점이 필요합니다.

실제로 보안(+7.8%p)이나 결함 분류(+15.4%p) 같은 특정 태스크에서는 합성 데이터가 인간이 쓴 데이터를 앞질렀습니다 [1]. 특히 주목할 점은 생성 방식의 차이입니다. 그냥 샘플 하나를 툭 던져서 만드는 것보다, ‘멀티 샘플 프롬프팅’을 썼을 때 F1-score가 6~44%p나 개선되었다고 해요 [1].

“synthetic requirements can match or surpass human-authored requirements for specific classification tasks” [1]

특정 분류 태스크에서는 합성 데이터가 인간이 작성한 요구사항과 비슷하거나 오히려 더 나은 성능을 보일 수 있습니다.

여기에 PACE(Prompt Actor-Critic Editing) 같은 자동 프롬프트 최적화 기법까지 더해지면, 기능적 요구사항 분류 성능을 32.5%p나 더 올릴 수 있었습니다 [1]. 결국 합성 데이터의 승리는 ‘단순 증강’이 아니라 ‘전략적 설계’의 결과라고 봐야 합니다.

성능 가속의 치트키, ‘전략적 믹스(Strategic Mix)’

여기서 한 가지 짚고 갈게요. “그럼 이제 인간 데이터는 버리고 합성 데이터만 쓰면 되겠네?”라고 생각하신다면 정말 위험합니다.

실험 결과, 순수하게 합성 데이터(HQ, QA 등)만으로 학습시킨 모델은 CommonCrawl 같은 자연 웹 데이터를 쓴 모델보다 유의미하게 뛰어나지 않았어요 [2]. 진짜 마법은 ‘섞었을 때’ 일어납니다.

가장 효율적인 조합은 자연 웹 텍스트 2/3와 재구문(Rephrased)된 합성 데이터 1/3을 섞는 2:1 비율이었습니다. 이렇게 전략적으로 믹스했을 때, 동일한 손실 값(Loss)에 도달하는 사전 학습 수렴 속도가 무려 5~10배까지 빨라졌습니다 [2].

“Strategically mixing specific synthetic types… can significantly accelerate pre-training convergence up to 5-10x” [2]

특정 유형의 합성 데이터를 전략적으로 섞으면 사전 학습 수렴 속도를 최대 5~10배까지 크게 가속화할 수 있습니다.

물론 이 ‘황금 비율’은 모델의 크기나 주어진 데이터 예산에 따라 달라질 수 있지만, 핵심은 자연 데이터라는 ‘뿌리’ 위에 합성 데이터라는 ‘영양제’를 적절히 섞어야 한다는 점입니다.

안티패턴: 모델 붕괴(Model Collapse)와 ‘근친교배’의 함정

이제 가장 무서운 이야기를 해볼게요. 바로 ‘모델 붕괴(Model Collapse)’입니다. 쉽게 말해 AI가 만든 데이터를 다시 AI가 학습하는 과정이 반복되면서, 모델이 점점 멍청해지는 현상이에요.

합성 데이터로만 반복 학습을 시키면 출력이 지나치게 단순해지거나, 있지도 않은 말을 지어내는 환각(Hallucination) 증상이 심해집니다 [3]. 특히 교과서 스타일의 순수 생성 데이터만 믹스했을 때 이런 붕괴 패턴이 뚜렷하게 나타났죠 [2].

커뮤니티에서는 이를 ‘근친교배(Inbreeding)’라고 부르기도 하는데요 [4], 필터링 없이 웹에 떠도는 ‘와일드’한 LLM 텍스트를 그대로 학습시키는 건, 마치 잘못된 정답지를 보고 공부하는 것과 같습니다. 결국 잘못된 레이블링 데이터를 계속 추가하는 꼴이 되어 성능이 곤두박질치게 됩니다 [4].

심지어 다양성을 높이겠다고 유사도 기반 큐레이션을 빡빡하게 적용했는데, 다양성 지표는 올라갔지만 정작 분류 성능은 떨어지는 역설적인 결과가 나오기도 합니다 [1]. 무조건적인 다양성이 정답은 아니라는 뜻이죠.

짚고 넘어갈 한계와 주의점

우리가 경계해야 할 포인트 두 가지만 더 말씀드릴게요.

첫째, 합성 데이터가 겉보기에 다양성을 높여주는 것 같아도, 실제로는 모델이 학습해야 할 핵심 데이터 분포를 왜곡할 위험이 있습니다. 이 때문에 오히려 분류 성능이 떨어지는 경우가 발생하죠 [1].

둘째, 재구문(Rephrased) 데이터는 당장 모델 붕괴를 일으키지 않는 것처럼 보입니다. 하지만 이건 특정 규모에서의 관찰일 뿐, 아주 장기적으로 학습했을 때 어떤 영향을 줄지는 아직 아무도 모릅니다 [2]. “지금 괜찮으니 영원히 괜찮을 것”이라는 생각은 금물입니다.

핵심 요약

특수 태스크의 강점: 합성 데이터는 보안이나 결함 탐지 같은 특정 영역에서 인간의 데이터를 능가하는 성능을 낼 수 있습니다.
황금 비율의 중요성: 최상의 효율을 내려면 자연 데이터와 합성 데이터를 약 2:1 비율로 섞어 사용하세요.
모델 붕괴 경계: 합성 데이터만으로 반복 학습시키는 건 ‘모델 붕괴’와 ‘환각’을 부르는 최악의 안티패턴입니다.
큐레이션 파이프라인: AI Critic 시스템으로 거르고 사람이 최종 확인하는 과정이 있어야 데이터 오염을 막을 수 있습니다 [3, 5].
데이터 디자인: 이제는 단순한 양적 증강이 아니라, 모델의 특정 행동을 유도하는 ‘데이터 디자인’ 관점으로 접근해야 합니다 [5].

데이터의 양이 지능을 결정하던 시대는 이제 끝났다고 봅니다. 이제는 ‘어떤 비율로, 어떻게 설계된 데이터를 먹이느냐’의 싸움이에요. 엔지니어로서 데이터 큐레이션은 이제 단순한 전처리가 아니라, 과학적인 설계와 예술적인 감각이 조화를 이뤄야 하는 영역이 된 것 같습니다.

References

1. [arxiv.org] How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE — https://arxiv.org/html/2506.21138v1 2. [arxiv.org] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls — https://arxiv.org/html/2510.01631v1 3. [redhat.com] Synthetic data: A secret ingredient for better language models — https://www.redhat.com/en/blog/synthetic-data-secret-ingredient-better-language-models 4. [reddit.com] LLMs trained on LLM-written text: synthetic data? : r/learnmachinelearning — https://www.reddit.com/r/learnmachinelearning/comments/1pg0nay/llms_trained_on_llmwritten_text_synthetic_data 5. [cobusgreyling.substack.com] LLM-Driven Synthetic Data Generation, Curation & Evaluation — https://cobusgreyling.substack.com/p/llm-driven-synthetic-data-generation

FAQ

합성 데이터가 인간이 작성한 데이터보다 성능이 더 좋게 나오는 경우가 있나요?

네, 보안이나 결함 탐지 같은 특정 분류 태스크에서는 합성 데이터로 학습시킨 모델이 인간의 데이터를 쓴 모델보다 F1-score 성능을 최대 41.4%까지 끌어올린 보고가 있습니다.

합성 데이터를 사용할 때 가장 효율적인 믹스 비율은 무엇인가요?

자연 웹 텍스트 2/3와 재구문(Rephrased)된 합성 데이터 1/3을 섞는 2:1 비율이 가장 효율적이며, 이 경우 사전 학습 수렴 속도가 5~10배까지 빨라질 수 있습니다.

'모델 붕괴(Model Collapse)'란 무엇이며 왜 발생하나요?

AI가 생성한 데이터를 다시 AI가 학습하는 과정이 반복되면서 모델의 출력이 지나치게 단순해지거나 환각 증상이 심해져 모델이 점점 성능이 떨어지는 현상을 말합니다.

합성 데이터를 생성할 때 성능을 더 높일 수 있는 방법이 있나요?

단순 샘플 생성보다 '멀티 샘플 프롬프팅'을 사용하면 F1-score가 6~44%p 개선되며, PACE(Prompt Actor-Critic Editing) 같은 자동 프롬프트 최적화 기법을 더하면 분류 성능을 32.5%p 더 올릴 수 있습니다.

LLM 개발에서 합성 데이터가 주목받는 이유는 무엇인가요?

고품질의 자연어 텍스트가 한정되어 데이터 기근 현상이 나타나고 있으며, 사람이 직접 데이터를 라벨링하는 데 드는 비용과 시간, 그리고 의료 데이터와 같은 엄격한 개인정보 보호 규제 등의 제약을 극복할 수 있는 대안이기 때문입니다.

정보로부자되세요(정보부자:Infobuza.com)

태그 보관물: 데이터큐레이션

합성 데이터가 인간의 데이터를 이겼다? LLM 학습 데이터의 치명적 트레이드오프

합성 데이터가 인간의 데이터를 이겼다? LLM 학습 데이터의 치명적 트레이드오프

데이터 기근의 시대, 왜 ‘합성 데이터’인가?

합성 데이터의 역설: 인간을 능가하는 성능의 조건

성능 가속의 치트키, ‘전략적 믹스(Strategic Mix)’

안티패턴: 모델 붕괴(Model Collapse)와 ‘근친교배’의 함정

짚고 넘어갈 한계와 주의점

핵심 요약

References

관련 글 추천

FAQ

합성 데이터가 인간이 작성한 데이터보다 성능이 더 좋게 나오는 경우가 있나요?

합성 데이터를 사용할 때 가장 효율적인 믹스 비율은 무엇인가요?

'모델 붕괴(Model Collapse)'란 무엇이며 왜 발생하나요?

합성 데이터를 생성할 때 성능을 더 높일 수 있는 방법이 있나요?

LLM 개발에서 합성 데이터가 주목받는 이유는 무엇인가요?