AI 모델을 믿고 예산을 쏟았는데 실패하는 이유 — 마케터를 위한 ML 실전 가이드
단순한 알고리즘 선택을 넘어, 데이터 오염과 오버피팅이라는 함정을 피해 비즈니스 성과를 내는 법
현장에서 많은 팀을 만나보면 참 안타까운 상황을 자주 봅니다. 야심 차게 AI 프로젝트를 시작했는데, 정작 PoC(개념 증명) 단계조차 넘기지 못하고 멈추는 경우가 허다하거든요. 실제로 AI/ML 프로젝트의 80% 이상이 PoC 단계를 넘지 못하며, 특히 요즘 핫한 생성형 AI 프로젝트는 3분의 1 정도가 파일럿 이후에 폐기될 가능성이 높다고 합니다 [1].
왜 이런 일이 벌어질까요? 기술이 부족해서일까요? 제가 본 바로는 기술보다는 ‘접근 방식’의 문제인 경우가 훨씬 많았습니다. 마케팅 ML의 성공은 최신 LLM 같은 화려한 알고리즘을 도입하는 게 아닙니다. 우리가 풀려는 비즈니스 목표와 데이터가 제대로 정렬되어 있는지, 그리고 모델이 실제 환경에서도 작동할 ‘일반화 성능’을 갖췄는지를 검증하는 데 달려 있죠.
알고리즘보다 중요한 건 ‘어떤 문제를 풀 것인가’입니다
많은 분이 “우리도 이번에 LLM 도입해서 고객 경험 혁신해야 한다”라고 말씀하시곤 합니다. 그런데 여기서 한 가지 짚고 넘어갈게요. ‘혁신’은 목표가 아니라 결과여야 합니다. 정작 실패하는 프로젝트들의 공통점은 기술적 목표와 실제 비즈니스 목표가 따로 논다는 점이에요 [1]. 예를 들어, 앱 다운로드 수 같은 ‘허영 지표(Vanity Metrics)’를 기준으로 이탈 예측 모델을 만들면, 정작 비즈니스에 도움이 되는 인사이트는 하나도 얻지 못하게 됩니다.
마케팅 문제를 푸는 건 도구 상자에서 적절한 도구를 꺼내는 것과 같습니다. 모든 문제에 딥러닝이 정답은 아니거든요. 단순한 추세 분석은 선형 회귀로 충분할 수 있고, 복잡한 텍스트 분석이 필요할 때 비로소 LLM이 빛을 발하는 식이죠. 결국 선형 회귀부터 LLM까지, 문제의 성격에 맞는 알고리즘을 매칭하는 능력이 핵심입니다 [2].
기술적으로 가능하다고 해서 그것이 반드시 비즈니스 가치로 이어지지는 않습니다. “AI로 할 수 있으니까 한다”가 아니라 “이 비즈니스 문제를 풀기 위해 AI가 최적인가?”를 먼저 물어야 합니다.
Garbage In, Garbage Out: 데이터 품질이 모델의 천장을 결정합니다
엔지니어들 사이에서 격언처럼 내려오는 말이 있습니다. 바로 “쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)”는 거죠.
“Garbage in, garbage out – if your data is full of errors, missing values, or inconsistencies, even the most sophisticated algorithm will produce bad results.” [4]
(데이터에 오류, 결측치, 불일치가 가득하다면 아무리 정교한 알고리즘이라도 나쁜 결과물을 내놓을 뿐입니다.)
데이터 과학자들이 업무 시간의 약 45%를 데이터 준비 작업에 쏟는 이유가 여기 있습니다 [1]. 데이터가 여기저기 흩어져 있는 ‘데이터 사일로’ 현상 때문에 정제하는 데 시간이 다 가거든요. 하지만 이 과정을 귀찮다고 생략하면 모델은 데이터 속의 노이즈와 편향을 그대로 학습하게 됩니다.
만약 데이터셋이 너무 작거나 특정 고객군에만 쏠려 있다면 어떻게 될까요? 모델은 그 좁은 범위 내에서만 정답을 맞히는 ‘편향된 모델’이 됩니다. 결국 다른 그룹의 고객에게는 엉뚱한 예측을 내놓게 되죠 [4]. 최악의 경우, 데이터 무결성 부족으로 인해 Zillow의 iBuying 모델처럼 수억 달러(약 3억 6백만 달러)의 운영 손실을 보는 끔찍한 결과로 이어질 수도 있습니다 [1].
마케터가 빠지기 쉬운 치명적 함정: 오버피팅과 데이터 누수
테스트 결과 보고서를 받았는데 정확도가 99%라고 한다면, 기뻐하기보다 먼저 의심해 보세요. “혹시 오버피팅(Overfitting)이나 데이터 누수(Leakage)가 있는 거 아냐?”라고요.
먼저 오버피팅은 모델이 훈련 데이터에 너무 과하게 최적화된 상태를 말합니다. 쉽게 말해, 공부를 한 게 아니라 문제와 답을 통째로 외워버린 학생과 같아요. 훈련 데이터 속의 무의미한 노이즈까지 학습했기 때문에, 테스트 때는 만점을 받지만 실제 새로운 데이터가 들어오면 성능이 뚝 떨어집니다 [3].
더 무서운 건 데이터 누수입니다. 테스트 세트에 있어야 할 정보가 어떤 경로로든 훈련 과정에 스며드는 현상인데요. 이렇게 되면 모델이 미래의 정답을 미리 알고 문제를 푸는 꼴이 되어, 성능이 과대평가됩니다. 이 상태로 배포하면 실전에서는 처참하게 무너질 수밖에 없죠 [5].
여기서 하나 더, 최신 딥러닝에 대한 맹신은 위험합니다. 모든 문제에 신경망이 정답은 아니거든요. 특히 엑셀 시트 같은 정형 데이터(Tabular data)에서는 랜덤 포레스트 같은 전통적인 트리 기반 모델이 딥러닝보다 훨씬 더 좋은 성능을 내는 경우가 많습니다 [5].
블랙박스의 공포: 해석 가능성과 사용자 수용성
모델 성능이 아무리 좋아도 “왜 이런 결과가 나왔나요?”라는 질문에 답하지 못하는 ‘블랙박스’ 모델은 현장에서 살아남기 어렵습니다. 결정권자 입장에서 이유도 모른 채 수억 원의 예산을 AI의 판단에 맡기기는 쉽지 않으니까요 [1].
재밌는 점은 ‘AI’라는 단어 자체가 때로는 독이 된다는 겁니다. 연구에 따르면 AI라는 용어가 오히려 고객의 구매 의도를 낮추기도 하며, 소비자 64%는 고객 서비스에 AI가 사용되지 않기를 선호한다고 해요 [1]. 기술적 완성도만큼이나 중요한 것이 바로 사용자의 심리적 거부감을 줄이는 ‘해석 가능성’과 ‘수용성’입니다.
또한, 모델은 한 번 만들면 끝나는 제품이 아니라 살아있는 생물처럼 계속 관리해야 합니다. 유지보수 계획이 없거나 윤리적 문제, 개인정보 보호 이슈를 간과한다면 프로젝트는 결국 실패로 끝날 가능성이 큽니다 [1].
짚고 넘어갈 한계와 안티패턴
우리가 흔히 저지르는 실수 중 하나가 “최신 모델이 무조건 좋을 것”이라는 믿음입니다. 하지만 앞서 말씀드렸듯, 정형 데이터에서는 단순한 통계 모델이나 트리 기반 모델이 훨씬 효율적일 때가 많습니다 [5]. 최신 기술을 쫓는 것보다 문제에 맞는 ‘적정 기술’을 찾는 것이 훨씬 중요합니다.
기술만 고도화한다고 해결될 문제가 아니라는 점도 명심해야 합니다. 조직 내의 데이터 사일로 문제나 인프라 부족 같은 구조적인 문제가 해결되지 않은 상태에서 모델만 올린다고 성능이 나오지는 않습니다. 결국 인프라와 조직 문화가 뒷받침되어야 AI의 잠재력이 발휘됩니다 [1].
핵심 요약
- AI 도입의 목적은 ‘기술 구현’이 아니라 ‘비즈니스 문제 해결’이어야 해요.
- 데이터 품질은 모델이 낼 수 있는 성능의 상한선을 결정하는 절대적인 요소입니다.
- 오버피팅과 데이터 누수를 항상 경계하고, 실제 환경에서의 일반화 성능을 반드시 검증하세요.
- ‘왜’ 그런 결과가 나왔는지 설명할 수 있는 해석 가능성이 없으면 실무의 신뢰를 얻기 어렵습니다.
- 유행하는 알고리즘보다 우리 문제에 딱 맞는 ‘적정 기술’을 선택하는 것이 성공의 지름길입니다.
사실 저도 연차가 쌓이기 전에는 최신 논문에 나오는 화려한 모델을 적용해보고 싶은 욕심이 컸습니다. 하지만 수많은 실패를 겪으며 깨달은 건, 결국 정답은 ‘데이터의 본질’과 ‘비즈니스 목표’에 있다는 점이었어요. AI는 아주 강력한 도구이지만, 그 도구를 어디에 어떻게 쓸지 결정하는 건 결국 마케터의 도메인 지식과 비판적 사고입니다. 기술의 화려함에 매몰되지 말고, 우리가 풀려는 문제의 본질을 먼저 바라보시길 바랍니다.
References
1. [svitla.com] 7 Common Model Performance AI/ML Pitfalls and How to Avoid Them — https://svitla.com/blog/common-pitfalls-in-ai-ml 2. [medium.com] A Marketer’s Field Guide to Machine Learning — https://medium.com/@marketingdatascience/a-marketers-field-guide-to-machine-learning-784628348ed9 3. [forwrd.ai] 10 Common Mistakes while Building an AI Model for your Go To Market — https://www.forwrd.ai/blog/10-common-mistakes-while-build-an-ai-model-for-your-go-to-market 4. [refontelearning.com] Avoid These Common Machine Learning Mistakes: How Experts Build Robust Models — https://www.refontelearning.com/blog/avoid-these-common-machine-learning-mistakes-how-experts-build-robust-models 5. [arxiv.org] How to avoid machine learning pitfalls: a guide for academic researchers — https://arxiv.org/html/2108.02497v4
관련 글 추천
- https://infobuza.com/2026/06/07/20260607-ymkvkr/
- https://infobuza.com/2026/06/07/20260607-3ny7e4/
FAQ
AI/ML 프로젝트가 PoC 단계에서 실패하는 주요 이유는 무엇인가요?
기술 부족보다는 접근 방식의 문제인 경우가 많습니다. 특히 기술적 목표와 실제 비즈니스 목표가 일치하지 않거나, 모델이 실제 환경에서도 작동할 수 있는 '일반화 성능'을 갖추지 못했을 때 실패할 가능성이 높습니다.
데이터 품질이 AI 모델 성능에 어떤 영향을 미치나요?
'쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)'는 말처럼, 데이터에 오류, 결측치, 불일치가 많으면 아무리 정교한 알고리즘이라도 나쁜 결과물을 내놓게 됩니다. 또한 데이터가 특정 고객군에 쏠려 있으면 편향된 모델이 되어 엉뚱한 예측을 할 수 있습니다.
오버피팅(Overfitting)과 데이터 누수(Leakage)란 무엇인가요?
오버피팅은 모델이 훈련 데이터의 노이즈까지 과하게 학습하여 훈련 데이터에서는 높은 성능을 보이지만 실제 새로운 데이터에서는 성능이 떨어지는 현상입니다. 데이터 누수는 테스트 세트의 정보가 훈련 과정에 스며들어 모델이 정답을 미리 알고 문제를 푸는 것처럼 성능이 과대평가되는 현상입니다.
모든 비즈니스 문제에 딥러닝이나 LLM 같은 최신 모델이 정답인가요?
아닙니다. 문제의 성격에 맞는 '적정 기술'을 선택하는 것이 중요합니다. 예를 들어 단순한 추세 분석은 선형 회귀로 충분하며, 엑셀 시트 같은 정형 데이터(Tabular data)에서는 랜덤 포레스트 같은 전통적인 트리 기반 모델이 딥러닝보다 더 좋은 성능을 내는 경우가 많습니다.
모델의 성능이 좋은데도 현장에서 수용되지 않는 이유는 무엇인가요?
결과가 도출된 이유를 설명하지 못하는 '블랙박스' 모델의 경우 결정권자가 신뢰하기 어렵기 때문입니다. 또한, 소비자 중 일부는 고객 서비스에 AI가 사용되는 것에 심리적 거부감을 느끼기도 하므로 '해석 가능성'과 '수용성'을 확보하는 것이 중요합니다.

















