데이터 엔지니어링의 패러다임 시프트: 왜 모두가 ETL에서 ELT로 갈아탈까?
데이터 처리의 순서를 바꾸는 것만으로 분석 속도와 유연성이 극대화되는 ELT 아키텍처의 핵심 원리와 실무 적용 전략을 심층 분석합니다.
현대 기업의 데이터 팀이 겪는 가장 큰 고충은 ‘데이터가 없어서’가 아니라, ‘필요한 데이터를 제때 꺼내 쓰지 못해서’ 발생하는 병목 현상입니다. 과거의 데이터 파이프라인은 엄격한 규칙에 따라 데이터를 정제한 뒤 저장하는 방식이었지만, 비즈니스의 요구사항은 매일같이 변합니다. 분석가가 새로운 지표를 요구할 때마다 엔지니어가 파이프라인 전체를 뜯어고쳐야 하는 상황, 이것이 바로 우리가 기존의 ETL 방식에서 벗어나야 하는 결정적인 이유입니다.
전통적인 ETL의 한계: 정해진 틀에 가두는 데이터
ETL(Extract, Transform, Load)은 데이터를 추출하고, 목적지에 맞게 변환한 뒤, 최종적으로 저장소에 적재하는 방식입니다. 이 방식이 주류였던 시절에는 저장 공간(Storage)과 컴퓨팅 파워(Compute)가 매우 비쌌습니다. 따라서 저장소에 넣기 전에 불필요한 데이터를 미리 쳐내고, 딱 필요한 형태로 가공해서 넣는 것이 경제적이었습니다.
하지만 이 구조는 치명적인 약점을 가지고 있습니다. 바로 ‘변환(Transform)’ 단계가 적재 전에 일어난다는 점입니다. 만약 6개월 전에 버렸던 특정 데이터 필드가 갑자기 분석에 필요해졌다면 어떻게 될까요? 엔지니어는 원천 데이터부터 다시 추출하여 전체 파이프라인을 재구동해야 합니다. 데이터의 유연성이 완전히 사라진 셈입니다. 이는 결국 데이터 분석가와 비즈니스 결정권자가 엔지니어의 작업 완료를 하염없이 기다려야 하는 ‘데이터 병목 현상’으로 이어집니다.
ELT의 등장: 저장소의 진화가 바꾼 순서
클라우드 데이터 웨어하우스(CDW)의 등장은 게임의 규칙을 바꿨습니다. Snowflake, BigQuery, Redshift 같은 서비스들은 저장 비용을 획기적으로 낮췄고, 무엇보다 분산 컴퓨팅을 통해 테라바이트급 데이터도 순식간에 처리할 수 있는 강력한 성능을 제공하기 시작했습니다. 이제는 굳이 밖에서 힘들게 가공해서 넣을 필요가 없어진 것입니다.
ELT(Extract, Load, Transform)는 데이터를 먼저 원시 형태(Raw Data) 그대로 저장소에 쏟아붓고, 필요할 때 저장소 내부의 컴퓨팅 자원을 활용해 변환하는 방식입니다. 이 단순한 순서의 변경이 가져오는 효과는 파괴적입니다. 데이터 엔지니어는 ‘데이터를 안전하게 옮기는 것’에 집중하고, 데이터 분석가는 SQL을 이용해 ‘자신이 원하는 형태로 데이터를 가공하는 것’에 집중할 수 있게 되었습니다.
ELT 아키텍처의 기술적 이점과 트레이드오프
ELT로의 전환은 단순히 순서를 바꾸는 것이 아니라, 데이터 거버넌스와 운영 모델의 변화를 의미합니다. 가장 큰 장점은 데이터의 보존성입니다. 원본 데이터가 그대로 저장되어 있으므로, 분석 로직이 변경되어도 과거 데이터를 다시 불러올 필요 없이 쿼리만 수정하면 됩니다. 또한, dbt(data build tool)와 같은 현대적인 툴을 사용하면 SQL만으로 복잡한 변환 과정을 버전 관리하고 테스트할 수 있어 개발 생산성이 비약적으로 상승합니다.
물론 모든 상황에서 ELT가 정답은 아닙니다. 다음과 같은 고려사항이 존재합니다.
- 비용 최적화: 무분별하게 모든 데이터를 적재하면 저장 비용이 증가하며, 비효율적인 쿼리를 반복 실행할 경우 컴퓨팅 비용이 폭증할 수 있습니다.
- 보안 및 컴플라이언스: PII(개인식별정보)와 같은 민감 데이터가 포함된 경우, 적재 전 단계에서 마스킹이나 암호화 처리를 하는 ETL 방식의 전처리가 필수적일 수 있습니다.
- 데이터 품질: 필터링 없이 데이터를 넣다 보면 저장소가 ‘데이터 늪(Data Swamp)’으로 변질될 위험이 있습니다.
실무 적용 사례: 이커머스 기업의 분석 환경 개선
한 성장기 이커머스 기업은 기존에 Airflow와 Python 기반의 복잡한 ETL 파이프라인을 운영하고 있었습니다. 마케팅 팀에서 ‘사용자의 구매 여정’을 분석하기 위해 새로운 로그 데이터 필드를 요청할 때마다, 엔지니어는 파이프라인 코드를 수정하고 과거 데이터를 백필(Backfill)하는 데 일주일 이상의 시간을 소모했습니다.
이 기업은 아키텍처를 ELT로 전환했습니다. Fivetran을 통해 모든 원천 데이터를 BigQuery에 Raw 형태로 적재하고, dbt를 도입하여 분석가들이 직접 SQL로 모델링하게 했습니다. 결과적으로 데이터 요청부터 인사이트 도출까지 걸리던 시간이 일주일에서 단 몇 시간으로 단축되었습니다. 엔지니어는 더 이상 단순한 필드 추가 작업에 시간을 쓰지 않고, 데이터 파이프라인의 안정성과 성능 최적화라는 본연의 업무에 집중할 수 있게 되었습니다.
성공적인 ELT 전환을 위한 단계별 액션 가이드
현재 ETL 구조에서 고통받고 있거나, 새로운 데이터 플랫폼을 설계하는 실무자라면 다음의 단계를 밟아보시기 바랍니다.
1. 데이터 적재 전략의 분리
먼저 ‘적재(Load)’와 ‘변환(Transform)’을 완전히 분리하십시오. 원천 시스템에서 데이터를 가져와 저장소의 raw 스키마에 그대로 넣는 파이프라인을 구축하는 것이 시작입니다. 이때 데이터의 형태를 바꾸려 하지 말고, 최대한 원본 그대로를 유지하는 것에 집중하십시오.
2. 선언적 변환 도구 도입
Python 스크립트로 일일이 변환 로직을 짜는 대신, dbt와 같은 SQL 기반의 변환 도구를 도입하십시오. 이를 통해 변환 로직을 문서화하고, Git을 통해 버전 관리를 하며, 데이터 계보(Lineage)를 시각적으로 파악할 수 있습니다.
3. 계층적 데이터 모델링 설계
저장소 내부를 세 가지 계층으로 나누어 관리하십시오. 원본 데이터가 들어오는 Raw Layer, 중복을 제거하고 기본 정제를 거친 Silver/Integration Layer, 그리고 최종 비즈니스 지표가 계산된 Gold/Mart Layer로 구분하여 관리하면 데이터 혼란을 막을 수 있습니다.
4. 비용 모니터링 체계 구축
ELT는 컴퓨팅 자원을 많이 사용합니다. 쿼리당 비용을 모니터링하고, 너무 자주 실행되는 무거운 쿼리는 머티리얼라이즈드 뷰(Materialized View)나 증분 업데이트(Incremental Update) 방식으로 최적화하는 프로세스를 반드시 갖추어야 합니다.
결국 ETL에서 ELT로의 이동은 단순한 기술적 선택이 아니라, 데이터 팀의 운영 철학을 ‘통제’에서 ‘임파워먼트(Empowerment)’로 바꾸는 과정입니다. 엔지니어가 게이트키퍼 역할을 수행하던 시대는 끝났습니다. 이제 엔지니어의 역할은 분석가가 마음껏 데이터를 탐색할 수 있는 안전하고 강력한 운동장을 만들어주는 것입니다.
FAQ
The Real Shift in Data Engineering: From ETL to ELT의 핵심 쟁점은 무엇인가요?
핵심 문제 정의, 비용 구조, 실제 적용 방법, 리스크를 함께 봐야 합니다.
The Real Shift in Data Engineering: From ETL to ELT를 바로 도입해도 되나요?
작은 범위에서 실험하고 데이터를 확인한 뒤 단계적으로 확대하는 편이 안전합니다.
실무에서 가장 먼저 확인할 것은 무엇인가요?
목표 지표, 대상 사용자, 예산 범위, 운영 책임자를 먼저 명확히 해야 합니다.
법률이나 정책 이슈도 함께 봐야 하나요?
네. 데이터 수집 방식, 플랫폼 정책, 개인정보 관련 제한을 반드시 점검해야 합니다.
성과를 어떻게 측정하면 좋나요?
비용, 전환율, 클릭률, 운영 공수, 재사용 가능성 같은 지표를 함께 보는 것이 좋습니다.
관련 글 추천
- https://infobuza.com/2026/04/28/20260428-th3024/
- https://infobuza.com/2026/04/28/20260428-1p7olx/
지금 바로 시작할 수 있는 실무 액션
- 현재 팀의 AI 활용 범위와 검증 절차를 먼저 문서화합니다.
- 작은 파일럿 프로젝트로 KPI를 정하고 2~4주 단위로 검증합니다.
- 보안, 품질, 리뷰 기준을 자동화 도구와 함께 연결합니다.