HBM이 전부가 아닙니다: AI 추론의 병목을 깨는 SRAM 중심 설계의 역설

단순한 메모리 용량 경쟁을 넘어, '연산 근접성'이 AI 하드웨어의 새로운 권력 축이 되는 이유를 분석합니다.

요즘 반도체 업계의 화두는 단연 HBM이죠. 그런데 설계를 조금 더 깊게 파고들면 아주 흥미로운 수치가 나옵니다. TSMC N3E 공정 기준으로 1mm²의 실리콘 면적에 SRAM은 겨우 38Mb 정도밖에 못 담는데, HBM3e는 약 200Mb의 DRAM을 밀집시킬 수 있거든요. 밀도 차이가 무려 5배 이상 벌어지는 셈입니다 [1].

이 수치만 보면 “당연히 HBM이 압승 아니야?”라고 생각하시겠지만, 실제 AI 추론 현장에서는 이야기가 다릅니다. AI 추론 시대의 핵심은 단순히 메모리 대역폭(Bandwidth)을 넓히는 게 아니라, 데이터 이동을 최소화하는 ‘연산-메모리 근접성(Near-compute)’을 어떻게 최적화하느냐에 달려 있기 때문입니다.

메모리 벽(Memory Wall): 왜 연산 속도는 무의미해졌을까

최신 GPU를 쓰는데도 LLM 응답 속도가 답답하게 느껴진 적 있으신가요? 그건 연산 유닛(ALU)이 느려서가 아니라, 데이터가 도착하는 속도가 너무 느리기 때문입니다. 이걸 우리는 ‘메모리 벽(Memory Wall)’이라고 불러요.

특히 LLM 추론의 핵심인 오토레그레시브(Autoregressive) 디코딩 단계가 문제입니다. 토큰을 하나 생성할 때마다 모델의 전체 가중치를 DRAM에서 계속 로드해야 하거든요. 연산 유닛은 빛의 속도로 계산할 준비가 되어 있는데, 정작 가중치가 도착하지 않아 멍하니 기다리는 ‘메모리 바운드(Memory-bound)’ 상태가 되는 거죠.

“the time spent waiting for these weights to arrive becomes the dominant factor.”

(가중치가 도착하기를 기다리는 시간이 지배적인 요인이 됩니다.) [2]

결국 전통적인 GPU 구조에서는 아주 작고 빠른 SRAM(L2 캐시 등)과 거대하지만 상대적으로 느린 HBM 사이의 간극이 병목의 핵심이 됩니다. 이제 AI 하드웨어의 경쟁력은 “얼마나 빨리 계산하느냐”라는 TFLOPS 숫자 싸움에서 “데이터를 얼마나 효율적으로 옮기느냐”라는 물류 싸움으로 완전히 옮겨갔습니다.

HBM vs SRAM: ‘고속도로’와 ‘내 집 앞 창고’의 대결

그럼 HBM과 SRAM을 어떻게 이해하면 좋을까요? 쉽게 비유하자면 HBM은 ‘거대한 물류 고속도로’이고, SRAM은 ‘내 집 앞 작은 창고’라고 보시면 됩니다.

HBM은 DRAM을 수직으로 높게 쌓아 올려서 엄청난 용량과 넓은 대역폭을 제공합니다. 하지만 물리적으로 연산 유닛과 떨어져 있고, CoWoS 같은 복잡한 패키징 공정이 필요해 공급망 제약이 심하죠. 게다가 전력 소모도 상당합니다 [3].

반면 SRAM은 연산 유닛 바로 옆에 붙어 있어 지연 시간이 극단적으로 짧습니다. 하지만 치명적인 약점이 있죠. 바로 ‘면적 효율성’입니다. SRAM은 6개의 트랜지스터(6T)를 써서 비트를 저장하는 반면, DRAM은 트랜지스터 1개와 커패시터 1개(1T1C)면 충분하거든요 [4].

이 구조적 차이 때문에 SRAM은 HBM보다 훨씬 많은 면적을 차지합니다. 앞서 말씀드린 것처럼 N3E 노드에서 SRAM의 밀도는 HBM3e의 5분의 1 수준에 불과하죠 [1]. 즉, SRAM은 빠르지만 많이 담지 못하고, HBM은 많이 담지만 상대적으로 느린 특성을 가집니다.

SRAM 중심 아키텍처의 부상: DIMC와 Near-Compute

그래서 최근 Groq나 Cerebras, d-Matrix 같은 기업들이 주목받는 겁니다. 이들은 “어차피 데이터 옮기는 게 문제라면, 아예 메모리를 연산 유닛 바로 옆에, 혹은 내부에 박아버리자”라는 전략을 취합니다. 이것이 바로 ‘Near-compute’ 설계입니다.

여기서 한 단계 더 나아간 개념이 DIMC(Digital In-Memory Compute)입니다. 단순히 메모리를 가깝게 두는 수준을 넘어, SRAM 셀 자체를 연산과 저장을 동시에 수행하는 패브릭으로 전환하는 기술이죠. 데이터가 메모리에서 연산기로 이동하는 거리 자체를 없애버리는 겁니다 [3].

이런 SRAM 중심 설계는 특히 ‘산술 강도(Arithmetic Intensity)’가 낮은 워크로드에서 빛을 발합니다. 데이터 재사용률이 낮아 계속해서 새로운 데이터를 스트리밍해야 하는 디코딩 단계에서는, 멀리 있는 HBM에서 데이터를 가져오는 ‘Far-compute’ 방식보다 SRAM 기반의 ‘Near-compute’ 방식이 압도적으로 효율적이기 때문입니다 [4].

짚고 넘어갈 한계와 안티패턴

그렇다고 SRAM이 HBM을 완전히 대체하는 ‘실버 불렛(Silver Bullet)’이 될 수 있을까요? 제 생각은 “절대 아니다”입니다.

가장 큰 문제는 역시 용량입니다. SRAM의 낮은 밀도 때문에 수천억 개의 파라미터를 가진 거대 모델의 가중치를 전부 온칩(On-chip)에 올리는 건 물리적으로 불가능하거나, 비용이 천문학적으로 들어갑니다 [1]. 칩 크기를 웨이퍼 수준으로 키우는(Wafer-scale) 극단적인 방법이 있긴 하지만, 이는 수율 저하라는 또 다른 지옥을 불러오죠.

또한, 데이터 재사용이 많은 훈련(Training) 작업에서는 여전히 HBM 기반 GPU가 압도적입니다. 따라서 “SRAM 가속기가 나오면 HBM 수요가 사라질 것”이라는 믿음은 반도체의 물리적 밀도 차이를 간과한 위험한 오해입니다.

“SRAM for AI inference is far from the silver bullet everyone is expecting”

(AI 추론을 위한 SRAM은 모두가 기대하는 만능 해결책과는 거리가 멉니다.) [1]

핵심 요약

AI 추론의 진짜 병목은 연산 능력이 아니라, 메모리 대역폭과 데이터가 이동하는 물리적 거리에서 옵니다.
SRAM은 속도와 근접성 면에서 최강이지만, 물리적 밀도가 낮아 대용량 모델을 담기엔 역부족입니다.
HBM은 거대 모델을 담아내는 필수적인 ‘그릇’이며, SRAM은 그 데이터를 빠르게 처리하게 돕는 ‘촉매제’ 역할을 합니다.
결국 미래의 승자는 SRAM의 초저지연 특성과 HBM/HBF(High Bandwidth Flash)의 대용량을 어떻게 하이브리드로 통합하느냐에 달려 있습니다 [5].

단순히 ‘더 빠른 칩’을 찾는 시대는 끝났습니다. 이제는 데이터가 흐르는 길을 어떻게 설계하느냐가 곧 지능의 속도를 결정합니다. 엔지니어로서 우리가 주목해야 할 것은 벤치마크의 TFLOPS 숫자가 아니라, 메모리 셀과 연산 유닛 사이의 ‘물리적 거리’입니다.

References

1. [viksnewsletter.com] A Close Look at SRAM for Inference in the Age of HBM Supremacy — https://www.viksnewsletter.com/p/a-close-look-at-sram-for-inference 2. [apxml.com] LLM Inference Bottlenecks — https://apxml.com/courses/llm-compression-acceleration/chapter-1-foundations-llm-efficiency-challenges/memory-compute-bottlenecks-inference 3. [thedataexchange.media] Breaking the Memory Wall in the Age of Inference – The Data Exchange — https://thedataexchange.media/sid-sheth-d-matrix 4. [gimletlabs.ai] The emerging role of SRAM-centric chips in AI inference — https://gimletlabs.ai/blog/sram-centric-chips 5. [linkedin.com] Addressing Memory Bandwidth Constraints in LLM Inference with HBF — https://www.linkedin.com/posts/sharada-yeluri_the-paper-challenges-and-research-directions-activity-7423387134209839104-ZJgh

FAQ

AI 추론에서 '메모리 벽(Memory Wall)'이란 무엇인가요?

연산 유닛(ALU)의 계산 속도는 매우 빠르지만, 데이터를 공급하는 속도가 이를 따라가지 못해 연산 유닛이 데이터를 기다리며 멍하니 대기하게 되는 병목 현상을 의미합니다.

HBM과 SRAM의 가장 큰 차이점은 무엇인가요?

HBM은 DRAM을 수직으로 쌓아 용량이 크고 대역폭이 넓은 '거대한 물류 고속도로'와 같지만 연산 유닛과 물리적으로 떨어져 있습니다. 반면 SRAM은 연산 유닛 바로 옆에 위치해 지연 시간이 극단적으로 짧은 '내 집 앞 작은 창고'와 같지만, 면적 효율성이 낮아 저장 용량이 훨씬 적습니다.

SRAM 중심 설계(Near-compute)가 특히 효율적인 경우는 언제인가요?

데이터 재사용률이 낮아 계속해서 새로운 데이터를 스트리밍해야 하는 '산술 강도'가 낮은 워크로드, 특히 LLM 추론의 디코딩 단계에서 HBM 방식보다 압도적으로 효율적입니다.

DIMC(Digital In-Memory Compute) 기술이란 무엇인가요?

단순히 메모리를 연산 유닛 가까이 배치하는 것을 넘어, SRAM 셀 자체가 연산과 저장을 동시에 수행하도록 하여 데이터가 메모리에서 연산기로 이동하는 거리 자체를 없애버리는 기술입니다.

SRAM이 HBM을 완전히 대체할 수 없는 이유는 무엇인가요?

SRAM은 물리적 밀도가 매우 낮아 수천억 개의 파라미터를 가진 거대 모델의 가중치를 모두 온칩(On-chip)에 올리는 것이 물리적으로 불가능하거나 비용이 천문학적으로 들기 때문입니다.

정보로부자되세요(정.보.부.자)

HBM이 전부가 아닙니다: AI 추론의 병목을 깨는 SRAM 중심 설계의 역설

HBM이 전부가 아닙니다: AI 추론의 병목을 깨는 SRAM 중심 설계의 역설

메모리 벽(Memory Wall): 왜 연산 속도는 무의미해졌을까

HBM vs SRAM: ‘고속도로’와 ‘내 집 앞 창고’의 대결

SRAM 중심 아키텍처의 부상: DIMC와 Near-Compute

짚고 넘어갈 한계와 안티패턴

핵심 요약

References

관련 글 추천

FAQ

AI 추론에서 '메모리 벽(Memory Wall)'이란 무엇인가요?

HBM과 SRAM의 가장 큰 차이점은 무엇인가요?

SRAM 중심 설계(Near-compute)가 특히 효율적인 경우는 언제인가요?

DIMC(Digital In-Memory Compute) 기술이란 무엇인가요?

SRAM이 HBM을 완전히 대체할 수 없는 이유는 무엇인가요?

답글 남기기 응답 취소