
“결국 AI 경쟁의 승패는 누가 더 많은 GPU를 가졌느냐가 아니라, 그 GPU를 돌릴 전기를 누가 더 안정적으로 확보하느냐에 달렸다.” 업계 관계자들 사이에서 심심치 않게 들려오는 이 말은 이제 단순한 예측을 넘어 현실이 되고 있다. 최근 메타(Meta)가 일주일 만에 1GW에 달하는 태양광 전력을 확보했다는 소식은 AI 모델의 크기가 커질수록 전력 인프라가 곧 경쟁력이 된다는 사실을 극명하게 보여준다.
AI의 거대한 식욕, 1GW의 의미
메타는 이번 주에만 세 건의 계약을 체결하며 약 1기가와트(GW)의 태양광 전력을 확보했다. 이 중 한 건은 600메가와트(MW) 규모의 대형 계약을 포함하고 있다. 숫자로만 보면 감이 잘 오지 않겠지만, 1GW는 수십만 가구가 동시에 사용할 수 있는 엄청난 양의 에너지다. 메타가 이토록 공격적으로 재생 에너지를 사들이는 이유는 명확하다. Llama 시리즈와 같은 거대 언어 모델(LLM)을 학습시키고 추론하는 데이터 센터는 말 그대로 ‘전기 먹는 하마’이기 때문이다.
특히 이번 계약을 통해 메타의 올해 총 태양광 구매 용량은 3GW를 넘어섰다. 단순히 탄소 중립이라는 기업의 사회적 책임(CSR)을 다하기 위한 행보라기보다는, AI 야심을 실현하기 위한 생존 전략에 가깝다. 전력망(Grid)의 불안정성은 데이터 센터 운영의 최대 리스크이며, 자체적인 재생 에너지 공급망을 구축하는 것은 운영 비용 절감과 안정성 확보라는 두 마리 토끼를 잡는 일이다.
데이터 센터 전력 효율 모니터링하기
메타와 같은 빅테크 기업들이 전력 확보에 열을 올리는 만큼, 우리 같은 개발자나 엔지니어들도 자신이 돌리는 AI 모델이 얼마나 많은 자원을 소모하는지 파악하는 습관이 필요하다. 특히 GPU 서버를 운영한다면 전력 소비량(Power Draw)을 실시간으로 모니터링하여 전력 효율을 최적화해야 한다. NVIDIA GPU를 사용하고 있다면 nvidia-smi 도구를 통해 현재 전력 사용량을 간단히 확인할 수 있다.
단순히 한 번 확인하는 것이 아니라, 일정 간격으로 전력 사용량을 기록하여 로그 파일로 저장하고 싶다면 다음과 같은 셸 스크립트를 활용해 볼 수 있다. 이 방법은 모델 학습 중 특정 구간에서 전력 피크가 발생하는지 확인하는 데 유용하다.
# 1초 간격으로 GPU 전력 사용량을 기록하는 간단한 스크립트
while true; do
echo "$(date '+%Y-%m-%d %H:%M:%S') $(nvidia-smi --query-gpu=power.draw --format=csv,noheader,nounits)" >> gpu_power_log.txt
sleep 1
done
위 명령어를 실행하면 gpu_power_log.txt 파일에 시간별 전력 소비량이 기록된다. 만약 nvidia-smi 명령 실행 시 “NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver” 같은 에러가 발생한다면, 드라이버 버전이 꼬였거나 커널 업데이트 후 재부팅이 되지 않은 경우가 많다. 이럴 때는 sudo apt-get install --reinstall nvidia-driver-xxx (xxx는 버전 번호)를 통해 드라이버를 재설치하거나, dkms를 이용해 커널 모듈을 다시 빌드해야 한다.
전력 효율 최적화를 위한 설정 단계
무작정 전력을 많이 쓰는 것보다 효율적으로 쓰는 것이 중요하다. 하드웨어 레벨에서 전력 제한(Power Limit)을 설정하면 성능 하락은 최소화하면서 전력 소비와 발열을 크게 줄일 수 있다. 다음은 nvidia-smi를 이용해 GPU의 최대 전력 소비량을 제한하는 단계별 방법이다.
- 현재 전력 제한 확인:
nvidia-smi -q -d POWER명령어를 입력해 현재 설정된Min Power Limit와Max Power Limit를 확인한다. - 전력 제한 설정: 예를 들어, GPU의 전력 제한을 250W로 설정하고 싶다면
sudo nvidia-smi -pl 250명령어를 실행한다. (관리자 권한이 필요하다.) - 설정 적용 확인: 다시
nvidia-smi를 실행하여Power Draw수치가 설정한 상한선을 넘지 않는지 모니터링한다.
실제로 전력 제한을 10~20% 정도 낮추었을 때, 학습 속도는 2~3% 정도만 느려지지만 전력 소모와 온도는 눈에 띄게 떨어지는 경험을 할 수 있다. 메타가 1GW라는 거대한 전력을 확보하는 이유도 결국 이런 효율의 극한을 추구하면서도 절대적인 양의 에너지가 필요하기 때문일 것이다.
인프라가 곧 지능이 되는 시대
과거의 소프트웨어 경쟁이 알고리즘의 효율성이나 코드의 최적화에 집중했다면, 이제는 그 코드가 돌아가는 물리적 기반, 즉 에너지와 칩의 경쟁으로 옮겨갔다. 메타의 이번 태양광 확보 결정은 AI 모델의 고도화가 단순히 수학적 모델링의 문제가 아니라, 거대한 물리적 인프라 구축 사업임을 시사한다.
우리는 이제 모델의 파라미터 수뿐만 아니라, 그 모델을 유지하기 위해 얼마나 많은 태양광 패널이 깔려야 하는지를 생각해야 하는 시대에 살고 있다. 하드웨어와 소프트웨어, 그리고 에너지가 하나의 유기체처럼 연결되어 움직이는 이 거대한 흐름 속에서 우리가 주목해야 할 점은 무엇일까.
이번 사례를 통해 배운 점은 결국 ‘확장성(Scalability)’의 정의가 바뀌었다는 것이다. 이제 확장성은 코드의 모듈화가 아니라, 전력망의 확장성과 에너지 수급 능력으로 정의된다. 그렇다면 앞으로의 AI 경쟁에서 전력 확보에 실패한 기업은 아무리 뛰어난 알고리즘을 가지고 있어도 결국 도태될 수밖에 없을까? 여러분의 생각은 어떠한지 궁금하다.