AI 버블 논란에 구글, 아마존 도전장까지…엔비디아는 왕좌를 지킬 수 있을까?
고든 정 기자
업데이트 2025 12 05 17:16
입력 2025 12 05 17:16
구글 7세대 TPU인 아이언우드(Ironwood). 구글 제공
지난 3분기, 엔비디아는 570억 달러의 매출과 함께 무려 73.4%에 달하는 매출 총이익률(gross margin)을 발표했습니다. 그만큼 GPU 하나 팔아서 남기는 게 많다는 이야기로 영업 이익은 매출의 절반이 넘는 360억 달러에 달했습니다. 사실상 원가에 몇 배에 달하는 폭리를 취하면서 매출보다 이익이 더 가파르게 증가한 것입니다. 하지만 이렇게 파는데도 데이터 센터 GPU는 다 팔려 나가 물량 구하기가 쉽지 않다는 게 젠슨 황 CEO의 설명입니다.
그런데도 AI 버블 논란은 여전히 가라앉지 않고 있습니다. AI를 통해 인력을 감축하고 비용을 절감하는 기업들은 늘고 있지만, 정작 막대한 비용이 들어가는 AI 서비스 자체는 그에 걸맞은 수익을 창출하지 못하고 있기 때문입니다. 예를 들어, ChatGPT를 서비스하는 오픈 AI는 재무제표를 공개하지는 않지만, 창립 이래 계속해서 적자를 기록하고 있는 것으로 알려져 있습니다. 따라서 최근에는 막대한 투자 비용을 감당하기 위해 대규모 자금 조달에 나서는 한편 광고와 같은 다른 수익 창출 방법도 모색하고 있습니다. 물론 오픈 AI와 경쟁하는 다른 AI 서비스들 역시 상황은 크게 다르지 않습니다.
AI가 미래의 성장 동력이라는 점을 의심하는 이는 없지만, 갈수록 치솟는 GPU, 메모리, 스토리지, 그리고 막대한 전기 사용료 등을 고려하면 기업들이 적자를 감수하고 무작정 투자를 계속할 수는 없습니다. 결국, 어느 시점에는 자금력과 기술력이 뒤처지는 회사는 시장에서 도태되고, 비용 절감과 수익 모델 창출에 성공한 기업만이 살아남게 될 것입니다. 이에 따라 구글이나 아마존 같은 빅테크들은 자체 AI 칩(ASIC)에 막대한 투자를 단행하며 엔비디아 GPU보다 저렴한 대안을 모색하고 있습니다.
그런 의미에서 최근 구글이 공개한 7세대 TPU인 아이언우드(Ironwood)는 시장에 큰 충격을 던져주었습니다. TPU(Tensor Processing Unit)는 애플리케이션 특정 통합 회로(ASIC)의 일종으로, 신경망의 행렬 곱셈과 같은 연산을 효율적으로 처리하기 위한 특수 목적 프로세서입니다. CPU가 가장 일반적인 용도의 프로세서라고 한다면 GPU는 그래픽 연산에 필요한 병렬 연산에 최적화된 프로세서라고 할 수 있습니다. 엔비디아는 GPU에 고성능 컴퓨팅에 필요한 좀 더 범용 연산 능력을 부여해 일반 목적 GPU(GPGPU)라고 명명했습니다. 그리고 여기에 사용되는 언어인 쿠다(CUDA)를 개발했습니다.
GPU의 GPGPU 성능이 가장 큰 힘을 발휘한 분야가 바로 AI였습니다. 딥러닝 모델 학습과 같이 대규모 데이터를 병렬로 처리해야 하는 작업이 GPGPU에 적합했기 때문입니다. 결국 최근에 나오는 GPU는 AI 성능을 담당하는 부분이 더 커지면서 핵심 기능으로 자리 잡고 있습니다. 구글의 TPU는 GPU보다 더 좁은 범위의 연산만 수행하는 특수 프로세서로 CPU – GPU – TPU의 순으로 점점 더 할 수 있는 기능은 좁아진다고 할 수 있습니다. 다만 반대로 에너지 효율은 더 높아질 수 있습니다. 사실 3D 그래픽도 CPU만 가지고 처리할 수 있습니다. 하지만 처리 속도가 너무 느리고 기능이 제한적이라 3D 가속기라는 별도의 보조 프로세서가 나오게 되었고 그것이 나중에 GPU로 발전한 것입니다.
TPU도 그런 연장선상에서 보면 엔비디아의 GPU에 상당히 위협적인 존재가 될 수 있습니다. 아이언우드 자체의 성능은 4,614 FP8 TFLOPS 정도로 B200 블랙웰 GPU의 4.5 PFLOPS와 비슷하지만, GPU보다 구조가 단순할 가능성이 높아 생산비나 제작 단가가 저렴할 수 있습니다. 최근 제미나이 3의 놀라운 성능을 보면 그렇다고 기능이 부족한 것도 아닌 것으로 보여 적지 않은 충격을 주고 있습니다.
트레이니움3(Trainium3). 아마존 제공
여기에 아마존의 AWS 역시 3세대 AI ASIC 칩인 트레이니움3(Trainium3)을 공개하면서 도전장을 내밀고 있습니다. 트레이니움3 칩 하나는 PF8 기준 2.52 PFLOPs의 연산 능력을 지니고 있으며 144GB의 HBM3e 메모리와 4.9TB/s의 대역폭을 지니고 있습니다. 그리고 144개의 칩이 모인 Trn3 UltraServers는 총 362 FP8 PFLOPs의 연산 능력을 확보해 100만 토큰 이상의 AI 서비스를 감당할 수 있습니다.
칩 하나의 성능만 보면 엔비디아의 B200 GPU보다 낮지만, 역시 GPU보다 단순한 구조로 전체 비용은 더 낮을 가능성이 있습니다. 다만 아직은 AI 생태계에서 엔비디아의 입지가 지배적인 만큼 아마존은 트레이니움4에서는 엔비디아의 고속 인터페이스인 NVLink를 지원해 트레이니움4와 엔비디아 GPU를 같이 쓸 수 있게 한다는 계획입니다.
만약 이런 빅테크들의 맞춤형 ASIC 칩들이 비용 효과적인 대안을 제시할 경우 엔비디아에 대한 의존도는 낮아질 수 있습니다. 그러면 지금처럼 높은 가격에도 없어서 못 파는 상황은 지속되지 않을 가능성이 있습니다. 물론 엔비디아를 왕좌에서 그렇게 쉽게 끌어내리진 못할 것이라는 의견도 있습니다. 엔비디아가 AI 왕좌를 지킬 수 있는 가장 강력한 무기는 단순한 하드웨어 성능이 아닌, CUDA(쿠다)라는 소프트웨어 생태계에 있습니다. 2006년부터 구축된 CUDA 플랫폼은 수많은 AI 개발자들에게 압도적인 편의성과 최적화된 도구를 제공해 왔습니다.
이처럼 개발자들이 이미 CUDA 환경에 깊이 익숙해져 있다는 점은 다른 칩으로 전환하는 데 막대한 전환 비용을 발생시킵니다. 따라서 구글, 아마존 같은 빅테크들의 자체 ASIC이 고성능과 저비용을 달성하더라도, 이 CUDA 생태계의 장벽을 어떻게 뛰어넘을 것인가는 여전히 가장 큰 숙제로 남아 있습니다.
베라 루빈을 설명하는 젠슨 황 CEO. 엔비디아 제공
여기에 엔비디아 역시 경쟁자들처럼 차세대 칩을 준비하고 있습니다. 차세대 루빈 GPU는 FP4 기준 50 PFLOPS의 연산 능력을 지니고 있으며 이를 이용한 렉 시스템인 베라 루빈 NVL 144는 3.6EFLOPS라는 슈퍼컴퓨터급 연산 능력을 지니고 있습니다. 엔비디아는 루빈 GPU의 양산을 서두르는 한편 다음 세대 제품에서 성능을 더 높여 경쟁자들의 추격을 따돌리기 위해 고군분투할 것으로 보입니다. 과연 빅테크들의 거센 도전에서 엔비디아가 왕좌를 지킬 수 있을지 주목됩니다.