[고든 정의 TECH+] 인공지능 시장 정조준한 엔비디아의 인공지능 가속기 A100
박종익 기자
입력 2020 05 15 15:16
수정 2020 05 15 15:16
A100. 출처=엔비디아
하지만 이렇게 늘어난 크기에도 불구하고 A100의 배정밀도 연산 능력은 9.7 TFLOPs로 GV100의 7.8 TFLOPs과 비교해 큰 차이가 없습니다. 그 이유는 시대의 요구에 따라 고성능 컴퓨팅보다 인공지능에 관련 연산 유닛을 대거 집어넣었기 때문입니다. 사실 엔비디아는 2017년에 나온 볼타 GV100부터 GPU에 인공지능 기술을 대거 도입해 이 시장에서 승승장구했습니다. 암페어 A100은 아예 올인했다고 해도 좋을 정도로 인공 신경망 관련 신기술에 집중했습니다.
암페어 A100은 인공지능과 관련된 특수 연산인 텐서 연산을 가속하기 위해 3세대 텐서 코어를 탑재했습니다. 3세대 텐서 코어는 TensorFloat-32 (TF32) 텐서 연산 유닛을 새로 탑재해 FP32 데이터 연산과 입출력 속도를 10배 정도 끌어올렸습니다. 기존의 볼타에서도 지원했던 FP16 연산 속도도 2.5배 빨라졌습니다. 이것만으로도 인공지능 관련 연산 속도를 크게 높일 수 있지만, 엔비디아는 희소성 가속(Sparsity Acceleration)이라는 신기술을 도입해 인공 신경망 연산 속도를 다시 두 배 높였습니다. 따라서 실제 체감 속도는 최대 20배 빨라졌습니다.
엔비디아가 공개한 벤치마크 결과에 의하면 암페어 A100은 일반적으로 많이 사용되는 고성능 컴퓨팅 (HPC) 연산에서는 볼타 대비 1.5-2.1배 정도 빠르며 인공지능 연산은 방식에 따라 3-7배 정도 더 빠릅니다.(그래프 참조) 고성능 컴퓨팅 분야에서도 더 빨라지긴 했지만, 인공지능 관련 기능을 대폭 강화해 AI에 대한 요구가 많아지는 데이터 센터 및 기업 시장을 정조준한 것으로 풀이될 수 있습니다.
엔비디아가 같이 공개한 A100의 재미있는 부가 기능 중 하나는 하나의 GPU를 7개의 가상 GPU로 활용할 수 있는 Multi-Instance GPU(MIG) 기술입니다. A100처럼 큰 자원을 지닌 GPU를 모두 사용하는 인공지능 작업도 있을 수 있지만, 사실 전체가 필요하지 않을 수도 있습니다. 이 경우 GPU의 자원을 쪼개 여러 사용자가 같이 쓰거나 한 사용자라도 여러 작업을 동시에 수행할 수 있다면 작업 효율을 높일 수 있습니다.
DGX A100. 출처=엔비디아
본래 엔비디아는 게임용 그래픽 카드인 지포스 제조사로 시작해서 전문가용 그래픽 카드인 쿼드로와 고성능 컴퓨팅 GPU인 테슬라로 영역을 점점 넓혀왔습니다. 최근에는 GPU 기반 인공지능 가속기로 IT 업계를 선도한다는 평가를 받고 있습니다. 물론 그와 동시에 엔비디아가 공개하는 최신 기술과 고성능 GPU는 일반 소비자에게 점점 더 생소한 물건이 되고 있습니다. 본체 가격만 수억 원에 달하는 DGX A100 서버를 집에 구비할 개인 소비자는 극히 드물 것입니다. 그러나 점점 발전하는 인공지능 기술은 이미 우리 삶에 큰 영향을 주고 있고 앞으로는 그 영향력이 더 커질 것입니다.
역사상 가장 큰 프로세서로 등장한 A100은 더 강력한 인공지능에 대한 기업들의 수요가 얼마나 큰지 보여주는 증거입니다. 하지만 인공지능을 비즈니스에 접목한 기업이나 연구에 활용하는 과학자 모두 여기에 만족하지 않을 것입니다. 분명 몇 년 안에 이보다 더 강력한 인공지능 하드웨어가 탄생하게 될 것입니다. 이렇게 발전한 인공지능이 인간을 위협하지 않고 인간을 위해서만 사용되기를 기대합니다.
고든 정 칼럼니스트 jjy0501@naver.com


























