Physical AI HBM Smart Factory SDV AIoT Power Semicon 특수 가스 정정·반론보도 모음 e4ds plus

AMD·OpenAI, 초대형 AI 인프라 병목 해소 나선다

기사입력2026.05.07 14:59


 
차세대 AI 네트워킹 표준 ‘MRC’ 공개

초거대 AI 모델의 성능을 좌우하는 핵심 요소가 ‘GPU 연산력’에서 ‘네트워크 효율성’으로 이동하고 있다. 수십만 개의 GPU가 실시간으로 동기화하며 데이터를 주고받는 AI 학습 환경에서는, 단 한 번의 지연이나 장애도 전체 처리량을 떨어뜨릴 수 있기 때문이다.

이러한 상황에서 AMD가 OpenAI, 마이크로소프트 등과 함께 새로운 AI 네트워크 표준 ‘MRC(Multipath Reliable Connection)’를 공개하며 업계의 주목을 받고 있다.

AMD는 MRC를 오픈 컴퓨트 프로젝트(OCP)에 기여하며 생태계 전반에서 활용할 수 있도록 개방했다.

기존 단일 경로 기반 네트워크가 대규모 AI 트래픽을 처리하는 데 한계를 드러낸 반면, MRC는 패킷을 여러 경로로 동시에 분산해 전송함으로써 혼잡을 줄이고 지연 편차를 최소화한다.

또한 장애 발생 시 경로를 실시간으로 재조정해, 네트워크가 ‘충격 흡수 장치’처럼 동작하도록 설계된 것이 특징이다.

AMD는 단순히 표준 제정에 참여한 것을 넘어, 실제 클라우드 사업자 테스트 클러스터에서 MRC를 구현·검증했다고 밝혔다.

이는 MRC가 이론적 제안이 아니라, 실제 초대형 AI 학습 환경에서 성능을 입증한 기술임을 의미한다.

AMD 네트워킹 부문을 총괄하는 크리슈나 도다파네니(CVP)는 “AI 확장의 진짜 병목은 네트워크”라며 “AMD의 프로그래머블 네트워킹 기술이 혁신을 빠르게 실전으로 연결한다”고 강조했다.

특히 AMD는 Pensando Pollara 400 AI NIC에서 이미 MRC 기반 기술을 구현해 왔으며, 이를 차세대 800G ‘Vulcano’ AI NIC로 자연스럽게 확장할 계획이다. 하드웨어·소프트웨어 전면에서 프로그래머블한 구조는 AMD가 경쟁사 대비 차별화되는 지점으로 평가된다.

AI 인프라 성능은 더 이상 ‘이론적 최대 대역폭’이 아니라, 실제 환경에서 얼마나 안정적으로 GPU를 가동률 100%에 가깝게 유지할 수 있는가로 정의된다.

MRC는 이러한 요구에 맞춰, 대규모 AI 클러스터의 효율성과 신뢰성을 높이는 핵심 기술로 자리매김할 전망이다.

AMD는 OpenAI, 인텔, 브로드컴 등과 함께 MRC 생태계를 확장하며, AI 네트워킹을 개방형·표준 기반 인프라로 발전시키겠다는 목표를 밝혔다.