Physical AI HBM Smart Factory SDV AIoT Power Semicon 특수 가스 정정·반론보도 모음 e4ds plus

[IT 인사이트] 넷앱, “고성능의 GPU 의존 없이 빠르게 AI 추론 인프라 구축”

기사입력2026.04.29 15:49


▲테라텍의 데이터센터 내에 넷앱의 ‘NetApp AIPod Mini with Intel’이 설치돼 있다.

 
검증된 인프라로 수일 내 구축, 쿠버네티스·대시보드 기반 관리
SK네트웍스서비스·테라텍 통해 국내 공급, 지원 서비스도 제공

넷앱(NetApp)이 인텔, 테라텍, SK네트웍스서비스와 협력해 ‘NetApp AIPod Mini with Intel’을 한국 시장에 출시하며, 고성능의 GPU를 갖춘 AI 데이터 센터에 의존하지 않고서도 CPU 기반 추론을 통해 사내 부서 또는 규제 산업에서 빠르게 AI 추론 인프라를 구축할 수 있도록 적극 나섰다.

넷앱은 29일 열린 출시 기자간담회를 통해 ‘NetApp AIPod Mini with Intel’이 “과도한 인프라 투자 없이 기업이 AI 추론을 빠르게 도입할 수 있도록, 비용·복잡성 장벽을 낮춘 통합형 레퍼런스 시스템”이라고 밝혔다.

NetApp AIPod Mini는 인텔 제온 6 기반 x86 서버와 네트워크 스위치, 넷앱 올플래시 스토리지(ONTAP 기반)를 한 묶음으로 구성하고, 인텔이 주도하는 OPEA(Open Platform for Enterprise AI) 소프트웨어 스택을 올린 ‘패키지형 AI 추론 인프라’다.

RAG(검색증강생성) 또는 LLM 워크플로를 기반으로 기업의 데이터 자산을 AI가 활용하도록 해, 생성형 AI가 ‘사내 데이터에서 맥락 있는 답’을 찾도록 돕는 것이 핵심 목표다.

기존 AI 데이터센터가 대규모 GPU 클러스터 중심으로 설계돼 초기비용과 운영 난도가 높았다면, AIPod Mini는 ‘GPU 없이도 가능한 영역의 추론 워크로드’를 CPU 기반으로 최적화한 점을 전면에 내세운다.
 

▲조민성 인텔코리아 상무가 발표하고 있다.


조민성 인텔코리아 상무는 모델 크기를 세 구간으로 나누며 “7B∼8B 수준의 스몰 언어모델(SLM)은 GPU 도움 없이도 CPU만으로 프로덕션 환경에서 수행 가능하다”고 강조했다.

‘AI=GPU’라는 고정관념 대신, 워크로드 성격에 맞춰 CPU 추론이라는 선택지를 제시한 셈이다.

성능 근거로는 제온 6에 탑재된 인텔 AMX(행렬 연산 가속)와 메모리 대역폭 강화를 위한 MRDIMM, 그리고 oneAPI·OpenVINO 등 소프트웨어 최적화 스택이 언급됐다.

조민성 상무는 AMX가 코어 단위로 포함돼 행렬곱 연산을 가속하고, 메모리 대역폭 확대가 AI 성능에 중요한 역할을 한다고 설명했다.

또 다른 차별점은 ‘도입 속도’다.
 

▲김기석 넷앱 상무가 ‘NetApp AIPod Mini with Intel’를 소개하고 있다.


김기석 넷앱 상무는 엔터프라이즈 환경에서 RAG 프로젝트가 데이터 수집부터 환경 구성, 모델 선정, 사내 데이터 결합과 튜닝까지 이어지며 통상 수개월이 걸릴 수 있다고 짚었다.

반면 AIPod Mini는 검증된 레퍼런스 디자인(서버·스위치·스토리지)과 패키지 형태의 설계를 통해 ‘불필요한 기술 복잡성’을 낮추고 구축 시간을 단축하는 방향으로 설계됐다는 설명이다.

넷앱과 인텔이 반복해 강조한 타깃은 대기업의 ‘전사 AI 데이터센터’가 아니라, 특정 업무를 빠르게 자동화해야 하는 부서·지점 단위 조직이다.

김기석 넷앱 상무는 부서·지점 수준에서 AI 추론을 구축할 때 “기업 AI 인프라가 너무 크고 불필요하게 복잡해 요구와 불일치가 발생한다”고 지적하며, 이를 해결하기 위한 런타임 AI 솔루션으로 AIPod Mini를 제시했다.

구체적 사용처로는 법무의 계약·문서 업무, 소매의 재고·개인화, 제조의 예측 유지보수 등이 대표 사례로 제시됐다.

특히 외부 클라우드에 데이터를 올리기 어렵거나 인터넷 환경이 제한된 산업·공공 부문처럼 ‘로컬(온프레미스)에서 데이터와 AI를 함께 다뤄야 하는’ 수요가 핵심 고객군으로 거론됐다.

김기석 넷앱 상무는 특정 부서 또는 인터넷 환경이 법률·산업 규제로 제약되는 곳에 쓰기 위해 디자인했다고 밝혔고, 조민성 인텔 상무도 공공 부문이 온프레미스 형태의 프라이빗 인스턴스를 선호하는 사례를 들어 활용 가능성을 설명했다.

구축 파트너로 참여한 테라텍은 “데이터 사이언티스트나 R&D 조직이 없어도 빠르게 구축 가능한 형태”를 내세웠다.
 

▲강유진 테라텍 수석이 데모를 통해 ‘NetApp AIPod Mini with Intel’의 운영 방법을 설명하고 있다.


강유진 테라텍 수석은 검증된 인프라 구조 위에 OPEA 오픈소스를 올리면 “수일 내 시스템 구축”이 가능하다고 설명했다.

기본 구성은 스토리지·스위치·관리 서버·애플리케이션 서버로 이어지며, 애플리케이션 서버는 인텔 제온 6 기반으로 구성된다.

데모 환경의 예로, 애플리케이션 서버 2대(각 2소켓) 기준 총 344 코어, 1TB 메모리 구성이 언급됐다.

운영 측면에서는 대시보드를 통해 관리자/사용자 계정을 분리하고, 챗 Q&A 화면을 포함해 문서 요약, 오디오 Q&A 등 기능을 오픈소스를 내려받아 배포할 때 선택적으로 탑재 할 수 있다고 설명했다.

또한 프롬프트 템플릿, 리트리버/재정렬 파라미터, 가드레일, LLM 응답 파라미터(예: temperature·토큰 제한 등)를 UI에서 조정할 수 있다는 점도 강조됐다.

AIPod Mini의 핵심 메시지 중 하나는 ‘로컬 AI’의 보안·거버넌스다.

김기석 상무는 온프레미스 환경에서 데이터를 처리하고, ONTAP의 접근 제어·버저닝·추적성 기능으로 AI 워크플로 전반에 보안과 거버넌스를 적용할 수 있다고 밝혔다.

또한 ONTAP의 강력한 ACL과 메타데이터 기반 거버넌스, 그리고 FIPS 140-2/140-3 등 인증을 언급하며 민감 데이터 보호를 강조했다.

즉 ‘사내 데이터가 밖으로 나가지 않게’ 하면서도 RAG 기반으로 업무 정확도를 높이려는 기업 수요를 정면으로 겨냥한 셈이다.

테라텍은 CPU 추론의 체감 성능을 ‘TTFT(첫 토큰 출력 시간)’와 동시 사용자 확장성 관점에서 제시했다.

강유진 수석은 벤치마크 결과 동시 사용자 30∼50명 수준에서는 TTFT와 토큰 처리량이 크게 변하지 않았다고 설명하며, 현 구성에서 추천 사용자 수치를 제시했다.

사용자가 더 늘면 애플리케이션 서버를 확장하는 방식으로 대응할 수 있다는 취지다.

넷앱 측도 “대상 사용자가 500명, 1,000명, 1,500명 수준으로 늘 경우 서버를 추가해 배포하면 그만큼 성능을 낼 수 있다”는 확장 방향을 언급했다.

행사에서 3사가 공통으로 제시한 시장 전망은 ‘추론(inferencing) 중심 성장’이다.

김기석 상무는 AI 프로젝트가 모델 트레이닝 중심에서 추론·운영·배포 중심으로 이동하고 있으며, 고성능 GPU 일변도에서 최적화된 환경에서 CPU 기반으로 돌리는 흐름이 커지고 있다고 진단했다.

OPEA 생태계 역시 제품 확산의 촉매로 거론됐다.

조민성 상무는 OPEA가 엔터프라이즈 AI 도입을 쉽게 하기 위한 오픈소스 커뮤니티 프로젝트이며, 필요한 파이프라인 모듈을 ‘레고 블록’처럼 제공해 고객이 커스터마이징하거나 엔드투엔드 스택을 바로 가져다 쓸 수 있다고 설명했다.

넷앱은 “생성형 AI가 범용 솔루션으로 주목받지만 프롬프트 해석 정확도 문제로 기대 성과를 못 얻는 경우가 많다”는 점을 짚으며, AIPod Mini가 고유 데이터를 비즈니스 성과로 전환하도록 돕겠다는 메시지도 내놨다.

공급 측면에선 4월29일 기준 SK네트웍스서비스와 테라텍을 통해 국내 공급될 예정이며, 고객의 AI 활용 사례에 맞춘 구축·운영 지원 서비스도 함께 제공된다.