노타, GPU·NPU 분산 추론으로 AI PC LLM 효율 개선

기사입력2026.06.04 13:57

AI PC 경쟁, 칩 성능 넘어 시스템 최적화로 확대

노타가 AI PC에서 GPU와 NPU를 함께 활용해 대규모언어모델(LLM) 추론 효율을 높이는 기술을 구현했다. AI PC 성능 경쟁이 개별 칩 사양을 넘어 시스템 차원의 연산 최적화로 확대되는 흐름과 맞물린다.

AI 경량화 및 최적화 기술 기업 노타는 6월 4일 인텔 루나 레이크 기반 AI PC에서 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 밝혔다.

이번 기술은 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석한 것이 핵심이다. 노타는 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 수행하도록 배치하는 분리형 추론 방식을 적용했다.

이기종 컴퓨팅은 CPU, GPU, NPU처럼 서로 다른 특성을 가진 연산 장치를 작업 성격에 따라 나눠 활용하는 방식이다. AI PC에서는 하나의 프로세서 성능뿐 아니라 기기 내부의 여러 연산 장치를 어떻게 조합하느냐가 실제 추론 성능과 전력 효율에 영향을 준다.

노타에 따르면 분리형 추론 적용 결과 단일 GPU 실행 방식 대비 토큰당 에너지 소비는 약 32% 감소했고, 생성 처리량은 약 12% 향상됐다. 단일 NPU 실행 방식과 비교하면 첫 응답 지연시간은 약 89% 단축됐다.

이번 결과는 GPU와 NPU를 단순 병렬로 사용하는 것이 아니라, LLM 추론 과정의 단계별 특성에 맞춰 연산 장치를 배치했다는 점에서 의미가 있다. 같은 AI PC에서도 하드웨어 자원을 어떻게 활용하느냐에 따라 응답 속도와 전력 효율이 달라질 수 있음을 보여준다.

글로벌 PC 업계에서도 AI PC의 경쟁 축은 NPU 탑재 여부를 넘어 CPU, GPU, NPU를 결합한 시스템 설계로 이동하고 있다. 엔비디아와 인텔 등 주요 반도체 기업은 최근 AI 에이전트 실행을 겨냥한 PC용 연산 플랫폼과 AI 가속 전략을 잇따라 제시하고 있다.

채명수 노타 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않으며 GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”며 “노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대의 온디바이스 AI 실행 효율을 높여 나가겠다”고 밝혔다.

#GPU #LLM #NPU #노타 #전력 효율 #AI PC #최적화 #대규모언어모델 #이기종 컴퓨팅 #분리형 추론

명세환 기자daniel@e4ds.com

기사 전체보기

관련뉴스

노타, 모빌린트와 AI 최적화 기술 공급 계약 체결

노타가 모빌린트와 AI 최적화 기술 공급 계약을 체결했다. 모빌린트는 자사 NPU 제품군에 노타의 AI 모델 최적화 플랫폼 ‘넷츠프레소’를 도입해 하드웨어와 모델 최적화 환경을 함께 제공할 계획이다. 양사는 MLA100, MLA400 기반 제품과 노타의 비전 AI 솔루션 NVA를 연계해 산업안전, 지능형 교통체계, 스마트시티, 보안관제 등 엣지 영상 AI 분야에서 협력을 추진한다.

2026-05-07 09:19:38by 명세환 기자

노타 NVA, 글로벌 엣지 AI 어워드 수상

노타의 영상 관제 솔루션 ‘NVA’가 ‘2026 올해의 엣지 AI·비전 제품상’ 대규모 멀티모달 모델 부문 수상작으로 선정됐다. NVA는 비전 언어 모델을 활용해 영상 속 객체와 상황을 분석하고, 실시간 설명과 사고 요약, 안전 보고서 생성 기능을 제공한다. 단일 엣지 장비에서 최대 32개 영상 채널을 분석하며, F1 스코어 85% 이상의 성능을 구현했다. 노타는 교통, 산업안전, 스마트시티 등 영상 AI 수요가 있는 분야로 적용 범위를 넓힐 계획이다.

2026-05-12 11:18:51by 명세환 기자