Physical AI HBM Smart Factory SDV AIoT Power Semicon 특수 가스 정정·반론보도 모음 e4ds plus

노타, GPU·NPU 분산 추론으로 AI PC LLM 효율 개선

Google 우선 소스 기사입력2026.06.04 13:57



AI PC 경쟁, 칩 성능 넘어 시스템 최적화로 확대
 
노타가 AI PC에서 GPU와 NPU를 함께 활용해 대규모언어모델(LLM) 추론 효율을 높이는 기술을 구현했다. AI PC 성능 경쟁이 개별 칩 사양을 넘어 시스템 차원의 연산 최적화로 확대되는 흐름과 맞물린다.

AI 경량화 및 최적화 기술 기업 노타는 6월 4일 인텔 루나 레이크 기반 AI PC에서 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 구현했다고 밝혔다.

이번 기술은 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석한 것이 핵심이다. 노타는 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 수행하도록 배치하는 분리형 추론 방식을 적용했다.

이기종 컴퓨팅은 CPU, GPU, NPU처럼 서로 다른 특성을 가진 연산 장치를 작업 성격에 따라 나눠 활용하는 방식이다. AI PC에서는 하나의 프로세서 성능뿐 아니라 기기 내부의 여러 연산 장치를 어떻게 조합하느냐가 실제 추론 성능과 전력 효율에 영향을 준다.

노타에 따르면 분리형 추론 적용 결과 단일 GPU 실행 방식 대비 토큰당 에너지 소비는 약 32% 감소했고, 생성 처리량은 약 12% 향상됐다. 단일 NPU 실행 방식과 비교하면 첫 응답 지연시간은 약 89% 단축됐다.

이번 결과는 GPU와 NPU를 단순 병렬로 사용하는 것이 아니라, LLM 추론 과정의 단계별 특성에 맞춰 연산 장치를 배치했다는 점에서 의미가 있다. 같은 AI PC에서도 하드웨어 자원을 어떻게 활용하느냐에 따라 응답 속도와 전력 효율이 달라질 수 있음을 보여준다.

글로벌 PC 업계에서도 AI PC의 경쟁 축은 NPU 탑재 여부를 넘어 CPU, GPU, NPU를 결합한 시스템 설계로 이동하고 있다. 엔비디아와 인텔 등 주요 반도체 기업은 최근 AI 에이전트 실행을 겨냥한 PC용 연산 플랫폼과 AI 가속 전략을 잇따라 제시하고 있다.

채명수 노타 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않으며 GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”며 “노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대의 온디바이스 AI 실행 효율을 높여 나가겠다”고 밝혔다.