AI 혁신과 변화가 빠르게 이뤄지고 있다. 소프트웨어 산업은 AI 상용화에 성공했지만, 하드웨어 산업은 여전히 초기 단계에 머무르고 있다. AI 알고리즘에 대한 PoC가 실제 하드웨어 구축으로 이어지는 데 걸림돌이 되는 부분들이 여전히 존재하기 때문이다. 소프트웨어 개발자와 AI 과학자는 이를 적응형 하드웨어로 극복할 수 있다.
빠른 AI 혁신, AI 알고리즘 PoC 걸림돌로 작용
AI 제품화 및 사업화, 적응형 하드웨어 적합해
전문적 지식 없어도 적응형 하드웨어 사용 수월
AI 분야에서 혁신의 속도가 올라가며 변화도 빠르게 일어나고 있다. 소프트웨어 산업은 AI 상용화에 성공했지만, 자동차와 산업, 스마트 리테일 등을 비롯한 하드웨어 산업은 AI 제품화 측면에서 여전히 초기 단계다.
AI 알고리즘에 대한 개념검증(PoC)이 실제 하드웨어 구축으로 이어지는 데 걸림돌이 되는 부분들이 여전히 존재하기 때문이다. 이는 △작은 규모의 데이터, △완벽하지 않은 입력, △계속 변화하는 최신 모델 등에서 기인한다.
소프트웨어 개발자와 AI 과학자는 이 과제를 적응형 하드웨어로 극복할 수 있다.
◇ 작은 규모의 데이터, 에지 디바이스로 AI 추론 및 훈련 병행으로 극복
구글이나 페이스북 같은 거대 인터넷 기업들은 매일 엄청난 양의 데이터를 수집하고, 분석한다. 반면 하드웨어 업계는 빅데이터에 대한 가용성이 훨씬 제한적이어서 AI 모델의 완성도가 다소 떨어진다. 따라서 더 많은 데이터를 수집하고, 완벽한 온라인 환경을 통해 동일하게 구축된 하드웨어에 대한 훈련과 추론을 수행하는 등, 정확성을 지속해서 개선하기 위한 노력이 필요하다.
에지에서 입증된 FPGA, 적응형 SoC 등의 적응형 컴퓨팅은 이를 해결하기 지속해서 새로 수집된 데이터로 업데이트하여 추론과 훈련을 모두 수행할 수 있다.
기존 AI 훈련은 클라우드 또는 대규모 온프레미스(On-Premise) 데이터센터가 필요하며, 이를 수행하는데 며칠 또는 몇 주가 소요된다. 반면 실제 데이터는 대부분 에지에서 생성된다. 동일한 에지 디바이스에서 AI 추론과 훈련을 모두 실행하면, 총 소유비용(TCO)을 개선하고 지연시간 및 보안 문제를 줄일 수 있다.
◇ 완벽하지 않은 입력, 사전 및 사후 프로세스로 보정하고 가속해야
AI 모델 PoC 게시가 쉬워지고 있으나, X-레이 이미지로 코로나바이러스 검출 정확도를 높이는 것과 같은 PoC의 경우, 대부분 잘 보정된 입력 사진을 기반으로 한다. 실제로 의료용 기기나 로봇, 움직이는 자동차의 카메라와 센서의 입력은 어두운 이미지와 다양한 각도의 객체처럼 임의의 왜곡을 가진다.
따라서 이러한 입력은 AI 모델에 공급되기 전에 정교한 사전 프로세스를 통해 보정되고, 재포맷되어야 한다. 또한, AI 모델의 출력을 이해하고, 적절한 의사결정을 산출하기 위해서는 사후 프로세스 또한 매우 중요하다. 실제로 일부 칩은 AI 추론 가속화에 매우 뛰어나나, 대부분은 전체 애플리케이션 일부만 가속할 수 있다.
스마트 리테일의 경우, 사전 프로세스에는 비디오의 크기 조정 및 재구성과 포맷 변환을 위한 기존의 컴퓨터 비전 알고리즘에 이어 많은 스트림의 비디오 디코딩이 포함된다. 사후 프로세스에는 객체 추적 및 데이터베이스 조회 등이 포함된다.
최종 고객은 AI 추론 실행 속도에 민감하지 않지만, 전체 애플리케이션 파이프라인의 비디오 스트림 성능 및 실시간 응답성을 충족 여부를 중요하게 생각한다.
▲ AI 및 비 AI 가속에 필요한 DSA [그림=자일링스]
FPGA, 적응형 SoC는 도메인별 특화 아키텍처(Domain Specific Architecture; DSA)를 통한 사전 및 사후 프로세싱 가속화 성능이 검증됐다. AI 추론 DSA를 추가하면, 전반적인 제품 요구사항을 충족하게 전체 시스템을 최적화할 수 있다.
◇ 계속 변화하는 최신 모델, 기존 디바이스 재프로그래밍으로 대처해야
AI 연구 커뮤니티에선 전 세계 최고의 AI 연구원들이 매일 새로운 AI 모델을 개발하고 있다. 이러한 혁신적 모델은 정확도를 개선하고, 컴퓨팅 요건을 줄이고, 새로운 유형의 AI 애플리케이션을 처리할 수 있다.
혁신이 기존 반도체 하드웨어 디바이스에 대한 지속적인 압박으로 작용하며, 최신 알고리즘을 효율적으로 지원하는 새로운 아키텍처에 대한 요구가 커지고 있다.
MLPerf 같은 표준 벤치마크를 보면, 최신 CPU, GPU, AI ASIC 칩은 실제 AI 작업부하를 실행할 때 공표했던 성능에 비해 30% 이하로 떨어진다. 이로 인해 혁신의 속도에 부합할 수 있는 새로운 DSA의 필요성이 지속해서 증가하고 있다.
새로운 DSA에 대한 필요성을 보다 가속하는 오늘날의 흐름은 다음과 같다.
‘뎁스와이즈 컨볼루션(Depthwise Convolution)’은 효율적인 대용량 메모리 대역폭과 특수한 내부 메모리 캐싱이 요구되는 레이어다. AI 칩 대개는 고정형 L1/L2/L3 캐시 아키텍처를 가지며, 내부 메모리 대역폭이 제한돼 효율성이 낮다.
연구원들은 현재 AI 칩 대부분이 기본적으로 지원하지 않는 새로운
‘커스텀 레이어(Custom Layer)’를 계속해서 개발하고 있다. 이를 가속 없이 호스트 CPU에서 실행하려면 성능 병목현상이 자주 발생할 수밖에 없다.
‘SNN(Sparse Neural Network)’은 네트워크 에지를 트리밍하고, 컨볼루션에서 세분된 매트릭스 값을 제거하여 네트워크를 최대 99%까지 줄일 수 있는 주요 최적화 분야다. 하드웨어가 이를 효율적으로 수행하려면 특수한 SNN 아키텍처와 AI 칩 대부분이 지원하지 않는, 이러한 작업을 위한 인코더와 디코더가 필요하다.
‘2진법/3진법(Binary/Ternary)’은 모든 수학 연산을 비트 조작으로 수행하는 극단적인 최적화 방법이다. 대부분의 AI ASIC, GPU는 8bit와 16bit 또는 부동소수점 계산 유닛만 가지므로 정밀도가 극도로 낮아 성능 및 전력 효율성을 높이기 어렵다. FPGA, 적응형 SoC는 개발자가 완벽한 DSA를 개발하고, 애플리케이션의 작업부하에 따라 기존 디바이스를 재프로그래밍할 수 있는 최상의 솔루션이다.
▲ MLPerf 벤치마크 [그림=자일링스]
자일링스와 밉솔로지가 ResNet-50 표준 벤치마크를 기반으로 하드웨어 데이터 시트 성능의 100%를 달성했다는 최신 MLPerf 자료에서 이를 확인할 수 있다.
◇ 하드웨어에 대한 전문지식이 없어도 DSA 구현 가능해져
지금까지 FPGA, 적응형 SoC의 가장 큰 과제는 DSA를 구현하고 구축하기 위해서는 하드웨어 전문지식이 필요하다는 점이었다. 하지만 ‘텐서플로(TensorFlow)’ 및 ‘파이토치(Pytorch)’ 같이 널리 사용되는 AI 프레임워크와 ‘C++’ 및 ‘파이선(Python)’을 지원하는 ‘바이티스(Vitis™)’ 통합 소프트웨어 플랫폼과 같은 도구가 등장하면서 소프트웨어 및 AI 개발자들과의 격차를 크게 좁힐 수 있게 되었다.
소프트웨어 추상화(abstraction) 도구 외에도, 바이티스 하드웨어 가속화 라이브러리와 같은 오픈소스 라이브러리로 개발자 커뮤니티의 채택이 높아지는 추세다.
자일링스가 최근 개최한 디자인 경연에 1,000명 이상의 개발자가 참가했고, 손동작으로 제어하는 드론에서 바이너리 신경망을 이용한 강화 학습에 이르기까지 많은 혁신적인 프로젝트가 발표됐다. 주목할 점은 제출된 프로젝트 대부분이 FPGA 경험이 없는 소프트웨어 및 AI 개발자에 의해 이뤄졌다는 것이다.
이는 FPGA 업계가 소프트웨어 및 AI 개발자들이 실제 AI 제품화 문제를 해결할 수 있도록 올바른 조처를 하고 있음을 방증하는 부분이다.
▲ AIoT(Adaptive Intelligence of Things) [그림=자일링스]
최근까지 일반 소프트웨어 개발자와 AI 과학자는 적응형 하드웨어의 이점을 활용할 수 없었다. 과거에는 특정 하드웨어 전문지식이 필요했지만, 새로운 오프소스 도구가 등장하며 그들이 적응형 하드웨어를 사용할 수 있게 된 것이다.
FPGA, 적응형 SoC는 새로운 프로그래밍 용이성으로 수많은 소프트웨어 개발자와 AI 과학자가 쉽게 접근할 수 있게 되었으며, 이러한 디바이스는 차세대 애플리케이션을 위한 하드웨어 솔루션으로 자리를 잡을 것이다.
실제로 DSA는 소프트웨어 개발자 및 AI 과학자들이 차세대 애플리케이션에 적응형 하드웨어를 활용하게 됨에 따라 AI 추론의 미래가 될 것이다.
이 기사는 자일링스의 닉 니(Nick Ni) AI 및 소프트웨어, 에코시스템 제품 마케팅 디렉터가 저술한 '적응형 컴퓨팅으로 AI 제품화를 위한 실제적 과제 해결(How adaptive computing solves AI productization challenge)'이란 제목의 글을 정리한 것입니다.