Physical AI HBM Smart Factory SDV AIoT Power Semicon 특수 가스 정정·반론보도 모음 e4ds plus

격변속도 3국동시 ‘수개월→수시간’…100종 폭증, 오디오 제작 판 바꾼다

기사입력2026.05.06 08:38


 
성우 녹음 장식 AI 기반 프로세스로 전환

AI 음성이 오디오 콘텐츠 제작의 속도와 구조를 뒤흔들고 있다.

인공지능 오디오 기술 스타트업 일레븐랩스(ElevenLabs)가 글로벌 오디오 플랫폼 기업 스푼랩스(SpoonLabs)와 손잡고, 성우 녹음 중심의 기존 제작 방식을 AI 기반 프로세스로 전환하며 산업 혁신을 가속화하고 있다.

스푼랩스는 최근 신규 오디오 소설 서비스 ‘팟노블(PodNovel)’을 선보이며, 콘텐츠 제작 전반에 일레븐랩스의 음성 AI 기술을 적용했다. 그 결과, 한 편당 4∼7개월 걸리던 제작 기간이 수 시간 단위로 단축됐고, 한국·일본·대만 3개국 동시 출시가 가능한 다국어 제작 체계도 확보했다. 단기간에 100종 이상의 콘텐츠 라인업을 구축한 배경이다.

이번 변화는 단순한 자동화가 아니라, 오디오 콘텐츠 제작 구조 자체의 전환이라는 점에서 의미가 크다.

기존 성우 녹음 방식은 일정 조율, 반복 녹음, 비용 부담 등으로 확장성에 한계가 있었다.

반면 AI 음성 기반 제작은 품질을 유지하면서도 대량 생산이 가능해, 스푼랩스의 사업 확장 전략에 획기적인 전환점이 됐다.

특히 주목받는 부분은 음성 품질이다.

스푼랩스는 도입 전 다수의 국내외 TTS 솔루션을 실제 제작 환경과 유사한 조건에서 비교 테스트했다.

평가 기준은 단순 발음 정확도가 아니라, 문장 부호에 따른 억양 변화와 감정 표현력이었다.

일레븐랩스는 기쁨·슬픔·분노 등 감정을 문맥에 맞게 구현하며, 기계음이 아닌 ‘연기하는 음성’에 가장 가까운 평가를 받았다.

또한 음성 복제, 배경음악, 효과음 생성까지 오디오 제작에 필요한 요소를 하나의 플랫폼에서 제공한다는 점도 선택을 이끌었다.

제작자는 별도의 툴을 오가며 작업할 필요 없이, 통합 환경에서 콘텐츠를 완성할 수 있다.

지난 1월 첫 공개된 팟노블은 한국 30종, 일본 26종, 대만 19종으로 старт를 끊었고, 이용자들 사이에서는 “AI라는 사실을 인지하지 못할 만큼 몰입도가 높다”는 반응이 이어지고 있다.

스푼랩스는 이달부터 국가별로 매주 3종 이상의 신규 작품을 공개해, 단기간 내 콘텐츠 경쟁력을 더욱 강화할 계획이다.

스푼랩스 팟노블 콘텐츠팀 김현 팀장은 “오디오 콘텐츠의 본질은 결국 재미이며, 이를 좌우하는 핵심은 음성의 완성도”라며 “AI 도입으로 제작 속도와 확장성이 동시에 개선됐고, 이는 효율을 넘어 제작 패러다임의 변화를 의미한다”고 말했다.

일레븐랩스코리아 홍상원 지사장은 “스토리 오디오를 주력으로 하는 제작자와 플랫폼 운영자에게 AI 음성은 새로운 표준이 될 것”이라며 “앞으로도 미디어·콘텐츠 기업과의 협업을 확대해 AI 기반 오디오 제작의 기준을 만들어가겠다”고 밝혔다.