데이터 및 AI 선도기업 데이터브릭스가 ‘유니티 카탈로그(Unity Catalog)’ 기능 강화 버전을 발표했다. 이번 업데이트로 카탈로그는 아파치 아이스버그(Apache Iceberg) REST 카탈로그 API를 네이티브 지원해, Iceberg 테이블을 데이터브릭스뿐 아니라 트리노(Trino), 스노우플레이크(Snowflake), 아마존 EMR(Amazon EMR) 등 외부 엔진에서도 읽고 쓸 수 있게 했다.
Iceberg 테이블, 트리노·스노우플레이크·아마존 등 외부 엔진도 읽고 쓸 수 있어
데이터 및 AI 선도기업 데이터브릭스가 Iceberg·Delta Lake 지원·크로스 엔진 거버넌스·비즈니스 지표 통합이라는 차별화된 혁신으로, 데이터 레이크하우스 생태계 전반을 아우르는 리더십을 더욱 공고히 한다.
데이터브릭스는 23일 ‘유니티 카탈로그(Unity Catalog)’ 기능 강화 버전을 발표했다.
이번 업데이트로 카탈로그는 아파치 아이스버그(Apache Iceberg) REST 카탈로그 API를 네이티브 지원해, Iceberg 테이블을 데이터브릭스뿐 아니라 트리노(Trino), 스노우플레이크(Snowflake), 아마존 EMR(Amazon EMR) 등 외부 엔진에서도 읽고 쓸 수 있게 했다.
델타레이크(Delta Lake)와 아이스버그를 단일 거버넌스 프레임워크로 통합함으로써, 다양한 테이블 형식을 아우르는 개방형 표준 거버넌스 플랫폼으로 진화했다.
퍼블릭 프리뷰로 제공되는 세 가지 주요 기능을 살펴보면 우선 Iceberg REST 카탈로그 API 지원을 통해 어떤 Iceberg 호환 엔진에서도 관리 테이블 생성과 읽기·쓰기 연산이 가능하며, 데이터브릭스의 AI 예측 최적화를 통해 비용 대비 최적의 성능을 제공한다.
또한 레이크하우스 페더레이션(Lakehouse Federation)이 외부 카탈로그에서 관리되는 Iceberg 테이블을 네이티브 테이블처럼 탐색·거버넌스할 수 있게 해준다.
여기에 델타셰어링(Delta Sharing)을 활용해 Iceberg 테이블을 조직 간 안전하게 공유할 수 있어 데이터 형식에 따른 사일로를 근본적으로 해소한다.
이번 발표는 기술 사용자 외에도 비즈니스 사용자를 위한 기능을 대폭 확대한 점이 눈에 띈다.
‘유니티 카탈로그 매트릭스(Unity Catalog Metrics)’를 통해 BI 도구에 흩어져 있던 KPI·지표 정의를 플랫폼으로 통합, SQL로 직접 접근 가능한 일급 데이터 자산으로 승격시켰다.
이를 통해 영업·마케팅·재무팀 등 비즈니스 도메인 전반에서 일관된 지표 해석이 가능해지고, 엔지니어 도움 없이도 동일한 기준으로 데이터를 분석하고 의사결정 할 수 있다.
비즈니스 탐색 경험도 ‘Discover’라는 내부 마켓플레이스 형태로 새롭게 제공된다.
각 도메인별로 큐레이션된 테이블·대시보드·AI 에이전트·Genie 공간 등 고가치 자산을 검색·추천받고, 문서·소유자·사용 현황 등의 메타데이터와 AI 기반 자동 추천 기능을 통해 손쉽게 신뢰할 만한 데이터를 찾아볼 수 있다. 승인 절차 없이 셀프 서브(self-serve) 방식으로 활용 가능하며, 현재 프라이빗 프리뷰로 제공 중이다.
유니티 카탈로그는 사용자 경험 전반에 인텔리전스를 더해 데이터 품질 신호·사용 패턴·자산 간 연관성·인증·폐기 상태를 시각화한다.
내장된 ‘데이터브릭스 어시스턴트(Databricks Assistant)’에 자연어로 질문하면, 정책 기반 지표에 따른 맥락적이며 신뢰성 높은 답변을 실시간으로 받을 수 있어 데이터 탐색 여정이 더욱 스마트해진다.
데이터브릭스 공동창립자 겸 CTO 마테이 자하리아(Matei Zaharia)는 “4년 전 유니티 카탈로그로 통합 거버넌스를 선도했으며, 이번 업데이트로 Iceberg·Delta Lake 등 모든 개방형 테이블 형식에 걸친 업계 최고 카탈로그가 완성됐다”고 강조했다.
또한 “외부 엔진에서도 관리 테이블을 자유롭게 읽고 쓰는 유일한 플랫폼으로, 비즈니스 사용자를 위한 데이터+AI 민주화(Democratization)를 실현하겠다”고 덧붙였다.