
데이터 엔지니어링 요점 가이드
기업 88%가 생성형 AI 도입 중, 데이터 품질이 성공 여부 결정
클라우드 기반 데이터 플랫폼 기업 데이터브릭스(Databricks)가 발표한 리포트에 따르면, AI 시대에 데이터 엔지니어링의 중요성이 그 어느 때보다 커지고 있다. 특히 생성형 AI가 기업 환경에 빠르게 도입되는 현시점에서, 양질의 데이터 확보가 AI 이니셔티브 성공의 결정적 요소이다. MIT 테크 리뷰 보고서에 따르면 전 세계 기업의 88%가 생성형 AI(GenAI)에 투자하거나 도입 중이며, 71%는 자체 GenAI 모델 구축을 계획하고 있다. AI가 모든 산업 분야에서 경쟁 우위를 결정짓는 핵심 요소로 자리 잡으면서 기업들의 관심이 대대적인 투자로 이어지고 있다. 하지만 이런 AI 혁명 속에서 간과하지 말아야 할 사실은 아무리 뛰어난 GenAI 모델도 양질의 데이터 없이는 성공할 수 없다는 점이다.
효율적으로 방대한 데이터를 수집하고 스트리밍할 수 있으며, 높은 데이터 품질을 보장하는 안정적인 데이터 파이프라인을 구축하는 것이 매우 중요하다. 특히 통합 플랫폼과 우수한 데이터 엔지니어링은 모든 데이터 및 AI 이니셔티브에서, 그중에서도 생성형 AI 시대에는 성공을 좌우하는 필수 요소다.
데이터 엔지니어링이란 데이터 소스에서 원시 데이터를 받아 데이터 분석, 비즈니스 인텔리전스(BI) 또는 머신 러닝(ML) 모델 훈련과 같은 다운스트림 사용 사례를 위해 데이터를 처리하고 준비하는 과정이다. 이는 크게 수집, 변환, 오케스트레이션의 세 부분으로 구성된다.
데이터 없이 AI는 무용지물, 데이터브릭스가 제시하는 AI 시대 생존 전략
데이터 엔지니어링은 AI 이니셔티브를 위한 안정적인 데이터 확보의 필수 요소지만, 빠르게 변화하는 환경에서 ETL 파이프라인과 데이터 인프라를 구축하고 관리하는 데이터 엔지니어들은 여러 문제에 직면하고 있다.
데이터 소스의 파편화는 가장 큰 문제 중 하나다. ISG에 따르면 2026년에는 기업 중 80%의 데이터가 여러 클라우드 제공업체와 온프레미스 데이터센터에 분산될 것으로 예측된다. 이러한 분산화는 전문화된 사일로 팀 의존, 비효율적 파이프라인, 높은 개발 비용, 느린 가치 창출 시간으로 이어져 데이터 활용과 혁신을 저해한다.
또한 실시간 데이터 처리의 필요성이 증가하면서 스트리밍 데이터를 실시간 의사결정에 활용할 수 있도록 저지연 처리가 요구된다. 데이터가 대규모로, 때로는 실시간으로 유입됨에 따라 비용은 낮게, 성능은 높게 유지하면서 데이터 파이프라인을 확장하는 것도 까다로워졌다. 데이터 품질 또한 중요한 문제다. '가비지 인, 가비지 아웃'이라는 말처럼 고품질 모델을 훈련시키고 실행 가능한 인사이트를 확보하려면 고품질 데이터가 필수적이다. 마지막으로 데이터가 여러 시스템에 분산되고 다양한 팀이 접근하면서 데이터 거버넌스와 보안이 더욱 중요해지고 있다.
진짜 AI 혁신은 데이터에서 시작된다: 기업들이 데이터브릭스에 주목하는 이유
데이터브릭스(Databricks)의 사명은 데이터와 AI를 통해 조직이 고유한 데이터로 자체 ML 및 생성형 AI 모델을 구축하거나 조정하여 비즈니스 혁신으로 이어지는 인사이트를 창출하도록 지원하는 것이다. 데이터브릭스 데이터 인텔리전스 플랫폼은 레이크하우스 아키텍처를 기반으로 모든 데이터에 통합된 개방형 기반과 거버넌스를 제공하며, 데이터의 고유성을 이해하는 데이터 인텔리전스 엔진(Data Intelligence Engine)으로 구동된다. 고객들은 이 플랫폼을 통해 비즈니스 인텔리전스, 데이터 웨어하우징, AI, 데이터 사이언스 등 다양한 워크로드를 실행할 수 있다.
플랫폼의 핵심 구성요소로는 Delta Lake, Unity Catalog, 데이터 수집을 위한 LakeFlow, 안정적인 데이터 파이프라인을 위한 Delta Live Tables, 통합 데이터 오케스트레이션을 위한 Databricks Workflows 등이 있다. 특히 주목할 점은 Data Intelligence Engine이 AI를 활용해 조직의 데이터, 사용 패턴, 비즈니스 용어를 이해하는 전문화된 정확한 생성형 AI 모델을 생성한다는 것이다.
AI 투자하는 기업 88%, 놓치고 있는 핵심 퍼즐은 데이터 엔지니어링이다
데이터 엔지니어들이 데이터브릭스 플랫폼을 선택하는 이유는 복잡한 데이터 환경에서 직면하는 문제들을 효과적으로 해결할 수 있기 때문이다. 효율적인 데이터 수집을 위해 다양한 데이터 커넥터를 제공하며, 실시간 데이터 워크로드 구축 및 관리의 자동화로 개발과 운영을 간소화한다.
Delta Live Tables와 Databricks Workflows는 스마트 자동 확장 및 최적화된 리소스 관리를 통해 고도로 확장되는 워크로드를 처리한다. 데이터 품질 측면에서는 Delta Lake의 뛰어난 안정성에 Delta Live Tables의 데이터 품질 기능이 결합되어 고품질 데이터를 보장한다.
Unity Catalog는 모든 데이터 세트와 파이프라인이 일관된 방식으로 관리되도록 플랫폼 전체를 위한 단일 거버넌스 모델을 제공하며, Delta Sharing을 통해 내외부 팀과 안전하게 데이터를 공유할 수 있다.
데이터 엔지니어들의 생산성 향상을 위한 AI 도구도 제공된다. Databricks Assistant는 컨텍스트 인식 AI 어시스턴트로, 대화식 API를 사용하여 데이터 쿼리, 코드 생성, 코드 설명, 문제 해결 등을 도와준다.
Cox Automotive의 데이터 인텔리전스 혁신
자동차 서비스 기업 Cox Automotive Europe은 데이터브릭스를 통해 데이터 통합과 데이터 사이언티스트들의 생산성 향상을 이루었다. 특히 Databricks Workflows를 기본 오케스트레이션 도구로 사용해 약 300개 작업을 자동화하고, 그중 120개 작업은 정기적으로 실행되도록 예약했다. Cox Automotive의 엔터프라이즈 데이터 서비스 부문 리드 데이터 엔지니어 Robert Hamlet은 "Workflows의 사용자 인터페이스로 원하는 유형의 워크플로를 빠르게 예약할 수 있으며, 매개변수화 기능이 특히 유용해 환경 간 작업 이동을 모색할 수 있다"고 설명했다.
또한 Unity Catalog와 Delta Sharing을 도입해 데이터 액세스 관리와 안전한 데이터 공유를 실현했다. Hamlet은 "Unity Catalog 덕분에 액세스 세분화 기능이 없고 관리하기 어려웠던 기존 방식이 크게 개선되었다"며 "Delta Sharing을 통해 데이터를 복사하거나 복제하지 않고 여러 사업부와 계열사에 안전하게 공유할 수 있게 되었다"고 덧붙였다.
앞으로 Cox Automotive는 데이터 파이프라인 간소화를 위해 Delta Live Tables, 데이터 규정 준수와 변경 영향 분석을 위한 Unity Catalog의 데이터 계보 기능 등 더 많은 데이터브릭스 기능을 도입할 계획이다.
FAQ
Q: 생성형 AI 시대에 데이터 엔지니어링이 중요한 이유는 무엇인가요?
A: 아무리 뛰어난 AI 모델도 양질의 데이터 없이는 성공할 수 없습니다. 데이터 엔지니어링은 방대한 데이터를 효율적으로 수집하고, 높은 품질을 보장하며, 안정적인 파이프라인을 구축해 AI 모델이 정확하고 유용한 결과를 도출할 수 있는 기반을 마련합니다.
Q: 데이터브릭스 데이터 인텔리전스 플랫폼의 주요 기능은 무엇인가요?
A: 레이크하우스 아키텍처를 기반으로 한 통합 데이터 관리, Delta Lake를 통한 데이터 안정성, Unity Catalog를 활용한 거버넌스, LakeFlow를 이용한 효율적 데이터 수집, Delta Live Tables로 안정적인 데이터 파이프라인 구축, 그리고 Databricks Workflows를 통한 데이터 오케스트레이션이 주요 기능입니다. 또한 AI 기반 Databricks Assistant로 데이터 엔지니어의 생산성을 향상시킵니다.
Q: 데이터브릭스 플랫폼이 기업의 데이터 관련 문제를 어떻게 해결하나요?
A: 데이터 소스 파편화 문제를 다양한 커넥터로 해결하고, 실시간 데이터 처리를 위한 스트리밍 기능을 제공하며, 안정적인 파이프라인 확장을 지원합니다. 또한 데이터 품질 보장 기능과 통합 거버넌스 시스템으로 데이터 관리 및 공유를 간소화하고, AI 기반 도구로 데이터 엔지니어의 생산성을 향상시킵니다.
해당 기사에서 인용한 리포트의 원문은 링크에서 확인할 수 있다.
이미지 출처: 데이터브릭스
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기