아마존웹서비스(AWS) 뉴스블로그에 따르면, AWS가 아마존 세이지메이커 레이크하우스(Amazon SageMaker Lakehouse)를 정식 출시했다. 이는 아마존 S3(Amazon S3) 데이터 레이크와 아마존 레드시프트(Amazon Redshift) 데이터 웨어하우스의 데이터를 통합해 강력한 분석과 인공지능/머신러닝(AI/ML) 애플리케이션을 구축할 수 있게 해주는 새로운 기능이다.
세이지메이커 레이크하우스는 차세대 아마존 세이지메이커의 일부로, AWS의 머신러닝과 분석 기능을 통합된 경험으로 제공한다. 기존 기업들이 겪던 데이터 사일로, 중복 데이터, 복잡한 데이터 파이프라인 등의 문제를 해결하는 것이 주요 목표다. 이 플랫폼은 중앙 집중식 권한 관리를 통해 여러 AWS 서비스에 걸쳐 세분화된 권한을 설정하고 적용할 수 있어 데이터 공유와 협업을 단순화했다.
세이지메이커 레이크하우스는 '데이터 분석 및 AI-ML 모델 개발'과 'SQL 분석' 두 가지 프로젝트 프로파일을 제공한다. 데이터 분석 및 AI-ML 모델 개발 프로파일은 아마존 EMR(Amazon EMR), AWS 글루(AWS Glue), 아마존 아테나(Amazon Athena), 세이지메이커 AI를 활용해 데이터를 분석하고 ML 및 생성형 AI 모델을 구축할 수 있다. SQL 분석 프로파일은 SQL을 사용해 레이크하우스의 데이터를 분석하는 데 특화되어 있다.
세이지메이커 통합 스튜디오(SageMaker Unified Studio)를 통해 개발자들은 주피터 랩 노트북(Jupyter Lab notebook), 쿼리 에디터, 아테나, 레드시프트 등 다양한 도구로 데이터에 접근하고 분석할 수 있다. 특히 아파치 스파크(Apache Spark)를 통한 EMR 7.5.0이나 AWS 글루 5.0을 사용해 데이터 레이크와 데이터 웨어하우스의 데이터를 통합 처리할 수 있다.
세일즈포스(Salesforce)와 SAP 같은 외부 애플리케이션은 물론, 아마존 오로라(Amazon Aurora), MySQL용 아마존 RDS, 아마존 다이나모DB(Amazon DynamoDB)와 같은 운영 데이터베이스의 데이터도 제로-ETL 방식으로 쉽게 통합할 수 있다. 또한 수백 개의 커넥터를 통해 다양한 소스의 데이터를 통합하고, 서드파티 데이터 소스에 대한 페더레이티드 쿼리 기능을 제공한다.
세이지메이커 레이크하우스는 미국 동부(버지니아 북부), 아시아 태평양(서울) 등 14개 AWS 리전에서 이용할 수 있다. AWS 관리 콘솔, API, AWS 커맨드 라인 인터페이스(CLI), AWS SDK를 통해 접근 가능하며, AWS 글루 데이터 카탈로그와 AWS 레이크 포메이션(Lake Formation)을 통해서도 이용할 수 있다.
해당 기사의 원문은 AWS에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기