Simplifying Data and AI

빅데이터 분석과 AI/ML을 단순화합니다

사용 사례/리테일

스타벅스 - 대규모 엔터프라이즈 데이터 및 ML을 달성하는 방법

스누피18 2023. 12. 1. 10:51

(원문: 링크)

Image Source: Axios

1.   도전 과제

  • 레거시한 데이터 시스템: 스타벅스는 분산된 시스템에서 페타바이트 규모의 데이터를 처리하는 데 어려움을 겪었습니다. 실시간에 가까운 데이터 처리, 업데이트 및 병합의 효율적인 구현, 대규모 데이터를 위한 최적의 엔지니어링 방법을 구현하기 위해 데이터 시스템을 현대화해야 했습니다.
  • 통합되지 않은 사용자 경험: 소비 측면에서 스타벅스는 신뢰할 수 있는 단일 데이터 원본의 부재, 통합된 사용자 경험의 부족, 데이터와 모델 개발 및 운영 간의 부조화로 인해 어려움을 겪었습니다. 이는 지속적인 실험과 재현성을 방해했습니다.
  • 데이터 수집의 복잡성: 스타벅스는 구조화된 스트리밍, 내결함성 (fault tolerance), 과거 데이터 통합, 그리고 스토어 파트너에게 실시간 인사이트 제공과 관련된 문제를 포함하여 대규모 데이터 수집의 복잡성으로 인해 어려움을 겪었습니다.

 

2.   해결 방안

  • BrewKit 분석 프레임워크: 스타벅스는 Azure, 데이터브릭스, 델타에 구축된 마찰 없는 분석 프레임워크인 BrewKit을 구현했습니다. 이 프레임워크는 통합 분석 플랫폼을 제공하여 소규모 팀도 확장 가능한 데이터사이언스 및 엔지니어링을 수행할 수 있도록 했습니다. 이 프레임워크에는 모델 관리를 위한 MLflow 및 Azure ML과 같은 서비스와 안전한 키 관리를 위한 백그라운드 저장소 서비스가 포함되어 있습니다.
  • 데이터 수집을 위한 델타 레이크: 스타벅스는 트랜잭션 관리, 메타데이터 처리, 스키마 적용과 같은 기능의 이점을 활용하여 Delta Lake를 활용하여 데이터 수집 문제를 해결했습니다. 이 구현에는 초당 수백만 건의 트랜잭션을 대규모로 처리하기 위해 Azure 이벤트 허브 및 Spark 구조화된 스트리밍과 같은 서비스를 사용하는 것이 포함되었습니다. 또한 델타 레이크는 스토어 파트너를 위한 과거 데이터 집계 및 실시간 인사이트를 용이하게 했습니다.
  • 엔터프라이즈 워크스페이스: 스타벅스는 소비 경험을 개선하기 위해 논리적으로 분리된 50개 이상의 작업 공간을 생성하여 환경을 유연하게 모니터링하고 보호 및 분리할 수 있도록 했습니다. 또한 메타데이터 동기화 프로세스를 실행하여 이러한 워크스페이스 전반에서 단일 데이터 소스를 확보함으로써 사용자에게 통합되고 안정적인 경험을 제공했습니다.

 

3.   영향/결과

  • 데이터 프로세스 간소화: BrewKit과 Delta Lake의 구현으로 데이터 프로세스가 크게 간소화되었으며, 대규모 데이터사이언스 및 엔지니어링 기능을 사용할 수 있게 되었습니다. 그 결과 다양한 사용 사례를 지원하기 위해 여러 SKU, 템플릿 및 서비스를 생성하여 신속하게 배포하고 확장할 수 있었습니다.
  • 효율적인 데이터 수집: 데이터 수집 문제를 해결함으로써 스타벅스는 페타바이트 규모의 데이터를 효율적으로 처리하고, 실시간 인사이트를 확보하고, 내결함성을 개선했습니다. 압축 및 자동 최적화를 포함한 델타 레이크의 기능 덕분에 50~100배의 성능 향상과 스토리지 최적화를 달성했습니다.
  • 머신 러닝의 대중화: 성공적인 데이터 지원 여정을 통해 스타벅스는 머신 러닝의 대중화에 집중할 수 있는 기반을 마련했습니다. 데이터 과학자가 몇 분 안에 머신 러닝 모델을 배포할 수 있도록 MLflow 및 Azure 서비스를 기반으로 하는 AI Reserve를 도입했습니다. BrewKit 환경과 통합된 ML 스택은 모델 수명 주기 관리, 버전 제어 및 솔루션의 컨테이너화를 지원하여 AI 리저브 모델 마켓플레이스에 기여합니다. 이를 통해 매장 리뉴얼 전략을 비롯한 다양한 비즈니스 영역에서 의사 결정을 내릴 수 있습니다.