Simplifying Data and AI

빅데이터 분석과 AI/ML을 단순화합니다

사용 사례/금융

[블록체인] 코인베이스가 데이터브릭스 레이크하우스로 데이터 아키텍처를 구축한 방법

스누피18 2023. 12. 13. 15:10

(원문: 링크)

글은 코인베이스의 선임 엔지니어링 리더인 Eric Sun이 발표한 내용을 요약한 글입니다. 

 

이미지 출처: 연합인포맥스

도전 과제

코인베이스는 모바일 앱과 웹 애플리케이션을 기반으로 하는 방대한 사용자 기반을 가지고 있는 글로벌 거래 플랫폼입니다. 사용자와 액티비티가 증가함에 따라 코인베이스는 커뮤니티에서 발생하는 수많은 거래, 활동, 웹 이벤트를 조화롭게 처리해야 하는 과제에 직면하게 되었고, 웹 2.0에서 웹 3.0으로의 전환을 위한 기반인 블록체인 데이터의 복잡성과도 씨름해야 했습니다. 팀은 분산되고 진화하는 데이터를 원활하게 통합하고 처리할 수 있으며, 동시에 블록체인 데이터의 탈중앙화 특성과 빠르게 진화하는 암호화폐 환경이 결합되어 혁신에 발맞춘 솔루션이 필요했습니다. 

솔루션

이러한 문제를 해결하기 위해 코인베이스는 데이터브릭스와 함께 다각적인 솔루션을 구현했습니다. 팀은 변경 데이터 캡처, 구조화된 스트리밍, 델타 레이크를 위한 카프카를 통합하여 강력한 조합을 구축했고, 이를 통해 기존 ETL 프로세스의 한계를 극복하고, 더 빠른 데이터 캡처를 가능케 하며, 중요한 비즈니스 메트릭을 짧은 지연 시간으로 강화할 수 있었습니다. 또한 테이블 복제 서비스를 추가하면서 비즈니스 연속성과 민첩성을 향상시켰는데, 이는 암호화폐의 복잡한 환경에서 매우 중요한 요소로 작용했습니다. 

데이터브릭스는 SQL을 넘어 코인베이스 머신러닝의 핵심이 되었습니다. 테이블 복제 서비스를 통해 PySpark를 사용하여 대규모 데이터 세트를 빠르고 비용 효율적으로 읽을 수 있게 되어 머신러닝을 더욱 강화할 수 있었습니다. 또한 데이터브릭스 노트북은 데이터 사이언티스트와 머신러닝 엔지니어의 효율적인 협업과 혁신이 가능한 환경을 제공해주었습니다. 

영향

이러한 솔루션이 코인베이스에 미친 영향은 상당했습니다. 코인베이스는 이더리움 백필 시간을 20일에서 45분으로 대폭 단축하는 등 데이터 처리 속도와 민첩성이 개선됐을뿐 아니라 다양한 데이터 유형을 결합하고 분석할 수 있는 능력으로 고객에 대한 인사이트를 개선하고 짧은 지연 시간으로 비즈니스 지표를 향상시켰습니다. 데이터 사이언티스트와 머신 러닝 엔지니어 간의 협업은 데이터브릭스 노트북을 통해 간소화되어 블록체인 데이터 분석이라는 고유한 과제를 전례 없는 속도와 안정성으로 해결했습니다.

 

이제 코인베이스는 증강된 데이터 세트를 업계와 쉽게 공유할 수 있게 되어 협업과 잠재적 수익 창출의 기회를 열었습니다. 앞으로 개발자 경험을 더욱 강화하고, 상호 운용성을 개선하며, 더 많은 머신러닝 워크로드를 델타 레이크로 마이그레이션하여 궁극적으로 향후 2~3년 내에 코인베이스의 머신러닝 워크로드를 레이크하우스 위에 올려놓을 계획입니다.

 

최종적으로, 데이터브릭스팀과 함께 유연한 팀을 갖춘 코인베이스는 데이터 아키텍처를 개선하고 더 넓은 블록체인 커뮤니티에 기여하고자 하는 두 가지 목표를 성취했습니다. 이들이 직면한 도전은 혁신의 시작점이 되었고, 그들이 개발한 솔루션은 끊임없이 진화하는 암호화폐 및 핀테크 환경의 선구자로 자리매김했습니다.