Simplifying Data and AI

빅데이터 분석과 AI/ML을 단순화합니다

사용 사례/제조

Honeywell - 데이터 스트리밍을 위해 델타 라이브 테이블을 선택하다

스누피18 2024. 9. 20. 14:10

출처: 원문 링크

이미지 출처: Databricks

 
업종:제조
플랫폼 사용 사례:데이터 레이크하우스 아키텍처,델타 레이크,델타 라이브 테이블
클라우드:Azure 

 

 
"데이터브릭스는 다양한 데이터 소스를 통합하고, 집계를 수행하며, 건물에서 수집한 방대한 양의 데이터를 관리하여 고객에게 가치를 제공할 수 있도록 돕습니다."
- Dr. Chris Inkpen, 하니웰 에너지 및 환경 솔루션 글로벌 솔루션 아키텍트

 


기업들은 에너지 사용을 줄여야 한다는 압박을 받는 동시에 비용을 절감하고 효율성을 개선하고자 합니다. 하니웰은 항공우주 제품 및 서비스, 빌딩 및 산업용 제어 기술, 성능 소재 등 산업별 솔루션을 전 세계에 제공합니다. 하니웰의 에너지 및 환경 솔루션 사업부는 IoT 센서 및 기타 기술을 사용하여 전 세계 기업이 에너지 수요를 관리하고, 에너지 소비와 탄소 배출을 줄이며, 실내 공기질을 최적화하고, 거주자의 웰빙을 개선할 수 있도록 지원합니다. 이를 위해서는 방대한 양의 데이터를 수집해야 합니다.

이제 하니웰의 데이터 팀은 데이터브릭스 데이터 인텔리전스 플랫폼의 델타 라이브 테이블을 사용하여 수십억 행의 센서 데이터를 델타 레이크에 수집하고 실시간 쿼리 및 다계층 데이터 인사이트를 위한 SQL 엔드포인트를 자동으로 구축합니다. 이를 통해 데이터 관리 방식을 개선하고 자사와 고객을 위해 데이터에서 더 많은 가치를 추출할 수 있게 되었습니다.

매일 수십억 개의 IoT 데이터 포인트 처리

하니웰의 솔루션과 서비스는 전 세계 수백만 개의 건물에서 사용되고 있습니다. 고객이 안전하고 지속 가능하며 생산성이 높은 건물을 만들 수 있도록 지원하기 위해 건물당 수천 개의 센서가 필요할 수 있습니다. 이러한 센서는 온도, 압력, 습도 및 공기질과 같은 주요 요소를 모니터링합니다. 건물 내부의 센서가 수집하는 데이터 외에도 날씨 및 오염 데이터와 같이 외부에서 수집되는 데이터도 있습니다. 또한 건물 유형, 소유권, 평면도, 각 층의 면적, 각 방의 면적과 같은 건물 자체에 대한 정보로 구성된 데이터 세트도 있습니다.

이 데이터 세트들은 결합되어 이미지 및 비디오 스트림, 원격 측정 데이터, 이벤트 데이터 등 여러 정형 및 비정형 형식에 걸쳐 많은 데이터를 합산합니다. 최고조에 달할 때 하니웰은 모든 건물에서 초당 200~1,000개의 이벤트를 수집하며, 이는 하루에 수십억 개의 데이터 포인트에 해당합니다. 하니웰의 기존 데이터 인프라로는 이러한 수요를 감당하기 어려웠습니다. 또한 하니웰의 데이터 팀은 고객에게 고품질의 정보와 분석을 신속하게 제공하기 위해 서로 다른 데이터를 쿼리하고 시각화하는 데 어려움을 겪었습니다.

 

ETL 간소화: 고품질의 재사용 가능한 데이터 파이프라인

하니웰의 데이터 팀은 이제 데이터브릭스 데이터 인텔리전스 플랫폼의 델타 라이브 테이블(DLT)을 활용하여 수십억 행의 센서 데이터를 델타 레이크에 수집하고 있습니다. 이를 통해 실시간 쿼리와 대규모 데이터에 대한 다계층 인사이트를 위한 SQL 엔드포인트를 자동으로 구축할 수 있게 되었습니다. 하니웰 에너지 및 환경 솔루션의 글로벌 솔루션 아키텍트인 Chris Inkpen 박사는 "DLT는 확장이 매우 용이합니다. 시스템에 더 많은 데이터를 입력하면 자동으로 처리됩니다. 이를 통해 어떤 데이터도 즉시 처리할 수 있다는 확신을 갖게 되었습니다."라고 말합니다.

하니웰은 데이터브릭스의 데이터 인텔리전스 플랫폼이 배치, 스트리밍, 정형 및 비정형 데이터 등 다양하고 방대한 데이터를 단일 플랫폼으로 통합하는 데 크게 기여했음을 인정합니다. "우리는 다양한 유형의 데이터를 다룹니다. 데이터브릭스 플랫폼을 사용하면 Apache Kafka와 Autoloader 같은 기능으로 여러 유형의 데이터를 로드하고 처리하여 하나의 데이터 스트림으로 취급할 수 있습니다. 비정형 데이터에서 정형 데이터를 추출하면 표준화된 파이프라인을 구축할 수 있죠."

하니웰의 데이터 엔지니어들은 이제 델타 라이브 테이블을 통해 자체 ETL 파이프라인을 구축하고 활용하여 신속하게 인사이트와 분석 결과를 얻을 수 있게 되었습니다. 이 ETL 파이프라인은 환경에 관계없이 재사용이 가능하며, 데이터를 배치 또는 스트림 방식으로 처리할 수 있습니다. 또한, 이 솔루션은 하니웰의 데이터 팀이 소규모에서 대규모로 확장하는 데 도움이 되었습니다. "DLT 도입 전에는 한 사람만이 파이프라인의 특정 부분을 작업할 수 있었습니다. 하지만 이제 DLT와 공통 기능 폴더를 사용하면서 다양한 파이프라인을 쉽게 분기할 수 있는 훌륭한 플랫폼을 갖게 되었습니다."

DLT는 하니웰이 제품 파이프라인을 모니터링하고 비용을 정당화하기 위한 표준 로그 파일을 구축하는 데도 도움이 되었습니다. Inkpen 박사는 "DLT를 활용하면 파이프라인의 어느 부분을 최적화해야 하는지 쉽게 분석할 수 있습니다. 기존의 표준 파이프라인을 사용할 때는 이 과정이 훨씬 더 복잡했습니다."라고 설명합니다.

인프라 전반의 용이성, 단순성 및 확장성 지원

델타 라이브 테이블을 통해 하니웰의 데이터 팀은 복잡한 데이터를 일관되게 쿼리하면서도 확장성을 간소화할 수 있었습니다. 또한, 데이터 스트림이 인프라로 유입되어 변환된 후 유출되는 과정에서 하니웰의 엔드투엔드 데이터 시각화가 가능해졌습니다. Inkpen 박사는 "이제 ETL의 90%가 다이어그램으로 표현되어 상당한 도움이 되고 데이터 거버넌스가 개선되었습니다. DLT는 좋은 설계를 장려하고 있습니다."라고 말합니다.

레이크하우스를 공유 작업 공간으로 활용하면서 하니웰의 팀워크와 협업이 촉진되었습니다. Inkpen은 "이제 팀은 매일 함께 작업하며 파이프라인을 각자의 스토리와 워크로드로 나누어 원활하게 협업하고 있습니다."라고 말합니다.

한편, 짧은 지연 시간과 향상된 처리량으로 스트리밍 데이터를 관리할 수 있게 되면서 정확도가 향상되고 비용이 절감되었습니다. Inkpen은 "DLT를 사용하여 설계한 후에는 확장성 문제로부터 상당히 안전합니다. DLT로 작성하지 않았을 때보다 확실히 100배는 더 안전합니다. 이제 기존 작업을 어떻게 더 높은 성능과 더 적은 비용으로 수행할 수 있는지 검토할 수 있습니다. DLT를 사용하면 훨씬 더 유리한 위치에 서게 됩니다."라고 말합니다.

또한 데이터브릭스와 DLT를 사용함으로써 하니웰 팀은 더 민첩하게 업무를 수행할 수 있어 혁신 속도가 빨라지고 개발자가 사용자 요구 사항에 거의 즉각적으로 대응할 수 있게 되었습니다. "이전 아키텍처에서는 어떤 병목 현상이 있는지, 어떤 부분을 확장해야 하는지 파악할 수 없었습니다. 이제 거의 실시간으로 데이터 과학을 수행할 수 있습니다."

결과적으로 하니웰은 이제 고객에게 건물을 더 효율적이고 건강하며 안전하게 만드는 데 필요한 데이터와 분석을 더 신속하게 제공할 수 있게 되었습니다. Inkpen은 "저는 수명 주기, 출시 기간, 데이터 품질을 개선할 방법을 지속적으로 모색하고 있습니다. 데이터브릭스는 다양한 데이터 소스를 통합하고, 집계를 수행하며, 건물에서 수집하는 방대한 양의 데이터를 관리하여 고객에게 가치를 제공할 수 있도록 돕고 있습니다."라고 말합니다.