Finn.ian
article thumbnail

 

그동안 DW 프로젝트 참여로 인해 블로그 신규 글 업데이트가 늦었는데, 이제부터 다시 글을 작성해보려 한다.

기존 AWS를 활용하여 데이터를 핸들링하였지만, 작성하지 못한동안 DW 프로젝트를 참여하여 처음 Google Cloud Paltform를 활용하여 프로젝트에 적용하고 이를 추후 운영할 계획에 있다.

 

그 중, Google Cloud Data Fusion 이라는 서비스에 대해 소개 및 활용했던 방식을 공유하려 한다.

 

Google Cloud Data Fusion 이란

Google Cloud Data Fusion은 데이터 파이프라인을 신속하게 빌드, 관리하기 위한 완전 관리형 클라우드 기반 기업 데이터 통합 서비스이다. Cloud Data Fusion은 그래픽 UI 기반으로 ETL 파이프라인을 작성하며 쉽게 확장 가능한 데이터 통합 솔루션을 빌드할 수 있다.

또한, 인프라를 관리할 필요 없이 다양한 데이터 소스를 연결, 변환 후 다양한 대상 시스템으로 전송 가능하다는 장점이 있다.

 

Google Cloud Data Fusion을 보면 아래와 같은 웹 UI를 보여준다.

[Google Cloud Data Fusion Web UI, Giuliano Ribeiro, https://dev.to/giulianobr/cloud-data-fusion-a-game-changer-for-gcp-2o4d]

 

하나하나 플러그인으로 다양한 플러그인을 지원하고 있고, Cloud이기에 버전이 올라감에 따라 사용 방법은 변경될 수 있으므로, 아래 Cloud Data Fusion에 대한 Google 공식 문서가 있으니 참고하면 된다. 

 

https://cloud.google.com/data-fusion/docs/concepts/overview?hl=ko

 

Cloud Data Fusion 개요  |  Cloud Data Fusion Documentation  |  Google Cloud

Cloud Data Fusion의 핵심 개념을 설명합니다.

cloud.google.com

 

Cloud Data Fusion은 오픈소스 프로젝트 CDAP를 지원하기 때문에 CDAP에 대해 공부할 필요가 있었다. 이번 프로젝트에서는 SAP Plagin을 통해 SAP OData를 통하여 데이터를 가져오는데 활용되었으며, CDAP에 대한 내용은 아래 링크를 통해 문서를 확인해보면 된다.

 

CDAP는 Wrangler에서 많이 활용된다는 점 참고하기를 바란다.

 

https://cdap.atlassian.net/wiki/spaces/DOCS/overview

 

CDAP Documentation - Confluence

CDAP is an application platform for building and managing data applications in hybrid and multi-cloud environments. It enables developers with data and application abstractions to accelerate development of data applications, addressing a broader range of r

cdap.atlassian.net

 

 

Google Cloud Data Fusion을 간략히 정리해보면 아래와 같다.

  • 그래픽 UI 기반으로 ETL 파이프라인 작성 및 배포 가능
  • 코드 작성을 최소화 시킴으로써 운영 시 부담 감소
  • SAP와 데이터 연동에 강점을 가짐

 

profile

Finn.ian

@Finn_

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!

검색 태그