
[GCP] Dataproc 소개
Data Engineering/Cloud
2024. 11. 10. 23:17
Google Cloud Data Fusion은 데이터 통합을 위한 완전 관리형 클라우드 서비스로, 다양한 데이터 소스와 싱크를 연결하고, 데이터를 변환하며, 파이프라인을 구축할 수 있도록 지원한다. 이러한 파이프라인의 실행을 위해 Cloud Data Fusion은 Google Cloud의 Dataproc 서비스를 활용한다. 1. Dataproc란?그럼 Dataproc이란 무엇이냐하면 Dataproc은 Apache Spark와 Apache Hadoop을 기반으로 한 완전 관리형 서비스로 배치 처리, 쿼리, 스트리밍, 머신러닝 등 다양한 작업을 수행할 수 있다. Dataproc은 클러스터의 생성, 관리, 확장 및 종료를 자동화하여 사용자가 인프라 관리에 소요되는 시간을 줄이고 데이터 처리에 집중할 수 있도록..