-
Spark
Spark Execution Architecture
Apache Spark는 대규모 데이터 처리에 특화된 분산 컴퓨팅 시스템입니다. Spark의 핵심은 데이터를 분산하여 처리하는 데 있으며, 효율적인 데이터 처리를 위해 여러 개념들이 유기적으로 작동합니다. Execution Flow Driver Spark 애플리케이션이 실행될 때 가장 먼저 시작되는 것은... -
Hadoop
Hadoop Structure Evolution
Hadoop은 분산 데이터 처리 플랫폼으로, 데이터 처리의 혁신을 이끌며 큰 인기를 얻었습니다. Hadoop의 발전은 크게 Hadoop 1.0과 Hadoop 2.0으로 나눌 수 있으며, 이 두 버전의 구조적 차이는 리소스 관리, 작업 실행 모델, 확장성 측면에서 많은... -
Google Cloud
Google Cloud Command Tool
Google Cloud는 다양한 서비스를 CLI 명령어로 제어할 수 있도록 지원합니다. 그중에서 BigQuery, gsutil, gcloud 명령어는 데이터 처리 및 관리를 위해 자주 사용됩니다. Google Cloud Project gcloud 명령어는 Google Cloud Project의 다양한 서비스와 리소스를 관리할 수... -
dbt
dbt Quality Management
dbt (Data Build Tool)는 데이터 파이프라인을 효율적으로 구축하고 관리할 수 있도록 돕는 도구입니다. 데이터 모델을 생성하고, 테스트하며, 이를 문서화하고 추적할 수 있는 다양한 기능을 제공합니다. 또한, 성능 최적화를 위한 여러 옵션을 제공하여 데이터 엔지니어링 워크플로우를... -
dbt
dbt Project Setup
dbt (Data Build Tool)는 데이터 변환 작업을 SQL로 처리하고, ETL 파이프라인에서 데이터를 변환하는 데 초점을 맞춘 도구입니다. dbt는 데이터를 변환하고 모델링하는 과정을 간소화하여 데이터 엔지니어링을 효율적으로 수행할 수 있게 해줍니다. Setting dbt를 설치하려면 먼저 Python... -
Airflow
Airflow DAG Basics
DAG(Directed Acyclic Graph)는 Airflow에서 워크플로우를 정의하는 기본 단위로, Python 코드로 작성되며 여러 개의 Task로 구성됩니다. 각 Task의 실행 순서와 종속성을 정의할 수 있으며, 주어진 일정에 따라 자동으로 실행되어 데이터 파이프라인을 효과적으로 관리할 수 있습니다. Basic... -
Airflow
Airflow Various Executor
Executor는 Apache Airflow에서 작업을 실행하는 핵심 구성 요소로, 작업을 어떻게 처리할지에 대한 중요한 역할을 합니다. 다양한 종류의 Executor는 서로 다른 환경과 요구 사항에 맞춰 작업을 병렬로 처리하거나 분산 시스템을 활용하는 등 다양한 방식으로 동작합니다. SequentialExecutor... -
Airflow
Airflow System Architecture
Apache Airflow는 작업의 자동화 및 스케줄링을 위한 강력한 플랫폼으로, 여러 중요한 구성 요소가 함께 작동하여 DAG(Directed Acyclic Graph) 기반의 작업 흐름을 관리합니다. 각 구성 요소의 역할과 동작 방식을 정확히 이해하는 것이 중요합니다. Lifecycle Scheduler Scheduler는... -
Docker
Docker Compose Writing
Docker Compose는 여러 개의 Docker 컨테이너를 하나의 설정 파일로 정의하고, 이들 간의 관계를 설정할 수 있게 해줍니다. 특히, 복잡한 애플리케이션을 여러 서비스로 나누어 관리할 때 유용하며, 각 서비스가 필요한 네트워크, 볼륨 등을 설정하고 실행할 수... -
Docker
Docker Optional Command
Docker에서 명령어를 활용하여 특정 상황에 맞는 고급 기능을 지원합니다. 이 명령어들은 필수는 아니지만, 복잡한 배포 환경에서 유용하게 사용될 수 있으며, 특정 요구사항에 맞춘 더 세부적인 관리 및 설정을 가능하게 합니다. 이를 통해 보다 유연한 Docker...