Rooam Lee's Blog
Rooam Lee's Blog

Python Developer | Automation, Backend & Data Engineering

Home Categories Tags About Docs
  • Spark

    Spark Data Writing

    Apache Spark는 데이터를 다양한 형식과 방법으로 저장할 수 있는 유연성을 제공합니다. Spark에서 데이터를 저장하는 주요 방식은 DataFrame API를 통해 이루어지며, 다양한 파일 포맷뿐만 아니라, 파티셔닝, 압축, 조인 최적화 등 다양한 옵션을 설정할 수 있습니다. Write... 2025년 04월 02일
  • Kafka

    Kafka Message Delivery

    Apache Kafka는 분산 스트리밍 플랫폼으로, 메시지를 내구성 있게 전송하고 처리할 수 있도록 설계되었습니다. Kafka에서는 메시지의 전달 보장 수준에 따라 Exactly Once, At Least Once, At Most Once라는 세 가지 전송 보장 정책을 제공합니다. Exactly Once... 2025년 03월 30일
  • Kafka

    Kafka Data Management

    Kafka는 실시간 데이터 처리 및 통합을 위한 강력한 플랫폼으로, 다양한 시스템 간 데이터 흐름을 효율적으로 관리할 수 있는 여러 기능을 제공합니다. 그 중에서도 Schema Registry와 Kafka Connect는 Kafka의 핵심 기능으로, 데이터를 안전하고 일관되게 관리하는 데... 2025년 03월 30일
  • Kafka

    Kafka Data Interaction

    Kafka의 스트리밍 데이터 처리는 실시간 데이터 파이프라인을 구축하고 데이터를 빠르게 분석하는 데 중요한 역할을 합니다. 이를 위해 ksqlDB와 Kafka CLI는 필수적인 도구로 사용됩니다. 두 가지 모두 Kafka 스트리밍 데이터를 효율적으로 관리하고, 실시간으로 데이터를 쿼리하고 처리하는... 2025년 03월 30일
  • Kafka

    Kafka Messaging System

    Kafka는 고성능 분산 메시징 시스템으로, 생산자(Producer)와 소비자(Consumer) 간에 데이터를 효율적으로 전달합니다. Kafka 클러스터는 여러 브로커, 주키퍼, 컨트롤러로 구성되며, 각 구성 요소는 데이터를 안정적으로 처리하고 확장성과 내구성을 제공합니다. Broker Broker는 데이터를 저장하고 관리하는 서버입니다. 여러 개의... 2025년 03월 26일
  • Kafka

    Kafka Processing Flow

    Kafka는 분산 메시지 시스템으로, 프로듀서가 데이터를 파티션에 분배하고, 컨슈머가 그 데이터를 읽는 방식으로 메시지를 전달합니다. 컨슈머는 파티션의 오프셋을 통해 데이터를 읽고, 이를 처리한 후 오프셋을 커밋하여 메시지의 순서와 중복 처리 문제를 관리합니다 Producer Producer는 데이터를... 2025년 03월 23일
  • Spark

    Spark Submit Overview

    spark-submit은 Spark 애플리케이션을 클러스터에 제출하고 실행하는 명령어입니다. 이 명령어는 애플리케이션을 실행할 환경을 설정하고 리소스를 할당하는 여러 옵션을 제공합니다. Master Configuration --master는 Spark 애플리케이션이 실행되는 클러스터의 중심 역할을 합니다. 다양한 클러스터 매니저를 사용할 수 있으며, 각... 2025년 03월 19일
  • Spark

    Spark User Defined Functions

    PySpark는 데이터 처리와 분석을 위해 다양한 방식으로 사용자 정의 함수를 활용할 수 있습니다. 그 중 UDF(User Defined Function)와 Pandas UDF는 데이터 변환 및 집계 작업을 위해 자주 사용됩니다. UDF UDF(User Defined Function)는 PySpark에서 사용자 정의... 2025년 03월 16일
  • Spark

    Spark Joining DataFrame

    Spark에서는 DataFrame과 Spark SQL을 사용하여 데이터를 결합할 수 있습니다. 이 때 데이터셋의 크기가 매우 다를 경우, Broadcast를 사용하여 작은 데이터셋을 모든 노드에 분배함으로써 조인의 성능을 크게 향상시킬 수 있습니다. DataFrame DataFrame에서는 join() 함수를 사용하여 두... 2025년 03월 16일
  • Spark

    Spark Data Processing

    Apache Spark는 대규모 데이터를 분산 처리할 수 있는 강력한 엔진으로, 다양한 방식으로 데이터를 처리할 수 있습니다. 가장 대표적인 데이터 처리 방법은 RDD(Resilient Distributed Dataset), DataFrame, Spark SQL입니다. 각 방식은 사용자가 데이터에 접근하고 변형하는 방식에서 차이를... 2025년 03월 16일

Copyright (c) 2024 Rooam Lee. All rights reserved.

  • GitHub
  • LinkedIn
  • Twitter
  • YouTube
  • Stack Overflow
  • Gmail
  • RSS