Rooam Lee's Blog
Rooam Lee's Blog

Python developer | Backend, Data & DevOps

Home Categories Tags About Docs
  • Spark

    Spark Optimizing Partition

    Apache Spark에서 파티셔닝은 데이터 분산 및 작업 성능에 중요한 영향을 미칩니다. 적절한 파티셔닝 전략을 사용하면 데이터 처리 속도를 크게 향상시킬 수 있습니다. 데이터셋의 크기와 파티션 수를 최적화하면 병렬 처리 효율성을 높이고 리소스를 절약할 수 있습니다.... 2025년 04월 06일
  • Spark

    Spark Resource Management

    Apache Spark에서는 클러스터 내 리소스를 효율적으로 관리하여 작업에 필요한 자원을 동적으로 또는 고정적으로 할당하고, 여러 작업이 동시에 실행될 때 리소스를 공평하게 분배합니다. 이를 통해 Spark는 작업 간 리소스 충돌을 최소화하고, 시스템의 성능을 최적화하며, 작업이 원활하게... 2025년 04월 02일
  • Spark

    Spark Distributed Variable

    Apache Spark는 대규모 분산 처리 환경에서 각 작업 노드 간 데이터와 변수를 효율적으로 공유하고 처리 성능을 최적화하기 위해 다양한 변수를 제공합니다. 이러한 변수는 네트워크 오버헤드를 줄이고 안전한 데이터 집계를 지원하여 대규모 작업에서도 일관된 결과를 보장합니다.... 2025년 04월 02일
  • Spark

    Spark Data Writing

    Apache Spark는 데이터를 다양한 형식과 방법으로 저장할 수 있는 유연성을 제공합니다. Spark에서 데이터를 저장하는 주요 방식은 DataFrame API를 통해 이루어지며, 다양한 파일 포맷뿐만 아니라, 파티셔닝, 압축, 조인 최적화 등 다양한 옵션을 설정할 수 있습니다. Write... 2025년 04월 02일
  • Kafka

    Kafka Message Delivery

    Apache Kafka는 분산 스트리밍 플랫폼으로, 메시지를 내구성 있게 전송하고 처리할 수 있도록 설계되었습니다. Kafka에서는 메시지의 전달 보장 수준에 따라 Exactly Once, At Least Once, At Most Once라는 세 가지 전송 보장 정책을 제공합니다. Exactly Once... 2025년 03월 30일
  • Kafka

    Kafka Data Management

    Kafka는 실시간 데이터 처리 및 통합을 위한 강력한 플랫폼으로, 다양한 시스템 간 데이터 흐름을 효율적으로 관리할 수 있는 여러 기능을 제공합니다. 그 중에서도 Schema Registry와 Kafka Connect는 Kafka의 핵심 기능으로, 데이터를 안전하고 일관되게 관리하는 데... 2025년 03월 30일
  • Kafka

    Kafka Data Interaction

    Kafka의 스트리밍 데이터 처리는 실시간 데이터 파이프라인을 구축하고 데이터를 빠르게 분석하는 데 중요한 역할을 합니다. 이를 위해 ksqlDB와 Kafka CLI는 필수적인 도구로 사용됩니다. 두 가지 모두 Kafka 스트리밍 데이터를 효율적으로 관리하고, 실시간으로 데이터를 쿼리하고 처리하는... 2025년 03월 30일
  • Kafka

    Kafka Messaging System

    Kafka는 고성능 분산 메시징 시스템으로, 생산자(Producer)와 소비자(Consumer) 간에 데이터를 효율적으로 전달합니다. Kafka 클러스터는 여러 브로커, 주키퍼, 컨트롤러로 구성되며, 각 구성 요소는 데이터를 안정적으로 처리하고 확장성과 내구성을 제공합니다. Broker Broker는 데이터를 저장하고 관리하는 서버입니다. 여러 개의... 2025년 03월 26일
  • Kafka

    Kafka Processing Flow

    Kafka는 분산 메시지 시스템으로, 프로듀서가 데이터를 파티션에 분배하고, 컨슈머가 그 데이터를 읽는 방식으로 메시지를 전달합니다. 컨슈머는 파티션의 오프셋을 통해 데이터를 읽고, 이를 처리한 후 오프셋을 커밋하여 메시지의 순서와 중복 처리 문제를 관리합니다 Producer Producer는 데이터를... 2025년 03월 23일
  • Spark

    Spark Submit Overview

    spark-submit은 Spark 애플리케이션을 클러스터에 제출하고 실행하는 명령어입니다. 이 명령어는 애플리케이션을 실행할 환경을 설정하고 리소스를 할당하는 여러 옵션을 제공합니다. Master Configuration --master는 Spark 애플리케이션이 실행되는 클러스터의 중심 역할을 합니다. 다양한 클러스터 매니저를 사용할 수 있으며, 각... 2025년 03월 19일

Copyright (c) 2024 Rooam Lee. All rights reserved.

  • GitHub
  • LinkedIn
  • Twitter
  • YouTube
  • Stack Overflow
  • Gmail
  • RSS