Rooam Lee's Blog
Rooam Lee's Blog

Python Developer with a focus on Backend, Data, and DevOps

Home Categories Tags About Docs
  • Spark

    Spark Adaptive Query

    Apache Spark는 쿼리 성능을 최적화하는 데 있어 다양한 기술을 활용합니다. Adaptive Query Execution(AQE)는 쿼리 실행 중에 실제 데이터를 바탕으로 최적화를 동적으로 수행하여 성능을 개선하는 기능입니다. 이를 통해 Spark는 쿼리가 실행되는 동안 실행 계획을 동적으로 조정하여... 2025년 04월 13일
  • Spark

    Spark Optimizing Hint

    Apache Spark는 성능 최적화를 위해 다양한 힌트를 제공합니다. 이 힌트들은 쿼리 실행을 최적화하는 데 사용되며, 주로 데이터 파티셔닝과 조인 전략에 활용됩니다. 각 힌트는 특정 시나리오에서 성능을 크게 향상시킬 수 있습니다. Partitioning COALESCE COALESCE는 파티션 수를... 2025년 04월 09일
  • Spark

    Spark Optimizing Storage

    Apache Spark는 대규모 데이터 처리 성능을 극대화하기 위해 데이터를 메모리나 디스크에 캐싱하고 퍼시스팅하는 기능을 제공하는 분산 처리 시스템으로, 반복적인 계산을 최적화하고 시스템 자원을 효율적으로 사용하여 빠르고 확장 가능한 데이터 분석을 가능하게 합니다. RDD and DataFrame... 2025년 04월 06일
  • Spark

    Spark Optimizing Partition

    Apache Spark에서 파티셔닝은 데이터 분산 및 작업 성능에 중요한 영향을 미칩니다. 적절한 파티셔닝 전략을 사용하면 데이터 처리 속도를 크게 향상시킬 수 있습니다. 데이터셋의 크기와 파티션 수를 최적화하면 병렬 처리 효율성을 높이고 리소스를 절약할 수 있습니다.... 2025년 04월 06일
  • Spark

    Spark Resource Management

    Apache Spark에서는 클러스터 내 리소스를 효율적으로 관리하여 작업에 필요한 자원을 동적으로 또는 고정적으로 할당하고, 여러 작업이 동시에 실행될 때 리소스를 공평하게 분배합니다. 이를 통해 Spark는 작업 간 리소스 충돌을 최소화하고, 시스템의 성능을 최적화하며, 작업이 원활하게... 2025년 04월 02일
  • Spark

    Spark Distributed Variable

    Apache Spark는 대규모 분산 처리 환경에서 각 작업 노드 간 데이터와 변수를 효율적으로 공유하고 처리 성능을 최적화하기 위해 다양한 변수를 제공합니다. 이러한 변수는 네트워크 오버헤드를 줄이고 안전한 데이터 집계를 지원하여 대규모 작업에서도 일관된 결과를 보장합니다.... 2025년 04월 02일
  • Spark

    Spark Data Writing

    Apache Spark는 데이터를 다양한 형식과 방법으로 저장할 수 있는 유연성을 제공합니다. Spark에서 데이터를 저장하는 주요 방식은 DataFrame API를 통해 이루어지며, 다양한 파일 포맷뿐만 아니라, 파티셔닝, 압축, 조인 최적화 등 다양한 옵션을 설정할 수 있습니다. Write... 2025년 04월 02일
  • Kafka

    Kafka Message Delivery

    Apache Kafka는 분산 스트리밍 플랫폼으로, 메시지를 내구성 있게 전송하고 처리할 수 있도록 설계되었습니다. Kafka에서는 메시지의 전달 보장 수준에 따라 Exactly Once, At Least Once, At Most Once라는 세 가지 전송 보장 정책을 제공합니다. Exactly Once... 2025년 03월 30일
  • Kafka

    Kafka Data Management

    Kafka는 실시간 데이터 처리 및 통합을 위한 강력한 플랫폼으로, 다양한 시스템 간 데이터 흐름을 효율적으로 관리할 수 있는 여러 기능을 제공합니다. 그 중에서도 Schema Registry와 Kafka Connect는 Kafka의 핵심 기능으로, 데이터를 안전하고 일관되게 관리하는 데... 2025년 03월 30일
  • Kafka

    Kafka Data Interaction

    Kafka의 스트리밍 데이터 처리는 실시간 데이터 파이프라인을 구축하고 데이터를 빠르게 분석하는 데 중요한 역할을 합니다. 이를 위해 ksqlDB와 Kafka CLI는 필수적인 도구로 사용됩니다. 두 가지 모두 Kafka 스트리밍 데이터를 효율적으로 관리하고, 실시간으로 데이터를 쿼리하고 처리하는... 2025년 03월 30일

Copyright (c) 2024 Rooam Lee. All rights reserved.

  • GitHub
  • LinkedIn
  • Twitter
  • YouTube
  • Stack Overflow
  • Gmail
  • RSS