Rooam Lee's Blog

Rooam Lee's Blog

Python Developer | Automation, Backend & Data Engineering

Home Categories Tags About Docs

Spark SQL 5 post

Spark Data Retrieval 2025-06-15 _{Spark SQL에서는 데이터를 다룰 때 정렬이나 파티셔닝 전략을 선택할 수 있는 여러 키워드를 제공합니다. 이러한 키워드들은 결과 데이터의 정렬 순서, 병렬 처리 방식, 그리고 전체...}
Spark Optimizing Storage 2025-04-06 _{Apache Spark는 대규모 데이터 처리 성능을 극대화하기 위해 데이터를 메모리나 디스크에 캐싱하고 퍼시스팅하는 기능을 제공하는 분산 처리 시스템으로, 반복적인 계산을 최적화하고 시스템 자원을 효율적으로 사용하여...}
Spark Data Writing 2025-04-02 _{Apache Spark는 데이터를 다양한 형식과 방법으로 저장할 수 있는 유연성을 제공합니다. Spark에서 데이터를 저장하는 주요 방식은 DataFrame API를 통해 이루어지며, 다양한 파일 포맷뿐만 아니라, 파티셔닝,...}
Spark Joining DataFrame 2025-03-16 _{Spark에서는 DataFrame과 Spark SQL을 사용하여 데이터를 결합할 수 있습니다. 이 때 데이터셋의 크기가 매우 다를 경우, Broadcast를 사용하여 작은 데이터셋을 모든 노드에 분배함으로써 조인의 성능을...}
Spark Data Processing 2025-03-16 _{Apache Spark는 대규모 데이터를 분산 처리할 수 있는 강력한 엔진으로, 다양한 방식으로 데이터를 처리할 수 있습니다. 가장 대표적인 데이터 처리 방법은 RDD(Resilient Distributed Dataset), DataFrame,...}