Spark SQL
-
Spark Optimizing Storage Apache Spark는 대규모 데이터 처리 성능을 극대화하기 위해 데이터를 메모리나 디스크에 캐싱하고 퍼시스팅하는 기능을 제공하는 분산 처리 시스템으로, 반복적인 계산을 최적화하고 시스템 자원을 효율적으로 사용하여...
-
Spark Data Writing Apache Spark는 데이터를 다양한 형식과 방법으로 저장할 수 있는 유연성을 제공합니다. Spark에서 데이터를 저장하는 주요 방식은 DataFrame API를 통해 이루어지며, 다양한 파일 포맷뿐만 아니라, 파티셔닝,...
-
Spark Joining DataFrame Spark에서는 DataFrame과 Spark SQL을 사용하여 데이터를 결합할 수 있습니다. 이 때 데이터셋의 크기가 매우 다를 경우, Broadcast를 사용하여 작은 데이터셋을 모든 노드에 분배함으로써 조인의 성능을...
-
Spark Data Processing Apache Spark는 대규모 데이터를 분산 처리할 수 있는 강력한 엔진으로, 다양한 방식으로 데이터를 처리할 수 있습니다. 가장 대표적인 데이터 처리 방법은 RDD(Resilient Distributed Dataset), DataFrame,...