-
Operating System
Operating System Memory Management
운영체제는 메모리 관리와 관련된 여러 기법을 사용하여 시스템의 성능과 안정성을 보장합니다. 이 기법들은 프로그램이 실행될 때 발생할 수 있는 메모리 부족 문제를 해결하고, 효율적인 자원 사용을 최적화하는 데 중요한 역할을 합니다. Virtual Memory Virtual Memory는... -
Operating System
Operating System Synchronization
운영체제는 다양한 동기화 기법과 메모리 관리 기법을 통해 효율적인 작업 처리를 보장합니다. 동기화는 여러 스레드가 공유 자원에 동시에 접근할 때 발생할 수 있는 문제를 해결하는 기법입니다. 이를 통해 스레드 간 충돌을 방지하고, 순차적으로 자원을 접근하게... -
Operating System
Operating System Execution Model
운영체제는 컴퓨터 하드웨어와 소프트웨어 자원 간의 조정 및 관리를 담당하는 중요한 역할을 합니다. 효율적인 프로그램 실행과 자원 관리를 위해 필요한 핵심 개념들을 이해하는 것은 필수적입니다. 이들 개념을 통해 시스템의 작동 방식과 성능 최적화를 위한 고려사항들을... -
Spark
Spark Optimizing Model
SparkML은 대규모 데이터 처리를 위한 강력한 머신러닝 라이브러리로, 모델을 학습하고 최적화하는 데 필요한 다양한 기능을 제공합니다. 모델 튜닝은 하이퍼파라미터를 최적화하여 성능을 극대화하는 과정이며, 파이프라인은 여러 머신러닝 단계를 연결하여 효율적으로 데이터를 처리하고 모델을 학습할 수 있게... -
Spark
Spark Evaluation Metrics
SparkML은 대규모 데이터를 처리하는 머신러닝 라이브러리로, 모델 학습과 예측을 지원합니다. 모델의 성능을 평가하는 것은 중요한데, 이를 통해 예측 정확도나 클러스터링 성능을 확인하고 개선할 수 있습니다. 다양한 평가 지표를 제공하여 모델을 최적화하고, 데이터 기반 의사결정을 돕습니다.... -
Spark
Spark Model Training
SparkML에서 모델 학습은 데이터에서 숨겨진 패턴이나 관계를 학습하고, 이를 기반으로 새로운 데이터에 대한 예측을 수행하는 과정입니다. 이 과정은 데이터를 분석하고, 모델을 구축하여 실제 상황에서 유용한 예측을 할 수 있게 합니다. Regression Regression은 변수 간의 관계를... -
Spark
Spark Feature Transformer
SparkML에서 Feature Transformer는 데이터를 모델이 처리할 수 있는 형태로 변환하는 중요한 역할을 합니다. 대부분의 머신러닝 알고리즘은 숫자형 데이터만을 처리할 수 있기 때문에, 다양한 변환 작업을 통해 데이터를 모델에 맞게 준비하는 것이 필요합니다. Imputer Imputer는 비어있는... -
Spark
Spark Adaptive Query
Apache Spark는 쿼리 성능을 최적화하는 데 있어 다양한 기술을 활용합니다. Adaptive Query Execution(AQE)는 쿼리 실행 중에 실제 데이터를 바탕으로 최적화를 동적으로 수행하여 성능을 개선하는 기능입니다. 이를 통해 Spark는 쿼리가 실행되는 동안 실행 계획을 동적으로 조정하여... -
Spark
Spark Optimizing Hint
Apache Spark는 성능 최적화를 위해 다양한 힌트를 제공합니다. 이 힌트들은 쿼리 실행을 최적화하는 데 사용되며, 주로 데이터 파티셔닝과 조인 전략에 활용됩니다. 각 힌트는 특정 시나리오에서 성능을 크게 향상시킬 수 있습니다. Partitioning COALESCE COALESCE는 파티션 수를... -
Spark
Spark Optimizing Storage
Apache Spark는 대규모 데이터 처리 성능을 극대화하기 위해 데이터를 메모리나 디스크에 캐싱하고 퍼시스팅하는 기능을 제공하는 분산 처리 시스템으로, 반복적인 계산을 최적화하고 시스템 자원을 효율적으로 사용하여 빠르고 확장 가능한 데이터 분석을 가능하게 합니다. RDD and DataFrame...