Rooam Lee's Blog
Rooam Lee's Blog

Python Developer | Automation, Backend & Data Engineering

Home Categories Tags About Docs
  • Crawling

    Crawling Optimization Scraping

    웹 크롤링은 대규모 데이터를 수집하는 작업에서 속도 최적화와 에러 처리가 매우 중요합니다. 크롤러의 성능을 최적화하고, 예기치 않은 오류를 처리할 수 있는 전략을 적용하는 것이 효율적인 크롤링을 위한 핵심입니다. 이 글에서는 크롤링 속도 최적화, User-Agent 변경... 2025년 01월 22일
  • Crawling

    Crawling Text Visualization

    텍스트를 분석하는 데 있어서 중요한 과정 중 하나는 형태소 분석입니다. 형태소 분석을 통해 단어를 더 작은 의미 있는 단위로 나누고, 각 단어의 품사를 태깅할 수 있습니다. WordCloud Visualization WordCloud는 텍스트 데이터에서 단어들의 빈도를 기반으로 시각화하는... 2025년 01월 19일
  • Crawling

    Crawling Data Visualization

    웹 크롤링 후 얻은 데이터를 시각화하는 것은 데이터를 이해하고 분석하는 데 매우 중요한 과정입니다. Seaborn을 사용하여 데이터 분석을 시각화할 수 있게 도와줍니다. Seaborn Visualization Seaborn은 Python에서 데이터를 시각화하는 데 매우 유용한 라이브러리입니다. Matplotlib을 기반으로 하여... 2025년 01월 19일
  • Crawling

    Crawling Data Storage

    웹 크롤링을 통해 수집한 데이터는 저장하고 처리하는 단계가 필요합니다. 다양한 데이터 저장 방식(CSV, JSON, 데이터베이스 등)과 데이터를 효율적으로 정리하고 분석할 수 있는 방법이 필요하며, 클라우드 스토리지 서비스와 연동하여 데이터를 저장하고 관리하는 방법도 있습니다. Storage Methods... 2025년 01월 19일
  • Crawling

    Crawling Advanced Scraping

    웹 크롤링은 웹사이트에서 데이터를 추출하는 작업입니다. 대규모 크롤링을 다룰 때 Scrapy는 매우 유용한 도구입니다. Scrapy는 효율적이고 확장 가능한 웹 크롤링 및 스크래핑 프레임워크로, 대규모 데이터를 쉽게 처리할 수 있습니다. Large-Scale Scraping Scrapy는 대규모 웹 크롤링... 2025년 01월 19일
  • Crawling

    Crawling Dynamic Websites

    Selenium은 동적 웹사이트에서 데이터를 크롤링하는 데 매우 유용한 도구입니다. 최근에는 webdriver-manager 패키지를 사용하여 브라우저 드라이버를 자동으로 설치하고 관리하는 방식이 선호되고 있습니다. Selenium Manager 아래 명령어를 통해 selenium과 webdriver-manager를 설치합니다. 이를 사용하면 번거롭게 드라이버를 직접 다운로드하거나... 2025년 01월 15일
  • Crawling

    Crawling Data Extraction

    BeautifulSoup는 Python에서 HTML 및 XML 문서를 파싱하고, 그 문서에서 필요한 데이터를 쉽게 추출할 수 있도록 도와주는 라이브러리입니다. 웹 크롤링을 할 때, BeautifulSoup는 웹 페이지의 HTML을 구조적으로 이해하고, 원하는 데이터를 쉽게 찾고 추출하는 데 매우 유용합니다.... 2025년 01월 15일
  • Python

    Python Debugging Essentials

    Python에서 테스트와 디버깅은 코드의 품질을 보장하고, 버그를 최소화하며, 프로그램의 안정성을 높이는 데 중요한 역할을 합니다. Python은 로깅, 디버깅 툴, 단위 테스트 등의 다양한 방법을 제공합니다. Logging 로깅(Logging)은 프로그램 실행 중에 발생하는 이벤트를 기록하는 기법입니다. 로깅을... 2025년 01월 12일
  • Crawling

    Crawling HTTP Requests

    HTTP(HyperText Transfer Protocol)는 웹에서 클라이언트와 서버 간에 데이터를 주고받는 프로토콜입니다. 웹 페이지를 요청하거나 데이터를 전송할 때, HTTP 요청을 통해 정보를 주고받습니다. Protocol HTTP 요청 방식에는 여러 가지가 있으며, 각각 특정한 목적에 맞게 사용됩니다. 가장 일반적으로... 2025년 01월 12일
  • Python

    Python Project Management

    Python 프로젝트를 관리하는 데는 가상환경 설정, 의존성 관리, 코드 스타일 가이드 등의 중요한 측면이 있습니다. 이들 각각의 기법을 활용하면 프로젝트를 효율적으로 관리하고, 다른 개발자와 협업하며, 일관된 코드를 유지할 수 있습니다. Virtual Environment 가상환경(Virtual Environment)은 프로젝트마다... 2025년 01월 08일

Copyright (c) 2024 Rooam Lee. All rights reserved.

  • GitHub
  • LinkedIn
  • Twitter
  • YouTube
  • Stack Overflow
  • Gmail
  • RSS