SmartCrawler

개발중

JavaScript 렌더링 지원 비동기 웹 크롤러 — Playwright 기반의 고성능 크롤링 & 자동화 프레임워크

주요 기능

  • Playwright 기반 JavaScript 렌더링 지원
  • 비동기 병렬 크롤링으로 고성능 처리
  • CSS 셀렉터 / XPath 데이터 추출
  • 자동 페이지네이션 처리
  • Rate limiting & 재시도 로직
  • JSON / CSV / SQLite 출력 지원

SmartCrawler (개발 중)

⚠️ 이 툴은 현재 개발 중입니다. 안정 버전 출시 전까지 API가 변경될 수 있습니다.

SmartCrawler는 Playwright를 기반으로 한 고성능 웹 크롤링 & 자동화 프레임워크입니다. 단순한 정적 페이지부터 React/Vue로 만들어진 SPA까지 모두 크롤링할 수 있습니다.

예정 기능

기본 크롤링

from smartcrawler import Crawler

async def main():
    async with Crawler() as crawler:
        result = await crawler.get("https://example.com")
        data = result.select(".product-title")
        print(data)

자동화 시나리오

# 로그인 후 데이터 수집
async with Crawler(headless=True) as crawler:
    await crawler.goto("https://example.com/login")
    await crawler.fill("#username", "user@example.com")
    await crawler.fill("#password", "password")
    await crawler.click("#submit")
    await crawler.wait_for_navigation()
    
    # 로그인 후 데이터 수집
    data = await crawler.extract_table(".data-table")

개발 로드맵

  • 기본 크롤링 엔진 구현
  • Playwright 통합
  • 분산 크롤링 지원
  • GUI 인터페이스
  • 클라우드 배포 지원

개발 참여

현재 개발 중인 프로젝트입니다. 아이디어나 기여를 원하신다면 GitHub Issue를 열어주세요.