주요 기능
- • Playwright 기반 JavaScript 렌더링 지원
- • 비동기 병렬 크롤링으로 고성능 처리
- • CSS 셀렉터 / XPath 데이터 추출
- • 자동 페이지네이션 처리
- • Rate limiting & 재시도 로직
- • JSON / CSV / SQLite 출력 지원
SmartCrawler (개발 중)
⚠️ 이 툴은 현재 개발 중입니다. 안정 버전 출시 전까지 API가 변경될 수 있습니다.
SmartCrawler는 Playwright를 기반으로 한 고성능 웹 크롤링 & 자동화 프레임워크입니다. 단순한 정적 페이지부터 React/Vue로 만들어진 SPA까지 모두 크롤링할 수 있습니다.
예정 기능
기본 크롤링
from smartcrawler import Crawler
async def main():
async with Crawler() as crawler:
result = await crawler.get("https://example.com")
data = result.select(".product-title")
print(data)
자동화 시나리오
# 로그인 후 데이터 수집
async with Crawler(headless=True) as crawler:
await crawler.goto("https://example.com/login")
await crawler.fill("#username", "user@example.com")
await crawler.fill("#password", "password")
await crawler.click("#submit")
await crawler.wait_for_navigation()
# 로그인 후 데이터 수집
data = await crawler.extract_table(".data-table")
개발 로드맵
- 기본 크롤링 엔진 구현
- Playwright 통합
- 분산 크롤링 지원
- GUI 인터페이스
- 클라우드 배포 지원
개발 참여
현재 개발 중인 프로젝트입니다. 아이디어나 기여를 원하신다면 GitHub Issue를 열어주세요.