ScrapflyScrapeWebsiteTool
설명
ScrapflyScrapeWebsiteTool
은 Scrapfly의 웹 스크래핑 API를 활용하여 웹사이트에서 콘텐츠를 추출하도록 설계되었습니다. 이 도구는 헤드리스 브라우저 지원, 프록시, 안티-봇 우회 기능 등 고급 웹 스크래핑 기능을 제공합니다. 원시 HTML, 마크다운, 일반 텍스트 등 다양한 형식으로 웹 페이지 데이터를 추출할 수 있어, 광범위한 웹 스크래핑 작업에 이상적입니다.
설치
이 도구를 사용하려면 Scrapfly SDK를 설치해야 합니다:시작 단계
ScrapflyScrapeWebsiteTool
을(를) 효과적으로 사용하려면 다음 단계를 따르세요:
- 의존성 설치: 위의 명령어를 사용하여 Scrapfly SDK를 설치하세요.
- API 키 받기: Scrapfly에 등록하여 API 키를 받으세요.
- 도구 초기화: API 키로 도구 인스턴스를 생성하세요.
- 스크래핑 매개변수 구성: 필요에 따라 스크래핑 매개변수를 맞춤 설정하세요.
예제
다음 예제는ScrapflyScrapeWebsiteTool
을 사용하여 웹사이트에서 콘텐츠를 추출하는 방법을 보여줍니다:
Code
Code
매개변수
ScrapflyScrapeWebsiteTool
은(는) 다음과 같은 매개변수를 받습니다:
초기화 매개변수
- api_key: 필수. 귀하의 Scrapfly API 키입니다.
실행 매개변수
- url: 필수. 스크랩할 웹사이트의 URL입니다.
- scrape_format: 선택 사항. 웹 페이지 콘텐츠를 추출할 형식입니다. 옵션으로는 “raw”(HTML), “markdown”, “text”가 있습니다. 기본값은 “markdown”입니다.
- scrape_config: 선택 사항. 추가 Scrapfly 스크래핑 구성 옵션이 포함된 딕셔너리입니다.
- ignore_scrape_failures: 선택 사항. 스크래핑 실패 시 실패를 무시할지 여부입니다.
True
로 설정하면, 스크래핑에 실패했을 때 예외를 발생시키는 대신에 도구가None
을 반환합니다.
Scrapfly 구성 옵션
scrape_config
매개변수를 사용하면 다음과 같은 옵션으로 스크래핑 동작을 사용자 지정할 수 있습니다:
- asp: 안티 스크래핑 보호 우회 활성화.
- render_js: 클라우드 헤드리스 브라우저로 JavaScript 렌더링 활성화.
- proxy_pool: 프록시 풀 선택 (예: “public_residential_pool”, “datacenter”).
- country: 프록시 위치 선택 (예: “us”, “uk”).
- auto_scroll: 페이지를 자동으로 스크롤하여 지연 로딩된 콘텐츠를 불러옵니다.
- js: 헤드리스 브라우저에서 커스텀 JavaScript 코드 실행.
사용법
ScrapflyScrapeWebsiteTool
을 에이전트와 함께 사용할 때, 에이전트는 크롤링할 웹사이트의 URL을 제공해야 하며, 선택적으로 포맷과 추가 구성 옵션을 지정할 수 있습니다.
Code
Code
오류 처리
기본적으로ScrapflyScrapeWebsiteTool
은 스크래핑에 실패하면 예외를 발생시킵니다. 에이전트는 ignore_scrape_failures
매개변수를 지정하여 실패를 우아하게 처리하도록 지시할 수 있습니다.
Code
구현 세부사항
ScrapflyScrapeWebsiteTool
은 Scrapfly SDK를 사용하여 Scrapfly API와 상호작용합니다:
Code
결론
ScrapflyScrapeWebsiteTool
은 Scrapfly의 고급 웹 스크래핑 기능을 활용하여 웹사이트에서 콘텐츠를 추출할 수 있는 강력한 방법을 제공합니다. 헤드리스 브라우저 지원, 프록시, 안티-봇 우회와 같은 기능을 통해 복잡한 웹사이트도 처리할 수 있으며, 다양한 형식의 콘텐츠를 추출할 수 있습니다. 이 도구는 신뢰할 수 있는 웹 스크래핑이 필요한 데이터 추출, 콘텐츠 모니터링, 연구 작업에 특히 유용합니다.