TavilyExtractorTool
은 CrewAI 에이전트가 Tavily API를 사용하여 웹 페이지에서 구조화된 콘텐츠를 추출할 수 있도록 합니다. 이 도구는 단일 URL 또는 URL 목록을 처리할 수 있으며, 추출 깊이를 제어하고 이미지를 포함하는 등의 옵션을 제공합니다.
설치
TavilyExtractorTool
을 사용하려면 tavily-python
라이브러리를 설치해야 합니다:
예제 사용법
다음은 CrewAI agent 내에서TavilyExtractorTool
을 초기화하고 사용하는 방법입니다:
구성 옵션
TavilyExtractorTool
은 다음과 같은 인자를 받습니다:
urls
(Union[List[str], str]): 필수. 데이터를 추출할 단일 URL 문자열 또는 URL 문자열의 리스트.include_images
(Optional[bool]): 추출 결과에 이미지를 포함할지 여부. 기본값은False
입니다.extract_depth
(Literal[“basic”, “advanced”]): 추출의 깊이. 더 빠르고 표면적인 추출에는"basic"
을, 더 포괄적인 추출에는"advanced"
를 사용합니다. 기본값은"basic"
입니다.timeout
(int): 추출 요청이 완료될 때까지 대기하는 최대 시간(초)입니다. 기본값은60
입니다.
고급 사용법
여러 URL과 고급 추출 기능
도구 매개변수
도구의 동작을 초기화 시 매개변수를 설정하여 사용자 정의할 수 있습니다:기능
- 단일 또는 여러 URL: 하나의 URL에서 콘텐츠를 추출하거나 한 번의 요청으로 여러 URL을 처리할 수 있습니다
- 구성 가능한 깊이: 기본(빠른) 및 고급(포괄적인) 추출 모드 중에서 선택할 수 있습니다
- 이미지 지원: 원할 경우 추출 결과에 이미지를 포함할 수 있습니다
- 구조화된 출력: 추출된 콘텐츠가 잘 포맷된 JSON으로 반환됩니다
- 오류 처리: 네트워크 시간 초과 및 추출 오류에 대한 견고한 처리
응답 형식
도구는 제공된 URL에서 추출한 구조화된 데이터를 나타내는 JSON 문자열을 반환합니다. 정확한 구조는 페이지의 내용과 사용된extract_depth
에 따라 달라집니다.
일반적인 응답 요소는 다음과 같습니다:
- Title: 페이지 제목
- Content: 페이지의 주요 텍스트 내용
- Images: 이미지 URL 및 메타데이터 (
include_images=True
인 경우) - Metadata: 저자, 설명 등 추가적인 페이지 정보
사용 사례
- 콘텐츠 분석: 경쟁사 웹사이트에서 콘텐츠를 추출하고 분석
- 연구: 다양한 소스에서 구조화된 데이터를 수집하여 분석
- 콘텐츠 마이그레이션: 기존 웹사이트에서 콘텐츠를 추출하여 마이그레이션
- 모니터링: 변경 감지를 위해 정기적으로 콘텐츠 추출
- 데이터 수집: 웹 소스에서 정보를 체계적으로 추출