SpiderTool
Descrição
Spider é o scraper e crawler de código aberto mais rápido que retorna dados prontos para LLM.Ele converte qualquer site em HTML puro, markdown, metadados ou texto e permite que você faça crawling com ações personalizadas utilizando IA.
Instalação
Para usar oSpiderTool você precisa baixar o Spider SDKe também o SDK
crewai[tools]:
Exemplo
Este exemplo mostra como você pode usar oSpiderTool para permitir que seu agente faça scraping e crawling de websites.Os dados retornados pela API do Spider já estão prontos para LLM, então não é necessário fazer nenhuma limpeza adicional.
Code
Argumentos
| Argumento | Tipo | Descrição |
|---|---|---|
| api_key | string | Especifica a chave da API do Spider. Se não for definida, procura por SPIDER_API_KEY nas variáveis de ambiente. |
| params | object | Parâmetros opcionais para a requisição. O padrão é {"return_format": "markdown"} para otimizar o conteúdo para LLMs. |
| request | string | Tipo de requisição a ser realizada (http, chrome, smart). smart tem como padrão HTTP, alterando para renderização JavaScript se necessário. |
| limit | int | Máximo de páginas a serem rastreadas por site. Defina como 0 ou omita para ilimitado. |
| depth | int | Profundidade máxima do crawl. Defina como 0 para sem limite. |
| cache | bool | Habilita cache HTTP para acelerar execuções repetidas. O padrão é true. |
| budget | object | Define limites baseados em caminho para páginas rastreadas, ex.: {"*":1} apenas para a página raiz. |
| locale | string | Localidade da requisição, ex.: en-US. |
| cookies | string | Cookies HTTP para a requisição. |
| stealth | bool | Habilita modo furtivo para requisições Chrome para evitar detecção. O padrão é true. |
| headers | object | Headers HTTP como um mapa de chave-valor para todas as requisições. |
| metadata | bool | Armazena metadados sobre as páginas e conteúdos, auxiliando interoperabilidade com IA. O padrão é false. |
| viewport | object | Define as dimensões de viewport do Chrome. O padrão é 800x600. |
| encoding | string | Especifica o tipo de codificação, ex.: UTF-8, SHIFT_JIS. |
| subdomains | bool | Inclui subdomínios no crawl. O padrão é false. |
| user_agent | string | User agent HTTP personalizado. Padrão é um agente aleatório. |
| store_data | bool | Habilita o armazenamento dos dados para a requisição. Sobrescreve storageless quando definido. O padrão é false. |
| gpt_config | object | Permite à IA gerar ações de crawl, com encadeamento de etapas opcional via array para "prompt". |
| fingerprint | bool | Habilita fingerprint avançado para o Chrome. |
| storageless | bool | Impede todo o armazenamento de dados, incluindo embeddings de IA. O padrão é false. |
| readability | bool | Pré-processa conteúdo para leitura via Mozilla’s readability. Melhora o conteúdo para LLMs. |
| return_format | string | Formato para retorno dos dados: markdown, raw, text, html2text. Use raw para formato padrão da página. |
| proxy_enabled | bool | Habilita proxies de alta performance para evitar bloqueios em nível de rede. |
| query_selector | string | CSS query selector para extração de conteúdo a partir do markup. |
| full_resources | bool | Baixa todos os recursos vinculados ao site. |
| request_timeout | int | Timeout em segundos para as requisições (5-60). O padrão é 30. |
| run_in_background | bool | Executa a requisição em segundo plano. Útil para armazenamento de dados e acionamento de crawls no dashboard. Não tem efeito se storageless estiver definido. |
