Ferramenta de Extração Scrapegraph
A ScrapegraphScrapeTool
utiliza a API SmartScraper da Scrapegraph AI para extrair conteúdo de sites de forma inteligente.
ScrapegraphScrapeTool
Descrição
A ScrapegraphScrapeTool
foi projetada para utilizar a API SmartScraper da Scrapegraph AI e extrair conteúdo de sites de maneira inteligente. Esta ferramenta oferece recursos avançados de web scraping com extração de conteúdo potencializada por IA, tornando-se ideal para coleta de dados direcionada e tarefas de análise de conteúdo. Diferente dos scrapers tradicionais, ela entende o contexto e a estrutura das páginas da web para extrair as informações mais relevantes, com base em instruções em linguagem natural.
Instalação
Para utilizar esta ferramenta, é necessário instalar o cliente Python do Scrapegraph:
Você também precisa definir sua chave de API do Scrapegraph como uma variável de ambiente:
Você pode obter uma chave de API em Scrapegraph AI.
Passos para Começar
Para usar efetivamente a ScrapegraphScrapeTool
, siga estes passos:
- Instale as dependências: Instale o pacote necessário usando o comando acima.
- Configure a chave de API: Defina sua chave de API do Scrapegraph como variável de ambiente ou forneça-a durante a inicialização.
- Inicialize a ferramenta: Crie uma instância da ferramenta com os parâmetros necessários.
- Defina instruções de extração: Crie prompts em linguagem natural para guiar a extração de conteúdos específicos.
Exemplo
O exemplo a seguir demonstra como usar a ScrapegraphScrapeTool
para extrair conteúdo de um site:
Você também pode inicializar a ferramenta com parâmetros pré-definidos:
Parâmetros
A ScrapegraphScrapeTool
aceita os seguintes parâmetros durante a inicialização:
- api_key: Opcional. Sua chave de API do Scrapegraph. Se não for fornecida, será procurada a variável de ambiente
SCRAPEGRAPH_API_KEY
. - website_url: Opcional. A URL do site a ser extraído. Se fornecida na inicialização, o agente não precisa especificá-la ao usar a ferramenta.
- user_prompt: Opcional. Instruções customizadas para extração de conteúdo. Se fornecida na inicialização, o agente não precisa especificá-la ao usar a ferramenta.
- enable_logging: Opcional. Define se o registro (logging) na Scrapegraph deve ser ativado. O padrão é
False
.
Uso
Ao usar a ScrapegraphScrapeTool
com um agente, será necessário fornecer os seguintes parâmetros (a menos que tenham sido especificados durante a inicialização):
- website_url: A URL do site a ser extraída.
- user_prompt: Opcional. Instruções customizadas para extração de conteúdo. O padrão é “Extract the main content of the webpage”.
A ferramenta retornará o conteúdo extraído com base no prompt fornecido.
Tratamento de Erros
A ScrapegraphScrapeTool
pode lançar as seguintes exceções:
- ValueError: Quando a chave da API está ausente ou o formato da URL é inválido.
- RateLimitError: Quando o limite de requisições da API é excedido.
- RuntimeError: Quando a operação de extração falha (problemas de rede, erros da API).
Recomenda-se instruir os agentes a lidarem com potenciais erros de forma apropriada:
Limitações de Taxa
A API do Scrapegraph possui limites de requisição que variam conforme o seu plano de assinatura. Considere as seguintes boas práticas:
- Implemente atrasos apropriados entre requisições ao processar múltiplas URLs.
- Trate erros de limite de requisição de forma apropriada em sua aplicação.
- Verifique os limites do seu plano de API no painel do Scrapegraph.
Detalhes de Implementação
A ScrapegraphScrapeTool
utiliza o cliente Python do Scrapegraph para se comunicar com a API SmartScraper:
Conclusão
A ScrapegraphScrapeTool
oferece uma maneira poderosa de extrair conteúdo de sites utilizando o entendimento do formato das páginas pela IA. Ao permitir que os agentes direcionem informações específicas por meio de prompts em linguagem natural, ela torna tarefas de web scraping mais eficientes e focadas. Esta ferramenta é especialmente útil para extração de dados, monitoramento de conteúdo e pesquisas em que informações específicas precisam ser extraídas de páginas web.