Aprenda como habilitar e usar capacidades multimodais em seus agentes para processar imagens e outros conteúdos não textuais dentro do framework CrewAI.
multimodal
como True
ao inicializar seu agente:
multimodal=True
, o agente é automaticamente configurado com as ferramentas necessárias para lidar com conteúdo não textual, incluindo a AddImageTool
.
AddImageTool
, permitindo que ele processe imagens. Não é necessário adicionar esta ferramenta manualmente – ela é automaticamente incluída ao habilitar capacidades multimodais.
Aqui está um exemplo completo mostrando como usar um agente multimodal para analisar uma imagem:
AddImageTool
é automaticamente configurada com o seguinte esquema:
action
para uma análise focada