TavilyExtractorTool لوكلاء CrewAI استخراج محتوى منظم من صفحات الويب باستخدام Tavily API. يمكنها معالجة عناوين URL مفردة أو قوائم من عناوين URL وتوفر خيارات للتحكم في عمق الاستخراج وتضمين الصور.
التثبيت
لاستخدامTavilyExtractorTool، تحتاج إلى تثبيت مكتبة tavily-python:
مثال على الاستخدام
إليك كيفية تهيئة واستخدامTavilyExtractorTool مع وكيل CrewAI:
خيارات التكوين
تقبل أداةTavilyExtractorTool المعاملات التالية:
urls(Union[List[str], str]): مطلوب. سلسلة URL واحدة أو قائمة من سلاسل URL لاستخراج البيانات منها.include_images(Optional[bool]): ما إذا كان يجب تضمين الصور في نتائج الاستخراج. الافتراضي هوFalse.extract_depth(Literal[“basic”, “advanced”]): عمق الاستخراج. استخدم"basic"للاستخراج السريع السطحي أو"advanced"للاستخراج الأكثر شمولاً. الافتراضي هو"basic".timeout(int): الحد الأقصى للوقت بالثواني لانتظار إكمال طلب الاستخراج. الافتراضي هو60.
الاستخدام المتقدم
عناوين URL متعددة مع استخراج متقدم
معاملات الأداة
يمكنك تخصيص سلوك الأداة عن طريق تعيين المعاملات أثناء التهيئة:الميزات
- عنوان URL واحد أو متعدد: استخراج المحتوى من عنوان URL واحد أو معالجة عناوين URL متعددة في طلب واحد
- عمق قابل للتكوين: الاختيار بين أوضاع الاستخراج الأساسي (السريع) والمتقدم (الشامل)
- دعم الصور: تضمين الصور اختيارياً في نتائج الاستخراج
- مخرجات منظمة: إرجاع JSON منسّق يحتوي على المحتوى المستخرج
- معالجة الأخطاء: معالجة قوية لمهلات الشبكة وأخطاء الاستخراج
تنسيق الاستجابة
تُرجع الأداة سلسلة JSON تمثل البيانات المنظمة المستخرجة من عنوان (عناوين) URL المقدمة. يعتمد الهيكل الدقيق على محتوى الصفحات وextract_depth المستخدم.
تشمل عناصر الاستجابة الشائعة:
- Title: عنوان الصفحة
- Content: المحتوى النصي الرئيسي للصفحة
- Images: عناوين URL للصور والبيانات الوصفية (عند
include_images=True) - Metadata: معلومات إضافية عن الصفحة مثل المؤلف والوصف وغيرها
حالات الاستخدام
- تحليل المحتوى: استخراج وتحليل المحتوى من مواقع المنافسين
- البحث: جمع بيانات منظمة من مصادر متعددة للتحليل
- ترحيل المحتوى: استخراج المحتوى من المواقع الحالية للترحيل
- المراقبة: الاستخراج المنتظم للمحتوى لاكتشاف التغييرات
- جمع البيانات: الاستخراج المنهجي للمعلومات من مصادر الويب
