ScrapflyScrapeWebsiteTool
الوصف
أداةScrapflyScrapeWebsiteTool مصممة للاستفادة من Scrapfly web scraping API لاستخراج المحتوى من المواقع. توفر هذه الأداة قدرات متقدمة لاستخراج البيانات من الويب مع دعم المتصفح بدون واجهة والبروكسيات وميزات تجاوز مكافحة الروبوتات. تسمح باستخراج بيانات صفحات الويب بتنسيقات متعددة، بما في ذلك HTML الخام و markdown والنص العادي، مما يجعلها مثالية لمجموعة واسعة من مهام استخراج البيانات من الويب.
التثبيت
لاستخدام هذه الأداة، تحتاج إلى تثبيت Scrapfly SDK:خطوات البدء
لاستخدامScrapflyScrapeWebsiteTool بفعالية، اتبع هذه الخطوات:
- تثبيت التبعيات: ثبّت Scrapfly SDK باستخدام الأمر أعلاه.
- الحصول على مفتاح API: سجّل في Scrapfly للحصول على مفتاح API الخاص بك.
- تهيئة الأداة: أنشئ نسخة من الأداة بمفتاح API الخاص بك.
- تكوين معاملات الاستخراج: خصص معاملات الاستخراج بناءً على احتياجاتك.
مثال
يوضح المثال التالي كيفية استخدامScrapflyScrapeWebsiteTool لاستخراج المحتوى من موقع:
Code
Code
المعاملات
تقبل أداةScrapflyScrapeWebsiteTool المعاملات التالية:
معاملات التهيئة
- api_key: مطلوب. مفتاح Scrapfly API الخاص بك.
معاملات التشغيل
- url: مطلوب. عنوان URL للموقع المراد استخراجه.
- scrape_format: اختياري. التنسيق الذي يتم استخراج محتوى صفحة الويب به. الخيارات هي “raw” (HTML) أو “markdown” أو “text”. الافتراضي هو “markdown”.
- scrape_config: اختياري. قاموس يحتوي على خيارات تكوين استخراج Scrapfly إضافية.
- ignore_scrape_failures: اختياري. ما إذا كان يجب تجاهل الفشل أثناء الاستخراج. إذا تم التعيين إلى
True، ستُرجع الأداةNoneبدلاً من إثارة استثناء عند فشل الاستخراج.
خيارات تكوين Scrapfly
يسمح معاملscrape_config بتخصيص سلوك الاستخراج بالخيارات التالية:
- asp: تفعيل تجاوز حماية مكافحة الاستخراج.
- render_js: تفعيل تصيير JavaScript مع متصفح سحابي بدون واجهة.
- proxy_pool: اختيار مجموعة بروكسيات (مثل “public_residential_pool”، “datacenter”).
- country: اختيار موقع البروكسي (مثل “us”، “uk”).
- auto_scroll: التمرير التلقائي للصفحة لتحميل المحتوى المُحمّل كسولاً.
- js: تنفيذ كود JavaScript مخصص بواسطة المتصفح بدون واجهة.
الاستخدام
عند استخدامScrapflyScrapeWebsiteTool مع وكيل، سيحتاج الوكيل إلى تقديم عنوان URL للموقع المراد استخراجه ويمكنه اختيارياً تحديد التنسيق وخيارات التكوين الإضافية:
Code
Code
معالجة الأخطاء
بشكل افتراضي، ستُثير أداةScrapflyScrapeWebsiteTool استثناء إذا فشل الاستخراج. يمكن توجيه الوكلاء للتعامل مع الفشل بسلاسة عن طريق تحديد معامل ignore_scrape_failures:
Code
تفاصيل التنفيذ
تستخدم أداةScrapflyScrapeWebsiteTool Scrapfly SDK للتفاعل مع Scrapfly API:
Code
الخلاصة
توفر أداةScrapflyScrapeWebsiteTool طريقة قوية لاستخراج المحتوى من المواقع باستخدام قدرات Scrapfly المتقدمة لاستخراج البيانات من الويب. مع ميزات مثل دعم المتصفح بدون واجهة والبروكسيات وتجاوز مكافحة الروبوتات، يمكنها التعامل مع المواقع المعقدة واستخراج المحتوى بتنسيقات مختلفة. هذه الأداة مفيدة بشكل خاص لاستخراج البيانات ومراقبة المحتوى ومهام البحث حيث يكون استخراج البيانات الموثوق من الويب مطلوباً.