ScrapegraphScrapeTool
الوصف
أداةScrapegraphScrapeTool مصممة للاستفادة من SmartScraper API من Scrapegraph AI لاستخراج المحتوى من المواقع بذكاء. توفر هذه الأداة قدرات متقدمة لاستخراج البيانات من الويب مع استخراج محتوى مدعوم بالذكاء الاصطناعي، مما يجعلها مثالية لمهام جمع البيانات المستهدفة وتحليل المحتوى. على عكس أدوات الاستخراج التقليدية، يمكنها فهم سياق وبنية صفحات الويب لاستخراج المعلومات الأكثر صلة بناءً على موجّهات اللغة الطبيعية.
التثبيت
لاستخدام هذه الأداة، تحتاج إلى تثبيت عميل Scrapegraph لـ Python:خطوات البدء
لاستخدامScrapegraphScrapeTool بفعالية، اتبع هذه الخطوات:
- تثبيت التبعيات: ثبّت الحزمة المطلوبة باستخدام الأمر أعلاه.
- إعداد مفتاح API: عيّن مفتاح Scrapegraph API كمتغير بيئة أو قدمه أثناء التهيئة.
- تهيئة الأداة: أنشئ نسخة من الأداة بالمعاملات اللازمة.
- تحديد موجّهات الاستخراج: أنشئ موجّهات بلغة طبيعية لتوجيه استخراج محتوى محدد.
مثال
يوضح المثال التالي كيفية استخدامScrapegraphScrapeTool لاستخراج المحتوى من موقع:
Code
Code
المعاملات
تقبل أداةScrapegraphScrapeTool المعاملات التالية أثناء التهيئة:
- api_key: اختياري. مفتاح Scrapegraph API الخاص بك. إذا لم يتم تقديمه، سيبحث عن متغير البيئة
SCRAPEGRAPH_API_KEY. - website_url: اختياري. عنوان URL للموقع المراد استخراجه. إذا تم تقديمه أثناء التهيئة، لن يحتاج الوكيل إلى تحديده عند استخدام الأداة.
- user_prompt: اختياري. تعليمات مخصصة لاستخراج المحتوى. إذا تم تقديمه أثناء التهيئة، لن يحتاج الوكيل إلى تحديده عند استخدام الأداة.
- enable_logging: اختياري. ما إذا كان يجب تفعيل التسجيل لعميل Scrapegraph. الافتراضي هو
False.
الاستخدام
عند استخدامScrapegraphScrapeTool مع وكيل، سيحتاج الوكيل إلى تقديم المعاملات التالية (ما لم يتم تحديدها أثناء التهيئة):
- website_url: عنوان URL للموقع المراد استخراجه.
- user_prompt: اختياري. تعليمات مخصصة لاستخراج المحتوى. الافتراضي هو “Extract the main content of the webpage”.
Code
معالجة الأخطاء
قد تُثير أداةScrapegraphScrapeTool الاستثناءات التالية:
- ValueError: عندما يكون مفتاح API مفقوداً أو تنسيق URL غير صالح.
- RateLimitError: عند تجاوز حدود معدل API.
- RuntimeError: عند فشل عملية الاستخراج (مشاكل شبكة، أخطاء API).
Code
تحديد المعدل
لدى Scrapegraph API حدود معدل تختلف حسب خطة اشتراكك. ضع في الاعتبار أفضل الممارسات التالية:- نفّذ تأخيرات مناسبة بين الطلبات عند معالجة عناوين URL متعددة.
- تعامل مع أخطاء تحديد المعدل بسلاسة في تطبيقك.
- تحقق من حدود خطة API الخاصة بك على لوحة تحكم Scrapegraph.
تفاصيل التنفيذ
تستخدم أداةScrapegraphScrapeTool عميل Scrapegraph لـ Python للتفاعل مع SmartScraper API:
Code
الخلاصة
توفر أداةScrapegraphScrapeTool طريقة قوية لاستخراج المحتوى من المواقع باستخدام فهم مدعوم بالذكاء الاصطناعي لبنية صفحات الويب. من خلال تمكين الوكلاء من استهداف معلومات محددة باستخدام موجّهات اللغة الطبيعية، تجعل مهام استخراج البيانات من الويب أكثر كفاءة وتركيزاً. هذه الأداة مفيدة بشكل خاص لاستخراج البيانات ومراقبة المحتوى ومهام البحث حيث تحتاج معلومات محددة إلى استخراجها من صفحات الويب.