RagTool
الوصف
صُممتRagTool للإجابة على الأسئلة من خلال الاستفادة من قوة التوليد المعزز بالاسترجاع (RAG) عبر نظام RAG الأصلي في CrewAI.
توفر قاعدة معرفية ديناميكية يمكن الاستعلام عنها لاسترجاع المعلومات ذات الصلة من مصادر بيانات متنوعة.
هذه الأداة مفيدة بشكل خاص للتطبيقات التي تتطلب الوصول إلى مجموعة واسعة من المعلومات وتحتاج إلى تقديم إجابات ذات صلة بالسياق.
مثال
يوضح المثال التالي كيفية تهيئة الأداة واستخدامها مع مصادر بيانات مختلفة:Code
مصادر البيانات المدعومة
يمكن استخدامRagTool مع مجموعة واسعة من مصادر البيانات، بما في ذلك:
- ملفات PDF
- ملفات CSV
- ملفات JSON
- نصوص
- مجلدات/أدلة
- صفحات ويب HTML
- قنوات YouTube
- فيديوهات YouTube
- مواقع التوثيق
- ملفات MDX
- ملفات DOCX
- ملفات XML
- Gmail
- مستودعات GitHub
- قواعد بيانات PostgreSQL
- قواعد بيانات MySQL
- محادثات Slack
- رسائل Discord
- منتديات Discourse
- نشرات Substack
- محتوى Beehiiv
- ملفات Dropbox
- صور
- مصادر بيانات مخصصة
المعاملات
تقبلRagTool المعاملات التالية:
- summarize: اختياري. ما إذا كان يتم تلخيص المحتوى المسترجع. القيمة الافتراضية
False. - adapter: اختياري. محول مخصص لقاعدة المعرفة. إذا لم يُقدَّم، سيُستخدم CrewAIRagAdapter.
- config: اختياري. إعداد نظام RAG الأساسي في CrewAI. يقبل TypedDict من نوع
RagToolConfigمع مفاتيح اختياريةembedding_model(ProviderSpec) وvectordb(VectorDbConfig). جميع قيم الإعداد المقدمة برمجياً لها الأولوية على متغيرات البيئة.
إضافة المحتوى
يمكنك إضافة محتوى إلى قاعدة المعرفة باستخدام طريقةadd:
Code
مثال على التكامل مع الوكيل
إليك كيفية دمجRagTool مع وكيل CrewAI:
Code
إعداد متقدم
يمكنك تخصيص سلوكRagTool من خلال تقديم قاموس إعداد:
Code
إعداد نموذج التضمين
يقبل معاملembedding_model قاموس crewai.rag.embeddings.types.ProviderSpec بالبنية التالية:
المزودون المدعومون
OpenAI
OpenAI
main.py
api_key(str): مفتاح API لـ OpenAImodel_name(str): النموذج المستخدم. القيمة الافتراضية:text-embedding-ada-002. الخيارات:text-embedding-3-small،text-embedding-3-large،text-embedding-ada-002dimensions(int): عدد أبعاد التضمينorganization_id(str): معرّف منظمة OpenAIapi_base(str): عنوان URL مخصص لقاعدة APIapi_version(str): إصدار APIdefault_headers(dict): ترويسات مخصصة لطلبات API
OPENAI_API_KEYأوEMBEDDINGS_OPENAI_API_KEY:api_keyOPENAI_ORGANIZATION_IDأوEMBEDDINGS_OPENAI_ORGANIZATION_ID:organization_idOPENAI_MODEL_NAMEأوEMBEDDINGS_OPENAI_MODEL_NAME:model_nameOPENAI_API_BASEأوEMBEDDINGS_OPENAI_API_BASE:api_baseOPENAI_API_VERSIONأوEMBEDDINGS_OPENAI_API_VERSION:api_versionOPENAI_DIMENSIONSأوEMBEDDINGS_OPENAI_DIMENSIONS:dimensions
Cohere
Cohere
main.py
api_key(str): مفتاح API لـ Coheremodel_name(str): النموذج المستخدم. القيمة الافتراضية:large. الخيارات:embed-english-v3.0،embed-multilingual-v3.0،large،small
COHERE_API_KEYأوEMBEDDINGS_COHERE_API_KEY:api_keyEMBEDDINGS_COHERE_MODEL_NAME:model_name
VoyageAI
VoyageAI
main.py
api_key(str): مفتاح API لـ VoyageAImodel(str): النموذج المستخدم. القيمة الافتراضية:voyage-2. الخيارات:voyage-3،voyage-3-lite،voyage-code-3،voyage-large-2input_type(str): نوع الإدخال. الخيارات:document(للتخزين)،query(للبحث)truncation(bool): ما إذا كان يتم اقتطاع المدخلات التي تتجاوز الحد الأقصى. القيمة الافتراضية:Trueoutput_dtype(str): نوع بيانات المخرجاتoutput_dimension(int): بُعد تضمينات المخرجاتmax_retries(int): الحد الأقصى لمحاولات إعادة المحاولة. القيمة الافتراضية:0timeout(float): مهلة الطلب بالثواني
VOYAGEAI_API_KEYأوEMBEDDINGS_VOYAGEAI_API_KEY:api_keyVOYAGEAI_MODELأوEMBEDDINGS_VOYAGEAI_MODEL:modelVOYAGEAI_INPUT_TYPEأوEMBEDDINGS_VOYAGEAI_INPUT_TYPE:input_typeVOYAGEAI_TRUNCATIONأوEMBEDDINGS_VOYAGEAI_TRUNCATION:truncationVOYAGEAI_OUTPUT_DTYPEأوEMBEDDINGS_VOYAGEAI_OUTPUT_DTYPE:output_dtypeVOYAGEAI_OUTPUT_DIMENSIONأوEMBEDDINGS_VOYAGEAI_OUTPUT_DIMENSION:output_dimensionVOYAGEAI_MAX_RETRIESأوEMBEDDINGS_VOYAGEAI_MAX_RETRIES:max_retriesVOYAGEAI_TIMEOUTأوEMBEDDINGS_VOYAGEAI_TIMEOUT:timeout
Ollama
Ollama
main.py
model_name(str): اسم نموذج Ollama (مثلllama2،mistral،nomic-embed-text)url(str): عنوان URL لنقطة نهاية API الخاصة بـ Ollama. القيمة الافتراضية:http://localhost:11434/api/embeddings
OLLAMA_MODELأوEMBEDDINGS_OLLAMA_MODEL:model_nameOLLAMA_URLأوEMBEDDINGS_OLLAMA_URL:url
Amazon Bedrock
Amazon Bedrock
main.py
model_name(str): معرّف نموذج Bedrock. القيمة الافتراضية:amazon.titan-embed-text-v1. الخيارات:amazon.titan-embed-text-v1،amazon.titan-embed-text-v2:0،cohere.embed-english-v3،cohere.embed-multilingual-v3session(Any): كائن جلسة Boto3 لمصادقة AWS
AWS_ACCESS_KEY_ID: مفتاح وصول AWSAWS_SECRET_ACCESS_KEY: مفتاح سري AWSAWS_REGION: منطقة AWS (مثلus-east-1)
Azure OpenAI
Azure OpenAI
main.py
deployment_id(str): مطلوب - معرّف نشر Azure OpenAIapi_key(str): مفتاح API لـ Azure OpenAIapi_base(str): نقطة نهاية مورد Azure OpenAIapi_version(str): إصدار API. مثال:2024-02-01model_name(str): اسم النموذج. القيمة الافتراضية:text-embedding-ada-002api_type(str): نوع API. القيمة الافتراضية:azuredimensions(int): أبعاد المخرجاتdefault_headers(dict): ترويسات مخصصة
AZURE_OPENAI_API_KEYأوEMBEDDINGS_AZURE_API_KEY:api_keyAZURE_OPENAI_ENDPOINTأوEMBEDDINGS_AZURE_API_BASE:api_baseEMBEDDINGS_AZURE_DEPLOYMENT_ID:deployment_idEMBEDDINGS_AZURE_API_VERSION:api_versionEMBEDDINGS_AZURE_MODEL_NAME:model_nameEMBEDDINGS_AZURE_API_TYPE:api_typeEMBEDDINGS_AZURE_DIMENSIONS:dimensions
Google Generative AI
Google Generative AI
main.py
api_key(str): مفتاح API لـ Google AImodel_name(str): اسم النموذج. القيمة الافتراضية:gemini-embedding-001. الخيارات:gemini-embedding-001،text-embedding-005،text-multilingual-embedding-002task_type(str): نوع المهمة للتضمينات. القيمة الافتراضية:RETRIEVAL_DOCUMENT. الخيارات:RETRIEVAL_DOCUMENT،RETRIEVAL_QUERY
GOOGLE_API_KEYأوGEMINI_API_KEYأوEMBEDDINGS_GOOGLE_API_KEY:api_keyEMBEDDINGS_GOOGLE_GENERATIVE_AI_MODEL_NAME:model_nameEMBEDDINGS_GOOGLE_GENERATIVE_AI_TASK_TYPE:task_type
Google Vertex AI
Google Vertex AI
main.py
model_name(str): اسم النموذج. القيمة الافتراضية:textembedding-gecko. الخيارات:text-embedding-004،textembedding-gecko،textembedding-gecko-multilingualproject_id(str): معرّف مشروع Google Cloud. القيمة الافتراضية:cloud-large-language-modelsregion(str): منطقة Google Cloud. القيمة الافتراضية:us-central1api_key(str): مفتاح API للمصادقة
GOOGLE_APPLICATION_CREDENTIALS: مسار ملف JSON لحساب الخدمةGOOGLE_CLOUD_PROJECTأوEMBEDDINGS_GOOGLE_VERTEX_PROJECT_ID:project_idEMBEDDINGS_GOOGLE_VERTEX_MODEL_NAME:model_nameEMBEDDINGS_GOOGLE_VERTEX_REGION:regionEMBEDDINGS_GOOGLE_VERTEX_API_KEY:api_key
Jina AI
Jina AI
main.py
api_key(str): مفتاح API لـ Jina AImodel_name(str): اسم النموذج. القيمة الافتراضية:jina-embeddings-v2-base-en. الخيارات:jina-embeddings-v3،jina-embeddings-v2-base-en،jina-embeddings-v2-small-en
JINA_API_KEYأوEMBEDDINGS_JINA_API_KEY:api_keyEMBEDDINGS_JINA_MODEL_NAME:model_name
HuggingFace
HuggingFace
main.py
url(str): عنوان URL الكامل لنقطة نهاية API الاستدلالي لـ HuggingFace
HUGGINGFACE_URLأوEMBEDDINGS_HUGGINGFACE_URL:url
Instructor
Instructor
main.py
model_name(str): معرّف نموذج HuggingFace. القيمة الافتراضية:hkunlp/instructor-base. الخيارات:hkunlp/instructor-xl،hkunlp/instructor-large،hkunlp/instructor-basedevice(str): الجهاز للتشغيل. القيمة الافتراضية:cpu. الخيارات:cpu،cuda،mpsinstruction(str): بادئة التعليمات للتضمينات
EMBEDDINGS_INSTRUCTOR_MODEL_NAME:model_nameEMBEDDINGS_INSTRUCTOR_DEVICE:deviceEMBEDDINGS_INSTRUCTOR_INSTRUCTION:instruction
Sentence Transformer
Sentence Transformer
main.py
model_name(str): اسم نموذج Sentence Transformers. القيمة الافتراضية:all-MiniLM-L6-v2. الخيارات:all-mpnet-base-v2،all-MiniLM-L6-v2،paraphrase-multilingual-MiniLM-L12-v2device(str): الجهاز للتشغيل. القيمة الافتراضية:cpu. الخيارات:cpu،cuda،mpsnormalize_embeddings(bool): ما إذا كان يتم تطبيع التضمينات. القيمة الافتراضية:False
EMBEDDINGS_SENTENCE_TRANSFORMER_MODEL_NAME:model_nameEMBEDDINGS_SENTENCE_TRANSFORMER_DEVICE:deviceEMBEDDINGS_SENTENCE_TRANSFORMER_NORMALIZE_EMBEDDINGS:normalize_embeddings
ONNX
ONNX
main.py
preferred_providers(list[str]): قائمة مزودي تنفيذ ONNX حسب ترتيب الأفضلية
EMBEDDINGS_ONNX_PREFERRED_PROVIDERS:preferred_providers(قائمة مفصولة بفواصل)
OpenCLIP
OpenCLIP
main.py
model_name(str): بنية نموذج OpenCLIP. القيمة الافتراضية:ViT-B-32. الخيارات:ViT-B-32،ViT-B-16،ViT-L-14checkpoint(str): اسم نقطة التحقق المُدرّبة مسبقاً. القيمة الافتراضية:laion2b_s34b_b79k. الخيارات:laion2b_s34b_b79k،laion400m_e32،openaidevice(str): الجهاز للتشغيل. القيمة الافتراضية:cpu. الخيارات:cpu،cuda
EMBEDDINGS_OPENCLIP_MODEL_NAME:model_nameEMBEDDINGS_OPENCLIP_CHECKPOINT:checkpointEMBEDDINGS_OPENCLIP_DEVICE:device
Text2Vec
Text2Vec
main.py
model_name(str): اسم نموذج Text2Vec من HuggingFace. القيمة الافتراضية:shibing624/text2vec-base-chinese. الخيارات:shibing624/text2vec-base-multilingual،shibing624/text2vec-base-chinese
EMBEDDINGS_TEXT2VEC_MODEL_NAME:model_name
Roboflow
Roboflow
main.py
api_key(str): مفتاح API لـ Roboflow. القيمة الافتراضية:""(سلسلة فارغة)api_url(str): عنوان URL لـ API الاستدلالي لـ Roboflow. القيمة الافتراضية:https://infer.roboflow.com
ROBOFLOW_API_KEYأوEMBEDDINGS_ROBOFLOW_API_KEY:api_keyROBOFLOW_API_URLأوEMBEDDINGS_ROBOFLOW_API_URL:api_url
WatsonX (IBM)
WatsonX (IBM)
main.py
model_id(str): معرّف نموذج WatsonXurl(str): نقطة نهاية API لـ WatsonXapi_key(str): مفتاح API لـ IBM Cloudproject_id(str): معرّف مشروع WatsonXspace_id(str): معرّف مساحة WatsonX (بديل لـ project_id)batch_size(int): حجم الدفعة للتضمينات. القيمة الافتراضية:100concurrency_limit(int): الحد الأقصى للطلبات المتزامنة. القيمة الافتراضية:10persistent_connection(bool): استخدام اتصالات مستمرة. القيمة الافتراضية:True- بالإضافة إلى أكثر من 20 خيار مصادقة وإعداد إضافي
WATSONX_API_KEYأوEMBEDDINGS_WATSONX_API_KEY:api_keyWATSONX_URLأوEMBEDDINGS_WATSONX_URL:urlWATSONX_PROJECT_IDأوEMBEDDINGS_WATSONX_PROJECT_ID:project_idEMBEDDINGS_WATSONX_MODEL_ID:model_idEMBEDDINGS_WATSONX_SPACE_ID:space_idEMBEDDINGS_WATSONX_BATCH_SIZE:batch_sizeEMBEDDINGS_WATSONX_CONCURRENCY_LIMIT:concurrency_limitEMBEDDINGS_WATSONX_PERSISTENT_CONNECTION:persistent_connection
مخصص
مخصص
main.py
embedding_callable(type[EmbeddingFunction]): فئة دالة تضمين مخصصة
EmbeddingFunction المحدد في crewai.rag.core.base_embeddings_callable. يجب أن تقبل طريقة __call__ بيانات الإدخال وتعيد التضمينات كقائمة من مصفوفات numpy (أو تنسيق متوافق سيتم تطبيعه). يتم تطبيع التضمينات المُعادة والتحقق منها تلقائياً.ملاحظات
- جميع حقول الإعداد اختيارية ما لم يُذكر أنها مطلوبة
- يمكن عادة تقديم مفاتيح API عبر متغيرات البيئة بدلاً من الإعداد
- تُعرض القيم الافتراضية حيثما ينطبق ذلك
الخلاصة
توفرRagTool طريقة قوية لإنشاء واستعلام قواعد المعرفة من مصادر بيانات متنوعة. من خلال الاستفادة من التوليد المعزز بالاسترجاع، تمكّن الوكلاء من الوصول إلى المعلومات ذات الصلة واسترجاعها بكفاءة، مما يعزز قدرتهم على تقديم استجابات دقيقة ومناسبة للسياق.