`PDFSearchTool`

도구를 계속 개선하고 있으므로, 예기치 않은 동작이나 변경사항이 있을 수 있습니다.

설명

PDFSearchTool은 PDF 콘텐츠 내에서 의미론적 검색을 위해 설계된 RAG 도구입니다. 이 도구는 검색 쿼리와 PDF 문서를 입력받아 고급 검색 기법을 활용하여 관련 콘텐츠를 효율적으로 찾을 수 있습니다. 이 기능을 통해 대용량 PDF 파일에서 특정 정보를 신속하게 추출할 수 있어 특히 유용합니다.

설치

PDFSearchTool을 시작하려면 먼저 crewai_tools 패키지가 다음 명령어로 설치되어 있는지 확인하세요:

pip install 'crewai[tools]'

예시

다음은 PDFSearchTool을 사용하여 PDF 문서 내에서 검색하는 방법입니다:

Code

from crewai_tools import PDFSearchTool

# 실행 시 경로가 제공되면 모든 PDF 콘텐츠 검색을 허용하도록 도구를 초기화합니다.
tool = PDFSearchTool()

# 또는

# 특정 PDF 경로로 도구를 초기화하여 해당 문서 내에서만 검색합니다.
tool = PDFSearchTool(pdf='path/to/your/document.pdf')

인수

pdf: 선택 사항 검색할 PDF 경로입니다. 초기화 시 또는 run 메서드의 인수로 제공할 수 있습니다. 초기화 시 제공되면, 도구는 지정된 문서로 검색 범위를 제한합니다.

커스텀 모델 및 임베딩

기본적으로 이 도구는 임베딩과 요약 모두에 OpenAI를 사용합니다. 모델을 커스터마이즈하려면 다음과 같이 config 딕셔너리를 사용할 수 있습니다. 참고: 임베딩은 벡터DB에 저장되어야 하므로 vectordb 설정이 필요합니다.

Code

from crewai_tools import PDFSearchTool
from chromadb.config import Settings  # Chroma 영속성 설정

tool = PDFSearchTool(
    config={
        # 필수: 임베딩 제공자와 설정
        "embedding_model": {
            # 사용 가능 공급자: "openai", "azure", "google-generativeai", "google-vertex",
            # "voyageai", "cohere", "huggingface", "jina", "sentence-transformer",
            # "text2vec", "ollama", "openclip", "instructor", "onnx", "roboflow", "watsonx", "custom"
            "provider": "openai",
            "config": {
                # "model" 키는 내부적으로 "model_name"으로 매핑됩니다.
                "model": "text-embedding-3-small",
                # 선택: API 키 (미설정 시 환경변수 사용)
                # "api_key": "sk-...",

                # 공급자별 예시
                # --- Google ---
                # (provider를 "google-generativeai"로 설정)
                # "model": "models/embedding-001",
                # "task_type": "retrieval_document",

                # --- Cohere ---
                # (provider를 "cohere"로 설정)
                # "model": "embed-english-v3.0",

                # --- Ollama(로컬) ---
                # (provider를 "ollama"로 설정)
                # "model": "nomic-embed-text",
            },
        },

        # 필수: 벡터DB 설정
        "vectordb": {
            "provider": "chromadb",  # 또는 "qdrant"
            "config": {
                # Chroma 설정 예시
                # "settings": Settings(
                #     persist_directory="/content/chroma",
                #     allow_reset=True,
                #     is_persistent=True,
                # ),

                # Qdrant 설정 예시
                # from qdrant_client.models import VectorParams, Distance
                # "vectors_config": VectorParams(size=384, distance=Distance.COSINE),

                # 참고: 컬렉션 이름은 도구에서 관리합니다(기본값: "rag_tool_collection").
            }
        },
    }
)

보안

경로 유효성 검사

이 도구에 제공되는 파일 경로는 현재 작업 디렉터리에 대해 검증됩니다. 작업 디렉터리 외부로 확인되는 경로는 ValueError로 거부됩니다. 작업 디렉터리 외부의 경로를 허용하려면 (예: 테스트 또는 신뢰할 수 있는 파이프라인), 다음 환경 변수를 설정하세요:

CREWAI_TOOLS_ALLOW_UNSAFE_PATHS=true

URL 유효성 검사

URL 입력도 검증됩니다: file:// URI와 사설 또는 예약된 IP 범위를 대상으로 하는 요청은 서버 측 요청 위조(SSRF) 공격을 방지하기 위해 차단됩니다.

파일 쓰기

DOCX RAG 검색

⌘I

​PDFSearchTool

​설명

​설치

​예시

​인수

​커스텀 모델 및 임베딩

​보안

​경로 유효성 검사

​URL 유효성 검사

`PDFSearchTool`

설명

설치

예시

인수

커스텀 모델 및 임베딩

보안

경로 유효성 검사

URL 유효성 검사