문서에서 텍스트로

문서에서 텍스트로

FlowHunt의 ‘문서에서 텍스트로’ 컴포넌트로 구조화된 데이터를 읽기 쉬운 마크다운 텍스트로 변환하세요. 효율적이고 적합한 AI 기반 출력을 위한 맞춤형 제어 기능을 제공합니다.

컴포넌트 설명

문서에서 텍스트로 컴포넌트 작동 방식

AI는 방대한 양의 데이터를 순식간에 분석할 수 있지만, 그중 일부만이 실제로 출력에 적합하거나 관련성이 있습니다. 문서에서 텍스트로 컴포넌트는 리트리버에서 받은 데이터를 어떻게 처리하고 텍스트로 변환할지에 대해 사용자가 직접 제어할 수 있도록 해줍니다.

문서에서 텍스트로 컴포넌트는 입력된 지식 문서를 일반 텍스트 형식으로 변환하도록 설계되었습니다. 이는 텍스트 데이터가 추가 처리, 분석 또는 언어 모델의 입력으로 요구되는 AI 및 데이터 처리 워크플로우에서 특히 유용합니다.

컴포넌트의 기능

이 컴포넌트는 하나 이상의 구조화된 문서(HTML, 마크다운, PDF 또는 기타 지원되는 형식 등)를 받아 텍스트 콘텐츠를 추출합니다. 사용자는 문서의 어느 부분을 내보낼지, 메타데이터를 포함할지, 문서의 섹션이나 헤더를 어떻게 처리할지 등을 정확히 지정할 수 있습니다. 출력 결과는 추출된 텍스트가 담긴 통합 메시지 객체로, 요약, 분류, 질의응답 등 다양한 다운스트림 작업에 활용할 수 있습니다.

입력값

이 컴포넌트는 여러 가지 설정 가능한 입력값을 받습니다:

입력 이름타입필수설명기본값
문서List[Document]텍스트로 변환할 지식 문서입니다.N/A (사용자 입력)
H1부터 시작Boolean첫 번째 H1 헤더가 있는 경우 해당 부분부터 추출을 시작합니다.true
포인터에서 시작Boolean입력 쿼리에 가장 잘 맞는 포인터에서 추출을 시작하거나, 일치하지 않으면 전체를 불러옵니다.true
최대 토큰 수Integer아니오출력 텍스트의 최대 토큰 수를 지정합니다.3000
마지막 헤더 건너뛰기Boolean출력 최적화를 위해 마지막 헤더(흔히 푸터)를 건너뜁니다.false
전략String텍스트 추출 전략: 문서 연결 또는 각 문서에서 동일한 크기만큼 포함.“각 문서에서 동일한 크기만큼 포함”
콘텐츠 내보내기Multi-select아니오어떤 콘텐츠 유형(H1, H2, 단락 등)을 포함할지 지정합니다.모든 유형 선택됨
메타데이터 포함Multi-select아니오출력에 포함할 메타데이터 필드를 지정합니다(가능한 경우).Product

사용 가능한 콘텐츠 유형: H1, H2, H3, H4, H5, H6, Paragraph
메타데이터 옵션: Author, Product, BreadcrumbList, VideoObject, BlogPosting, FAQPage, WebSite, opengraph

출력값

이 컴포넌트는 다음과 같은 출력을 생성합니다:

  • 메시지: 변환된 텍스트와 포함된 메타데이터가 담긴 메시지 객체.

주요 특징 및 활용도

  • 유연한 콘텐츠 추출: 문서의 어느 부분(예: 주요 헤더와 단락만, 또는 전체 등)을 추출할지 정밀하게 제어할 수 있습니다.
  • 메타데이터 포함: 출력에 풍부한 메타데이터(예: 저자, 제품, 구조화 데이터 등)를 선택적으로 포함할 수 있어, 후속 맥락화에 유용합니다.
  • 토큰 제한 관리: 최대 토큰 수를 설정하여, 다운스트림 모델 요구 사항에 맞는 출력 크기로 제어할 수 있습니다.
  • 맞춤형 추출 전략:
    • 문서 연결, 첫 문서부터 토큰 한도까지 채우기: 첫 번째 문서부터 순차적으로 출력을 채웁니다.
    • 각 문서에서 동일한 크기만큼 포함: 여러 문서에서 균형 있게 내용을 추출합니다.
  • 스마트 섹션 처리: 푸터 등 문서 하단을 생략하거나 쿼리에 가장 적합한 섹션부터 시작하는 등, 추출 텍스트의 관련성을 높이는 옵션을 제공합니다.

대표 사용 사례

  • 지식 베이스 사전 처리 (예: 임베딩 또는 인덱싱 전)
  • 대용량 문서 요약/압축: 관련 섹션만 추출
  • 구조화된 콘텐츠를 챗봇, 검색엔진, NLP 파이프라인에 입력
  • 텍스트와 메타데이터를 결합한 하이브리드 검색 시스템 구축

요약 표

기능설명
입력 유형문서 목록
출력 유형메시지(텍스트 + 메타데이터)
콘텐츠 세분성포함할 헤더/단락 선택 가능
메타데이터 옵션내보낼 여러 메타데이터 필드 선택 가능
출력 크기 제어최대 토큰 수 설정 가능
추출 전략문서 연결 또는 문서 간 균형
섹션 선택H1부터, 포인터부터, 마지막 헤더 건너뛰기 등

전략

봇은 원하는 텍스트 출력을 위해 여러 문서를 크롤링할 수 있습니다. 전략 설정을 통해 토큰 한도 내에서 이러한 문서를 어떻게 활용할지 스마트하게 제어할 수 있습니다.

현재 가능한 전략은 두 가지입니다:

  • 각 문서에서 동일한 크기만큼 포함: 발견된 모든 문서를 균등하게 활용합니다.
  • 문서 연결, 첫 문서부터 토큰 한도까지 채우기: 문서를 연결하되, 쿼리와의 관련성에 따라 우선순위를 부여합니다.

문서에서 텍스트로 컴포넌트를 플로우에 연결하는 방법

이 컴포넌트는 트랜스포머 컴포넌트로, 두 출력 간의 연결을 담당합니다. 문서에서 텍스트로는 리트리버 컴포넌트에서 출력된 문서를 입력값으로 받습니다:

  • 문서 리트리버 – 연결된 지식 소스(페이지, 문서 등)에서 지식을 가져옵니다.
  • URL 리트리버 – 봇이 지식을 얻을 URL을 지정할 수 있습니다.
  • GoogleSearch – 봇이 웹에서 지식을 검색할 수 있는 기능을 제공합니다.

지식은 트랜스포머를 거치며 읽기 쉬운 마크다운 텍스트로 변환됩니다. 이 텍스트는 이후 분할기, 위젯, 출력 등 텍스트 입력이 필요한 컴포넌트와 연결할 수 있습니다.

아래는 문서에서 텍스트로 컴포넌트를 사용해 문서 리트리버와 AI 생성기 사이를 연결하는 플로우 예시입니다:

Example of how to use Document Retriever in Flowhunt

자주 묻는 질문

문서에서 텍스트로 컴포넌트란 무엇인가요?

이 컴포넌트는 리트리버 유형의 컴포넌트에서 지식을 가져와 읽기 쉬운 마크다운 텍스트로 변환하며, 이후 텍스트 입력을 받는 어떤 컴포넌트와도 연결할 수 있습니다.

FlowHunt에서 문서에서 텍스트로를 사용해보세요

FlowHunt의 '문서에서 텍스트로' 컴포넌트로 더 스마트한 AI 솔루션 구축을 시작하세요. 데이터를 손쉽게 실행 가능한 텍스트로 변환하고 자동화된 워크플로우를 강화하세요.

더 알아보기

파일로 내보내기
파일로 내보내기

파일로 내보내기

FlowHunt의 파일로 내보내기(Export to File) 컴포넌트는 워크플로우에서 생성된 텍스트나 데이터를 TXT, PDF, CSV 등 다양한 형식의 다운로드 가능한 파일로 저장할 수 있게 해줍니다. AI 워크플로우에서 파일 생성 자동화를 손쉽게 구현하세요....

2 분 읽기
Automation File Export +3
Google Docs 만들기
Google Docs 만들기

Google Docs 만들기

자동화된 워크플로 내에서 새로운 Google Docs 문서를 손쉽게 생성하세요. Google Docs 만들기 컴포넌트는 문서 내용과 파일명을 지정할 수 있어, AI 기반 프로세스에 문서 생성 과정을 매끄럽게 통합할 수 있습니다. 문서 생성, 보고서 작성, 협업 업무 자동화에 최적입니다....

2 분 읽기
Automation Google Docs +4
데이터 파싱
데이터 파싱

데이터 파싱

Parse Data 컴포넌트는 구조화된 데이터를 사용자 정의 템플릿을 활용해 일반 텍스트로 변환합니다. 유연한 포맷팅과 데이터 입력 변환을 통해 워크플로우 내에서 정보를 표준화하거나 후속 컴포넌트에 맞게 준비하는 데 도움을 줍니다....

2 분 읽기
Data Processing Automation +3