성민이다아ㅏㅏ

  • 홈
  • 태그
  • 방명록

qwen2.5-vl 1

PDF 문서 파싱 전략

서론오늘은 쉬어가는 느낌으로 간단하게 문서 파싱에 대해 다뤄보겠습니다. AI Agent를 개발하다 보면 다양한 형태의 PDF 문서를 처리해야 할 때가 많습니다. 깨끗하게 텍스트가 추출되는 PDF도 있지만, 스캔본처럼 이미지 형태로 되어 있어 일반적인 파서로는 텍스트 추출이 어려운 문서들도 있습니다. 이러한 문제에 직면했을 때, 단순히 특정 파서 하나만으로 모든 문서를 완벽하게 처리하기 어렵다는 것을 깨달았습니다. 그래서 다양한 문서 유형에 대응하고 효율성과 정확성을 동시에 잡는 파싱 전략을 생각해봤습니다. 이번 글에서는 이 전략이 어떻게 세워졌는지 코드와 함께 살펴보겠습니다. 일단 오늘 사용할 문서의 예시는 아래와 같습니다. 이후 글에서 각 모델들이 어떻게 추출했는지 참고해보세요원본 문서는 https:/..

NLP 2025.05.31
이전
1
다음
더보기
프로필사진

LLM으로 할 수 있는건 다 해봅니다!!

  • 분류 전체보기 (12)
    • NLP (10)
    • VISION (0)
    • 설정 (1)
    • 논문리뷰 (1)

Tag

pdf 서식 추출, pdfplumber, LLM, 코드제공, pdfminer, 딥러닝, ai 문서 자동화, 멀티모달, AI, deepseek, qwen-2.5-vl, NLP, ollama, local, pdf parser, langgraph, qwen3, 자동 보고서 작성, qwen2.5-vl, langchain,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바