서론오늘은 쉬어가는 느낌으로 간단하게 문서 파싱에 대해 다뤄보겠습니다. AI Agent를 개발하다 보면 다양한 형태의 PDF 문서를 처리해야 할 때가 많습니다. 깨끗하게 텍스트가 추출되는 PDF도 있지만, 스캔본처럼 이미지 형태로 되어 있어 일반적인 파서로는 텍스트 추출이 어려운 문서들도 있습니다. 이러한 문제에 직면했을 때, 단순히 특정 파서 하나만으로 모든 문서를 완벽하게 처리하기 어렵다는 것을 깨달았습니다. 그래서 다양한 문서 유형에 대응하고 효율성과 정확성을 동시에 잡는 파싱 전략을 생각해봤습니다. 이번 글에서는 이 전략이 어떻게 세워졌는지 코드와 함께 살펴보겠습니다. 일단 오늘 사용할 문서의 예시는 아래와 같습니다. 이후 글에서 각 모델들이 어떻게 추출했는지 참고해보세요원본 문서는 https:/..