핵심 요약
현대자동차가 LLM 기반 RAG 파이프라인을 구축해 2000자 이상 페이지를 컨텍스트로 삼아 자동으로 질문-답변 데이터를 생성하는 방법을 공유했습니다.
구현 방법
- PDF를 PyPDFLoader로 로드하고 페이지 단위 컨텍스트를 활용하는 구조를 구성
- 템플릿 프롬프트와 JsonOutputParser를 통해 출력이 JSON 형태로 정렬되도록 설계
- LangChain 체인(LLM 호출 + 파서)으로 데이터 생성 파이프라인을 정의
- EDA로 문서의 글자수 분포를 확인하고 2000자 이상 페이지를 대상으로 데이터 규모를 판단
주요 결과
- 문서는 125페이지 중 86페이지 이상이 2000자 이상으로 정보 풍부성이 높은 것으로 확인
- 샘플 페이지를 참조해 3개 데이터셋 생성 시나리오를 시연
- 생성 데이터는 JSON 형식으로 저장하는 파이프라인의 가능성을 확인